牛客图书馆 > 读书笔记
  • 《Spark快速大数据分析》读书笔记_第四章(下)

    数据分区 在分布式程序中,通行的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark程序可以通过控制RDD分区方式来减少通信的开销。 只有当数据集多次在诸如连接这...
    君一时一迈 编辑于 2019-05-17 21:11:23
  • 《Spark快速大数据分析》读书笔记_第四章(上)

    键值对操作 键值对RDD是Spark中许多操作所需要的常用数据类型。键值对RDD通常用来进行聚合计算,一般要先通过一些初始的ETL(抽取、转化、转载)操作来将数据来转化为键值对形式。 Spark为包含键值对的RDD提供了一些专有的操作。这些...
    君一时一迈 编辑于 2019-05-09 23:01:57