读书笔记_牛客图书馆

牛客图书馆 > 读书笔记

读书笔记

全部第1章第2章第3章第4章第5章第6章第7章第8章第9章第10章第11章

《Spark快速大数据分析》读书笔记_第四章（下）

数据分区在分布式程序中，通行的代价是很大的，因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样，Spark程序可以通过控制RDD分区方式来减少通信的开销。只有当数据集多次在诸如连接这...

君一时一迈编辑于 2019-05-17 21:11:23
《Spark快速大数据分析》读书笔记_第四章(上)

键值对操作键值对RDD是Spark中许多操作所需要的常用数据类型。键值对RDD通常用来进行聚合计算，一般要先通过一些初始的ETL（抽取、转化、转载）操作来将数据来转化为键值对形式。 Spark为包含键值对的RDD提供了一些专有的操作。这些...

君一时一迈编辑于 2019-05-09 23:01:57