读书笔记_牛客图书馆

牛客图书馆 > 读书笔记

读书笔记

全部第1章第2章第3章第4章第5章第6章第7章第8章第9章第10章第11章

《Spark快速大数据分析》——第三章（下）

3.2创建RDD Spark提供了两种创建RDD的方式：读取外部数据集。以及在驱动器中对一个集合进行并行化。创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize（）方法。例如： #pyho...

君一时一迈编辑于 2019-04-26 18:14:50
《Spark快速大数据分析》——第三章（上）

Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD，转化已有RDD以及调用已有RDD进行求值。而在这一切的背...

君一时一迈编辑于 2019-04-19 17:18:33