牛客图书馆 > 读书笔记
  • 《Spark快速大数据分析》——第三章(下)

    3.2创建RDD Spark提供了两种创建RDD的方式:读取外部数据集。以及在驱动器中对一个集合进行并行化。 创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize()方法。 例如: #pyho...
    君一时一迈 编辑于 2019-04-26 18:14:50
  • 《Spark快速大数据分析》——第三章(上)

    Spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD,转化已有RDD以及调用已有RDD进行求值。而在这一切的背...
    君一时一迈 编辑于 2019-04-19 17:18:33