牛客图书馆 > 读书笔记
  • 第六章——Spark进阶编程(三)

    基于分区进行操作 基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。例如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每一个元素都配置一次的工作。 Spark提供基于分区的map和foreach,让部分代码只对R...
    君一时一迈 编辑于 2019-07-05 23:07:39
  • 第六章——Spark进阶编程(二)

    累加器——共享变量之一,用来对信息进行聚合。 例:在Python中累加空行 file = sc.textFile(inputFile) #创建Accumulator[Int]并初始化为0  blankLines = sc.accumulator(0)...
    君一时一迈 编辑于 2019-06-28 17:19:19
  • 第六章——Spark进阶编程(一)

    累加器——共享变量之一,用来对信息进行聚合。 例:在Python中累加空行 file = sc.textFile(inputFile) #创建Accumulator[Int]并初始化为0  blankLines = sc.accumulator(0)...
    君一时一迈 编辑于 2019-06-22 18:12:14