首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
牛客图书馆
>
读书笔记
开通博客写笔记
读书笔记
全部
第1章
第2章
第3章
第4章
第5章
第6章
第7章
第8章
第9章
第10章
第11章
《Spark快速大数据分析》读书笔记_第四章(下)
数据分区 在分布式程序中,通行的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark程序可以通过控制RDD分区方式来减少通信的开销。 只有当数据集多次在诸如连接这...
君一时一迈
编辑于 2019-05-17 21:11:23
《Spark快速大数据分析》读书笔记_第四章(上)
键值对操作 键值对RDD是Spark中许多操作所需要的常用数据类型。键值对RDD通常用来进行聚合计算,一般要先通过一些初始的ETL(抽取、转化、转载)操作来将数据来转化为键值对形式。 Spark为包含键值对的RDD提供了一些专有的操作。这些...
君一时一迈
编辑于 2019-05-09 23:01:57
热门图书
复杂
JAVA 2核心技术 卷Ⅰ
阿基米德全集
统计学习方法
算法
算法竞赛进阶指南
查看全部