首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
牛客图书馆
>
读书笔记
开通博客写笔记
读书笔记
全部
第1章
第2章
第3章
第4章
第5章
第6章
第7章
第8章
第9章
第10章
第11章
《Spark快速大数据分析》读书笔记_第四章(下)
数据分区 在分布式程序中,通行的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark程序可以通过控制RDD分区方式来减少通信的开销。 只有当数据集多次在诸如连接这...
君一时一迈
编辑于 2019-05-17 21:11:23
《Spark快速大数据分析》读书笔记_第四章(上)
键值对操作 键值对RDD是Spark中许多操作所需要的常用数据类型。键值对RDD通常用来进行聚合计算,一般要先通过一些初始的ETL(抽取、转化、转载)操作来将数据来转化为键值对形式。 Spark为包含键值对的RDD提供了一些专有的操作。这些...
君一时一迈
编辑于 2019-05-09 23:01:57
热门图书
文明之光(第一册)
看不见的森林
阿西莫夫最新科学指南(上下册)
生命的故事
JavaScript设计模式与开发实践
Neural Network Methods in Natural Language Processing
查看全部