读书笔记_牛客图书馆

牛客图书馆 > 读书笔记

开通博客写笔记

读书笔记

全部第1章第2章第3章第4章第5章第6章第7章第8章第9章第10章第11章

集群管理器

集群管理器 Spark可以运行在各种集群管理器上，并通过集群管理器访问集群中的机器。如果只想在一堆机器上运行Spark，那么自带的独立模式是部署该集群最简单的方法。然而，如果你有一个需要与别的分布式应用共享的集群（比如既可以运行Spark作业又可以运行H...

君一时一迈编辑于 2019-07-19 19:03:08
在集群上运行Spark

Spark的一大好处就是可以通过增加机器数量并使用集群模式运行，来扩展程序的计算能力。 Spark可以在各种各样的集群管理器（Hadoop YARN、Apache Mesos，还有Spark自带的独立集群管理器）上运行，所以Spark应用既能适应专用集群...

君一时一迈编辑于 2019-07-13 01:31:50
第六章——Spark进阶编程（三）

基于分区进行操作基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。例如打开数据库连接或创建随机数生成器等操作，都是我们应当尽量避免为每一个元素都配置一次的工作。 Spark提供基于分区的map和foreach，让部分代码只对R...

君一时一迈编辑于 2019-07-05 23:07:39
第六章——Spark进阶编程（二）

累加器——共享变量之一，用来对信息进行聚合。例：在Python中累加空行 file = sc.textFile(inputFile) #创建Accumulator[Int]并初始化为0 blankLines = sc.accumulator(0)...

君一时一迈编辑于 2019-06-28 17:19:19
第六章——Spark进阶编程（一）

累加器——共享变量之一，用来对信息进行聚合。例：在Python中累加空行 file = sc.textFile(inputFile) #创建Accumulator[Int]并初始化为0 blankLines = sc.accumulator(0)...

君一时一迈编辑于 2019-06-22 18:12:14
第五章——数据与读取保护（三）

逗号分隔值与制表符分割值逗号分隔值（CSV）文件每行都有固定的数目的字段，字段间用逗号隔开（在制表符分割值文件，即TSV文件中用制表符隔开）。CSV文件和TSV文件有时支持的标准并不一致，主要是在处理换行符、转义字符、非ASCLL字符。CSV原生并不支...

君一时一迈编辑于 2019-06-14 18:04:57
第五章——数据与读取保护（二）

逗号分隔值与制表符分割值逗号分隔值（CSV）文件每行都有固定的数目的字段，字段间用逗号隔开（在制表符分割值文件，即TSV文件中用制表符隔开）。CSV文件和TSV文件有时支持的标准并不一致，主要是在处理换行符、转义字符、非ASCLL字符。CSV原生并不支...

君一时一迈编辑于 2019-05-31 19:45:30
第五章——数据读取与保护（一）

如果数据量可能会大到无法放在一台机器中，这是就要探索别的数据存取和保存方法。 Spark支持很多输入输出源。三种常见的数据源： · 文件格式与文件系统对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、 Amaz...

君一时一迈编辑于 2019-05-24 19:42:03
《Spark快速大数据分析》读书笔记_第四章（下）

数据分区在分布式程序中，通行的代价是很大的，因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样，Spark程序可以通过控制RDD分区方式来减少通信的开销。只有当数据集多次在诸如连接这...

君一时一迈编辑于 2019-05-17 21:11:23
《Spark快速大数据分析》读书笔记_第四章(上)

键值对操作键值对RDD是Spark中许多操作所需要的常用数据类型。键值对RDD通常用来进行聚合计算，一般要先通过一些初始的ETL（抽取、转化、转载）操作来将数据来转化为键值对形式。 Spark为包含键值对的RDD提供了一些专有的操作。这些...

君一时一迈编辑于 2019-05-09 23:01:57

读书笔记

热门图书