首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
牛客图书馆
>
读书笔记
开通博客写笔记
读书笔记
全部
第1章
第2章
第3章
第4章
第5章
第6章
第7章
第8章
第9章
第10章
第11章
Spark SQL(三)
JDBC/ODBC Spark SQL也提供JDBC连接支持。JDBC服务器作为一个独立的Spark驱动器程序运行,可以在多用户之间共享。任何一个客户端都可以在内存中缓存数据表,对表进行查询。集群的资源和缓存的数据都在所用用户之间共享。 Spark...
君一时一迈
编辑于 2019-08-24 13:25:36
Spark Streaming 24/7不间断运行
Spark Streaming的一大优势在于它提供了强大的容错性保障。只要输入数据存储在可靠的系统中,Spark Streaming就可以根据输入计算出正确的结果,提供“精确一次”执行的语义。 检查点机制 检查点机制是我们在Spar...
君一时一迈
编辑于 2019-09-21 13:40:42
Spark Streaming-构架与抽象
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用,训练机器学习的模型的应用,还有自动检测异常的应用。 Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就...
君一时一迈
编辑于 2019-09-13 17:45:36
Spark Streaming-输入源
Spark Streaming原生支持一些不同的数据源。一些“核心”数据已经被打包到Spark Streaming的Maven工件中,而其他的一些则可以通过spark-streaming-kafka等附加工件获取。 核心数据源 所有的核心数...
君一时一迈
编辑于 2019-09-13 18:56:08
Spark Streaming-转化操作
转化操作:DStream的转化操作可以分为无状态(stateless)和有状态(stateful)两种。 ·在无状态转化操作中,每个批次的处理不依赖于之前批次的数据。之前的RDD转化操作,如map()、filter()、reduceByKey()等,都是...
君一时一迈
编辑于 2019-09-06 22:58:35
Spark SQL(二)
读取和存储数据 Spark SQL支持很多种结构化数据源,可以轻松从各种数据源中读取到Row对象。这些数据源包括Hive表、JSON和Parquet文件。此外,当使用SQL查询这些数据源中的数据且只用到部分字段时,Spark SQL可以智能地只扫描这些用...
君一时一迈
编辑于 2019-08-17 12:01:43
11-基于MLlib的机器学习-1
MLlib的设计理念非常简单:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。 MLlib引入了一些数据类型(比如点和向量),不过归根结底,MLlib就是RDD上一系列可供调用的函数集合。比如要用MLlib来完成文本分类任务(例如识别垃圾邮件...
君一时一迈
编辑于 2019-09-28 12:13:33
Spark SQL
Spark SQL——用来操作结构化和半结构化的数据接口。 结构化数据:指任何有结构信息的数据。所谓结构信息,就是每条记录共用的已知的字段集合。当数据符合这样的条件时,Spark SQL就会使得针对这些数据的读取和查询变得更加高效。 Spark S...
君一时一迈
编辑于 2019-08-09 22:43:23
调优与测试(二)
关键性考量 讨论运行Spark应用时可能会遇到的性能方面的常见问题,以及关于如何调优以获得最佳性能的一些小提示。分为在代码层面进行改动来提高性能和如何调优集群设定以及Spark的运行环境。 并行度 RDD的逻辑表示是一个对象的集合。在物理执行...
君一时一迈
编辑于 2019-08-03 01:05:10
第八章Spark调优与调试
使用SparkConf配置Spark Spark中最主要的配置机制就是通过SparkConf类对Spark进行配置。当创建出一个SparkContext时,就需要创建出一个SparkConf实例。如下面例子: #在Python中使用SparkConf创...
君一时一迈
编辑于 2019-07-26 22:30:52
首页
上一页
1
2
3
下一页
末页
热门图书
可怕的科学-经典数学系列套装-全12册
身体从未忘记
Effective java 中文版(第2版)
JavaScript设计模式与开发实践
蜡烛的故事
持续交付2.0
查看全部