Spark快速大数据分析(读书笔记)

第七章 在集群上运行spark

7.2 Spark运行时构架

在分布式环境下颚,spark集群采用的是主/从结构。在一个spark集群中。有一个节点负责***协调,调度哥哥分布式工作节点。这个***协调节点被称为驱动器节点,预支对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的java进程运行。驱动器节点和所有的执行器节点一起被称为一个spark应用。
7.2.1 驱动器节点

spark驱动器是执行程序中main()方法的进程。它执行用户编写的用来创建SparkContext、创建RDD、以及进行RDD的转化操作和行动操作的代码。(比如当启动一个spark-shell时,就启动了一个spark驱动器程序。)
主要有两个职责:1. 把用户程序转化为任务 2.为执行器节点调度任务
7.2.2 执行器节点

spark执行器节点是一种工作进程,负责在spark作业中运行任务,任务间相互独立。
7.2.5 小结

用户通过spark-submit脚本提交应用。
spark-submit脚本启动驱动器程序,调用用户定义的main()方法。
驱动器进程执行用户 应用中的操作。根据程序中所定义的对RDD的转化操作和行动操作,驱动器节点把工作以任务的形式发送到执行器进程。
任务在执行器程序中进行计算并保存结果。
如果驱动器程序的main()方法退出,或者调用了SparkContext.stop(),驱动器程序会终止执行器进程,并且通过集群管理器释放资源。
7.3 使用spark-submit部署应用

初始化sparkSQL

采集系统上spark不能依赖于hive,该问题需要解决,109集群上可以依赖hive

目前使用sparkSQL

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.sql.SQLContext


val sc=new SparkContext()
val hiveCtx=new SQLContext(sc)
本文摘自——https://www.jianshu.com/p/c6aefad2ba0c
全部评论

相关推荐

喜欢喜欢喜欢:这是我见过最长最臭的简历
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务