SparkSQL入门_牛客网

华为_2012实验室_Java工程师

关注

一起入门 spark 吧！

@JavaEdge： SparkSQL入门

0 SharkSpark 的一个组件，用于大规模数据分析的 SQL 查询引擎。Shark 提供了一种基于 SQL 的交互式查询方式，可以让用户轻松地对大规模数据集进行查询和分析。Shark 基于 Hive 项目，使用 Hive 的元数据存储和查询语法，并基于Hive进行了性能优化和扩展。0.1 设计灵感来自 Google 的 Dremel 系统:将数据存储在列式存储引擎使用分布式计算引擎进行查询Shark 采用类似架构并使用 Spark 作为计算引擎，使 Shark 具有很高查询性能和可扩展性。0.2 缺陷Shark 在 Spark 1.0 发布之后被正式弃用，Shark 的性能和可扩展性相对于 Spark SQL 来说存在一些局限性。以下是一些导致 Shark 被淘汰因素：① 数据模型Shark 基于 Hive 数据模型，使用 Hive 的元数据存储和查询语法，导致查询语句执行效率较低。② 计算模型Shark 采用类似 Dremel 的列式存储引擎，虽能提高查询效率，但也导致更高内存开销和更复杂代码实现。③ 性能和可扩展性Shark性能和可扩展性相对Spark SQL存在一些局限性，如不支持流计算、新的数据源。因此，Spark社区放弃 Shark，转而对 Spark SQL 更深入研究，以提高查询性能和可扩展性，并支持更多数据源和计算模型。因此，Spark SQL 取代 Shark 成为 Spark 生态系统的 SQL 查询引擎。1 概述Spark SQL，结构化数据处理的Spark模块。Spark SQL官网误区：Spark SQL就是一个SQL处理框架，不仅是处理 SQL自 Spark 1.0 版本（2014 年 4 月）以来成为核心发布的一部分。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息执行额外的优化。与Spark SQL交互的几种方法包括SQL和Dataset API。在计算结果时，无论使用哪种API /语言表达计算，都使用相同的执行引擎。这种统一意味着开发人员可以根据提供最自然的方式表达给定转换的API轻松切换。2 用途执行SQL查询。 Spark SQL也可用于从Hive读取数据。当从另一种编程语言中运行SQL时，结果将作为Dataset/DataFrame返回。还可使用命令行或通过JDBC/ODBC与SQL接口交互。3 特性3.1 集成性Spark SQL可让你在Spark程序用SQL或熟悉的DataFrame API查询结构化数据。可在Java、Scala、Python和R中使用。它可使SQL查询与Spark程序无缝混合。3.2 统一数据访问DataFrames和SQL提供了一种通用方式访问各种数据源如Hive、Avro、Parquet、ORC、JSON和JDBC。甚至可在这些数据源之间联接数据。spark.read.format("json").load(path)spark.read.format("text").load(path)spark.read.format("parquet").load(path)spark.read.format("json").option("...","...").load(path)3.3 兼容HiveSpark SQL支持HiveQL语法以及Hive SerDes和UDF，使你可以访问现有的Hive仓库并在其上运行SQL或HiveQL查询。如果你想把Hive的作业迁移到Spark SQL，这样的话，迁移成本就会低很多3.4 标准的数据连接Spark SQL提供了服务器模式，可为BI提供行业标准的JDBC和ODBC连接功能。通过该功能，可通过JDBC或ODBC连接到Spark SQL并进行数据查询和操作。4 架构5  spark-submit 启动应用程序一旦绑定用户应用程序，就能用spark-submit启动。该脚本负责使用 Spark 及其依赖项设置类路径，并支持 Spark 支持的不同集群管理器和部署模式：./bin/spark-submit \  --class <main-class> \  --master <master-url> \  --deploy-mode <deploy-mode> \  --conf <key>=<value> \  ... # other options  <application-jar> \  [application-arguments]常用选项：--class：应用程序入口点（如org.apache.spark.examples.SparkPi）--master：集群的主 URLspark://23.195.26.187:7077--deploy-mode: 在工作节点部署你的驱动程序 ( cluster) 还是在本地作为外部客户端 ( client) (默认: client)--conf：K=V 格式的任意 Spark 配置属性。对于包含空格的值，将“key=value”括在引号中（如图所示）。多个配置应作为单独的参数传递。（如--conf <key>=<value> --conf <key2>=<value2>）application-jar：包含你的应用程序和所有依赖项的捆绑 jar 的路径。该 URL 必须在你的集群内全局可见，如路径hdfs://或file://存在于所有节点上的路径#!/usr/bin/env bash# 检查Spark SQL的环境变量if [[ -z "${SPARK_HOME}" ]]; then  echo "SPARK_HOME is not set!" >&2  exit 1fi# 设置Spark SQL的类路径export SPARK_CLASSPATH="${SPARK_HOME}/jars/*:${SPARK_HOME}/conf"# 启动Spark SQL的服务exec "${SPARK_HOME}/bin/spark-submit" \  --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2 \  --name "Spark SQL Thrift Server" \  --master yarn \  --deploy-mode client \  --conf "spark.sql.hive.thriftServer.singleSession=true" \  --conf "spark.sql.hive.thriftServer.incrementalCollect=true" \  "${SPARK_HOME}/jars/spark-hive-thriftserver.jar" \  "$@"检查Spark SQL的环境变量，如果没有设置则退出脚本。设置Spark SQL的类路径，包含了Spark的jar包和配置文件。使用spark-submit命令启动Spark SQL的服务。指定启动类为HiveThriftServer2，该类负责启动Spark SQL的Thrift Server。指定服务名称为"Spark SQL Thrift Server"。指定Spark运行模式为yarn，提交任务到yarn集群中运行。指定部署模式为client，即客户端模式。设置Spark SQL的配置项，例如singleSession和incrementalCollect。指定启动的jar包为spark-hive-thriftserver.jar。最后传入用户输入的参数。关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计车联网核心平台-物联网连接平台、大数据平台架构设计及优化目前主攻降低软件复杂性设计、构建高可用系统方向。参考：编程严选网

点赞 0

评论 1

全部评论

推荐最新楼层

02-18 22:10

门头沟学院管理培训生

谢谢这位朋友

你2026年也会进大厂的！

牛客新年AI问运

点赞评论收藏

分享

02-16 10:50

三一重能_C++研发工程师(准入职员工)

网易互娱内推，网易互娱内推码

网易互娱一面游戏用户运营岗，一面是业务面，少量有关简历的问题。自我介绍2-3分钟实习经历+收获，校园科研经历+获得的能力，体现出特色实习中有什么样的收获？同类型的问题有：实习中的挑战，最大的感触等，最后的落脚点可以落在通过这些挑战获得了什么的感触等对这个岗位的认识从用户运营的对象，手段，目的等方面入手，形成体系，回答会更有逻辑对回答到的几个流程有什么指标衡量？拉新：新增用户数。促活：日/周/月活跃用户、DAOT = 日总计在线时长/日活跃用户数。这是衡量游戏粘性的重要指标。留存：次日留存率，七日留存率等付费：付费渗透率等最近经常玩的游戏开始进入正题了，一定是特别了解或者提前了解过的游戏，网易游...

点赞评论收藏

分享

01-20 16:59

大连理工大学 Java

Java实习或者大模型开发实习

大佬们，帮我拷打一下我这个简历，有什么问题吗，第一个用python做的项目需不需要换一下才好找实习

点赞评论收藏

分享

02-06 13:06

第一拖拉机制造厂拖拉机学院 C++

不说别的东西hot100一定要熟练 一定要理解 不是死记硬背那种 很多公司都是考这些的 只有这些稳了才有冲击大厂的资格

程序员找工作至少要刷多少...

点赞评论收藏

分享

02-20 18:18

浙江大学算法工程师

快手C++ 一面面经

1. 介绍一下你做过的项目，重点说说技术难点 (15min)答案要点：选择1-2个最有技术含量的项目深入讲解强调：性能瓶颈分析、内存优化、多线程并发、崩溃率降低用数据说话：启动速度提升40%、内存占用降低30%、崩溃率从2%降到0.5%准备追问：为什么这么设计？有没有考虑其他方案？如何权衡的？2. 智能指针有哪几种？shared_ptr的实现原理智能指针类型：unique_ptr：独占所有权，不可拷贝只能移动shared_ptr：共享所有权，引用计数管理weak_ptr：弱引用，解决循环引用问题auto_ptr：已废弃（C++11）shared_ptr实现原理： template<typ...

C++八股文全集

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客新年AI问运 #

14223次浏览 168人参与

# 你最讨厌面试被问什么 #

1501次浏览 26人参与

# 牛客AI体验站 #

17908次浏览 303人参与

# 有转正机会的小厂实习值得去吗？ #

815次浏览 20人参与

# 牛友们，签完三方你在忙什么？ #

137441次浏览 994人参与

# 担心入职之后被发现很菜怎么办 #

282579次浏览 1186人参与

# 如何缓解入职前的焦虑 #

258952次浏览 1453人参与

# 校招第一份工作你干了多久？ #

139452次浏览 609人参与

# 去年的flag与今年的小目标 #

34384次浏览 337人参与

# 牛客租房专区 #

151787次浏览 1493人参与

# 秋招开始捡漏了吗 #

229512次浏览 1044人参与

# 九月了，是考研还是就业？ #

89442次浏览 557人参与

# 秋招投递攻略 #

268846次浏览 2554人参与

# 这份实习，有没有动摇过你的职业方向？ #

2332次浏览 40人参与

# 搜狐工作体验 #

4127次浏览 30人参与

# 机械人求职现状 #

33676次浏览 297人参与

# 我是XXX，请攻击我最薄弱的地方 #

61820次浏览 410人参与

# 用友工作体验 #

18102次浏览 151人参与

# 你的工资什么时候发？ #

57547次浏览 355人参与

# 你的实习什么时候入职 #

348170次浏览 2292人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务