三石大数据

昨天 10:35 门头沟学院大数据开发工程师发布于北京

关注

一文详解Spark与MapReduce的区别【面试高频问题】

一句话说明两个计算框架之间的根本差异：Spark多个作业之间的数据通信是基于内存的，而Hadoop是基于磁盘的

参考答案如下：

MapReduce需要将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO；而Spark不需要将计算的中间结果写入磁盘，这得益于Spark的RDD弹性分布式数据集和DAG有向无环图，中间结果能够以RDD的形式存放在内存中，这样大大减少了磁盘IO。
MapReduce是多进程模型，每个task会运行在一个独立的JVM进程中，每次启动都需要重新申请资源，消耗了大量的时间；而Spark是多线程模型，每个executor会单独运行在一个JVM进程中，每个task则是运行在executor中的一个线程。
MapReduce在shuffle时需要花费大量时间排序，而spark在shuffle时如果选择基于hash的计算引擎，是不需要排序的，这样就会节省大量时间。

补充题：你是否熟悉Spark实现wordcount官方案例的代码？

一定要能够默写以下代码！！！

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount {
  def main(args: Array[String]): Unit = {
  
    val sparkConf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(sparkConf)

    try {
      val lines: RDD[String] = sc.textFile("datas/*")
      val words: RDD[String] = lines.flatMap(_.split(" "))
      val wordsMap: RDD[(String, Int)] = words.map(word => (word, 1))
      val wordsReduce: RDD[(String, Int)] = wordsMap.reduceByKey(_ + _)
      val res: Array[(String, Int)] = wordsReduce.collect()
      res.foreach {
        case (word, count) =>
          println(s"$word: $count")
      }
    } finally {
      sc.stop()
    }
  }
}

#数据人的面试交流地#

大数据开发面试笔记文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章：大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块；计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块；计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块；算法刷题篇包括大厂高频算法题、刷题速成计划等模块面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

推荐最新楼层

昨天 09:05

西南交通大学 golang

百度内推码百度内推码百度内推码百度内推码

百度校招内推开始了！ 内推码：IS9CAR 百度内推链接： https://talent.baidu.com/jobs/list?recommendCode=IS9CAR&recruitType=GRADUATE 欢迎大家投递我们的百度，有问题可以私聊我哟~ 填入内推码，完成投递，get内推绿色通道~我的内推码：IS9CAR 百度正在寻找有热情、有拼搏精神的人才，一起为打造更加智能化的未来而努力！  抓瓦面经，摘自优秀牛油 百度一面面经7.14 1.布隆过滤器使用场景 2.redis自增命令生成唯一id 3.雪花算法的实现 4.乐观锁解决超卖的逻辑 5.项目中下单部分的逻辑 6.如何实...

点赞评论收藏

分享

昨天 10:42

已编辑

重庆工信职业学院计调

书到用时方恨少

前辈！可以帮忙看看我的简历吗，感觉太差了。因为是专科很多企业都应聘不上学的是轨道运营管理，想着来牛客上找一下轻轨或者轨道类的工作，根本找不到

点赞评论收藏

分享

昨天 10:51

已编辑

门头沟学院 Java

恒生电子面经~

TTL10.10 统一笔试10.13 一面技术面10.22 二面-类似于hr面了一面(20min)主要问了实习相关的内容，问的很浅八股：堆和栈的区别，跨域问题二面（30min）问大学干了什么，性格，爱好，特长.....白送一个offer给双非 也行。

查看2道真题和解析

点赞评论收藏

分享

10-20 11:22

南京大学行政专员/助理

招到连体人是这样的

夏日狂想曲：连体婴是这样的，不过国内还有上四休三的公司?

点赞评论收藏

分享

昨天 10:40

游卡_游戏客户端开发(准入职员工)

游卡内推，游卡内推码

后端面试经验：‌HTTP 与 HTTPS：简述 HTTP 与 HTTPS 的区别。MTU 设置：MTU 如何设置？过大过小会有什么后果？TCP 和 UDP：说明 TCP 和 UDP 的区别以及应用场景。TCP 可靠传输：TCP 为什么可以保证可靠传输？TCP 粘包问题：TCP 传输数据时，如何区分边界，也就是如何解决粘包问题？C++ 智能指针：C++ 智能指针有哪些种类？智能指针升级是怎么回事？C++ 模板：请解释一下 C++ 模板的概念和作用。C++ 动态内存分配：C++ 中动态内存分配有哪些方式？Java 垃圾回收：讲一下 Java 垃圾回收的原理和机制。Java 运行过程：描述 Java...

点赞评论收藏

分享

评论

点赞

1

招聘动态

联易融

2026届秋季校园招聘

杉川集团2026届校招

杉尖计划·与杉川一览群山

真格基金

被投企业秋季联合校招

瓴岳科技

2026届“登岳计划”校招启动

Garena

2026秋季校园招聘

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

字节跳动

2026校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客树洞，我想对你说 #

11649次浏览 102人参与

# 大学最后一个寒假，我想…… #

54329次浏览 599人参与

# 快手技术岗信息交流阵地 #

5121次浏览 45人参与

# 怎么给家人解释你的工作？ #

13150次浏览 78人参与

# 牛客周边新品开箱 #

10910次浏览 91人参与

# 你的mentor是什么样的人？ #

17571次浏览 115人参与

# 机械人集合！你是什么工程师？ #

20424次浏览 91人参与

# 如何KTV领导 #

73191次浏览 504人参与

# 应届生被毁约被毁意向了怎么办 #

46817次浏览 280人参与

# 求职中的尴尬瞬间 #

5046次浏览 49人参与

# 硬件人的春招flag #

52181次浏览 435人参与

# 三一集团提前批进度交流 #

38871次浏览 225人参与

# 牛友的志愿填报指南 #

35510次浏览 186人参与

# 大疆工作体验 #

19264次浏览 85人参与

# 机械人避雷的岗位/公司 #

28884次浏览 245人参与

# 国企还是互联网，你怎么选？ #

171140次浏览 1290人参与

# 得物app工作体验 #

29001次浏览 68人参与

# 帮我看看，领导说这话什么意思？ #

23167次浏览 102人参与

# 校招泡的最久的公司是哪家？ #

14202次浏览 86人参与

# 今年形式下双非本找得到工作吗 #

238492次浏览 1434人参与

# 26届秋招公司红黑榜 #

30222次浏览 123人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务