首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
查理的巧克力
2019-04-16 16:46
已编辑
中国科学技术大学 算法工程师
关注
已关注
取消关注
spark初学者想问一个关于数据混洗的问题
看网上说除了count之外的bykey操作能引发数据混洗,在combineByKey()方法中,说是每个分区单独操作所以要传一个mergeCombine操作,将不同分区中同一个键值合并。但是数据混洗的过程不就是将键值按照其哈希值进行分区,这样的话不就可以保证相同的键值在同一个分区了吗,为什么还要将不同分区的同一个键值进行合并呐~
不知道是不是我对数据混洗理解有误,跪求大神指教~
提示
全部评论
推荐
最新
楼层
turtlebin
门头沟学院 大数据开发工程师
简单来说,在shuffle过程中分为map阶段和reduce阶段,实际上map阶段会调用createCombiner方法和mergeValue方法对数据依据分区排序,但是此时数据并不实际移动,也就是说,在map阶段,不同map端可能存在相同的key,而若需要把不同map端相同的key聚合起来,就需要在reduce端使用mergeCombiner方法,而真正的数据移动是发生在reduce端,他会根据MapOutputTracker跟踪到map端的数据存储信息,并通过网络传输fetch数据,这时才真正发生数据的移动,才是真正的shuffle发生的时间点。
点赞
回复
分享
发布于 2019-04-16 18:09
turtlebin
门头沟学院 大数据开发工程师
combineByKey方法实际上需要传递三个方法,createCombiner,mergeValue,mergeCombiner三个,其中createCombiner和mergeValue是在map端进行聚合的时候使用,Map端会在一个外部排序Map中对数据进行聚集,并对数据按照reduce端的分区进行排序。而你提到的mergeCombiner是在reduce端fetch到所有map端的block之后对各个map端中所有包含自身reduce分区的数据进行merge。个人见解,欢迎指正。
点赞
回复
分享
发布于 2019-04-16 18:05
NowaCoder
阿里巴巴_阿里云_研发工程师
初学者来回答一下,我觉得他说的分区是来自不同map端的分区意思,你的分区是不同reduce端分区的意思
点赞
回复
分享
发布于 2019-04-16 17:11
暂无评论,快来抢首评~
相关推荐
04-18 13:12
香港中文大学(深圳) 人工智能
【暑期实习】 百度 AI Infra 一面复盘
更偏推理基础、工程细节和 CUDA 手写题这场百度 AI Infra 一面,整体感受是节奏很快,前半段主要围绕简历里的项目和实习经历往下问,后半段会明显转到一些更偏推理基础和工程理解的问题,最后还加了一道 CUDA 的手写题。面试官一开始先介绍了团队,说他们在百度智能云下面,训练、推理、强化学习、Agent 这些 AI Infra 相关方向基本都覆盖到了,所以一上来的感觉就是,这不是只盯某一个小点的岗位,而是一个工作面比较宽的 Infra 团队。正式开始之后,前面还是从我现在做的事情切进来,重点还是摩尔线程这段实习。面试官先问我怎么理解自己在做的这个 TensorFlow MUSA Exten...
查看16道真题和解析
点赞
评论
收藏
分享
04-20 22:37
广西大学 算法工程师
美团 Agent开发 一面
群里小伙伴投稿的时候 我也懵了一下 ,纯八股1. 自我介绍,着重讲讲你的履历2. 讲讲 HashMap 和 Hashtable 的区别,为什么现在工程里几乎不用 HashtableHashtable 的方法基本都是同步的,粒度重,性能差,而且不支持高并发场景下的细粒度优化。HashMap 本身不是线程安全的,但它更轻量,配合外部同步、ConcurrentHashMap 或更合理的并发设计更适合现代工程。Hashtable 还有一个问题是历史包袱重,API 设计也比较老旧,所以现在一般不作为首选。3. 设计一个线程安全的“批量删除 HashMap 中符合条件的 value”功能不能直接在遍历时删...
AI-Agent面试实战...
点赞
评论
收藏
分享
03-07 18:45
广州大学 Java
28届小登简历求拷打
大佬们好,不是计算机专业的从大一下开始自学Java到现在很迷茫,项目是苍穹外卖包装的,希望大佬们给点学习或者简历的建议
三月的小目标
点赞
评论
收藏
分享
昨天 16:26
门头沟学院 产品经理
原来字节不能多投
幸亏看到这个帖子
点赞
评论
收藏
分享
04-21 14:44
门头沟学院 后端工程师
转码选手的寻找暑期实习之路 - 也算是拿到一个offer了(附阿里淘天凉经)
✉️投递:腾讯两次全一面挂;字节1次一面挂;阿里现在只有淘天的一个部门还在面试中,其他全挂;拼多多笔试挂;小红书一面挂;米哈游笔试挂;oppo直接挂;vivo直接挂;联想投了没消息;京东没消息;滴滴没消息;得物刚笔试完;华子刚约一面;还有其他的我也忘了,巴嘎!📝offer:携程终于泡出池子了,豚厂我爱你!🎙️我的感受:感觉自己还是得好好沉淀,ummm,暑期实习还没结束!我还能变强!牛友们也要加油!再来一发阿里淘天的电话面一面面经:1、自我介绍;2、介绍一下Java中的原生锁;3、介绍一下Synchronized的使用场景;4、为什么ReentrantLock可以实现可重入操作?5、JVM中...
查看15道真题和解析
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
27届导师不放实习,硬刷五段大厂
2.4W
2
...
面到崩溃后,我接受保底offer去旅游了
8207
3
...
字节抖音前端暑期二面
6893
4
...
从S到A,从夯到拉,ai项目盘点
6459
5
...
滴滴一面agent
6208
6
...
约不到面的日子
5730
7
...
大厂实习真的很累....
4724
8
...
27游戏客户端还能找到暑期吗...
4690
9
...
26届后端java/go求职心得
4442
10
...
今年是真的更难了吗,还是单纯我太菜了
4257
创作者周榜
更多
正在热议
更多
#
哪些AI项目值得做?
#
9089次浏览
282人参与
#
如果有时光机,你最想去到哪个年纪?
#
76839次浏览
857人参与
#
华泰星战营,提前锁定校招offer
#
10476次浏览
339人参与
#
实习时最怕听到的一句话
#
8597次浏览
101人参与
#
简历上如何体现你的“AI”能力?
#
4761次浏览
109人参与
#
没有面试的日子里,你在做什么
#
6298次浏览
147人参与
#
找不到大厂实习可以去小厂吗?
#
8423次浏览
61人参与
#
你总挂在第__面?
#
3358次浏览
39人参与
#
汉得笔试
#
3644次浏览
23人参与
#
你知道最慷慨和最抠的公司分别是
#
5944次浏览
52人参与
#
你简历上最心虚的一句话
#
11912次浏览
75人参与
#
90后北漂现状
#
38293次浏览
218人参与
#
机械笔面试考察这些知识点
#
18484次浏览
144人参与
#
备战春招/暑实,现在应该做什么?
#
67436次浏览
555人参与
#
机械人还在等华为开奖吗?
#
333205次浏览
1618人参与
#
你喜欢工作还是上学
#
98723次浏览
915人参与
#
运营面经
#
171809次浏览
1364人参与
#
实习最晚的一次下班是几点
#
34681次浏览
169人参与
#
考公VS就业,你怎么选?
#
101071次浏览
536人参与
#
分享一个让你热爱工作的瞬间
#
70324次浏览
506人参与
#
快消秋招求职进展汇总
#
11882次浏览
43人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务