快手 数据开发 一面 55min
1、自我介绍
2、spark宽窄依赖,stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分,内存调优参数
6、spark的join有哪些,sort merge(没答出来)
7、spark的shuffle过程,和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层,dws层存在的必要性是什么
10、spark以及sql的优化经验(数据倾斜除了加前缀还有什么方法,大表join大表怎么办)
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果(没答上来,面试官说底层先会转成double)
13、round和roundseed的区别(面试官说假如maptask失败后round会分配到不同的reduce中,roundseed每次随机的值是一样的,网上没有查到roundseed,有没有大佬教教是不是我听错了)
14、两道sql
①连续登录天数
②互相关注的用户(用case+concat)
一次体验不错的面试,面试官人真的好好,很耐心引导我不会的问题,许愿二面
更新 3.29二面
2、spark宽窄依赖,stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分,内存调优参数
6、spark的join有哪些,sort merge(没答出来)
7、spark的shuffle过程,和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层,dws层存在的必要性是什么
10、spark以及sql的优化经验(数据倾斜除了加前缀还有什么方法,大表join大表怎么办)
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果(没答上来,面试官说底层先会转成double)
13、round和roundseed的区别(面试官说假如maptask失败后round会分配到不同的reduce中,roundseed每次随机的值是一样的,网上没有查到roundseed,有没有大佬教教是不是我听错了)
14、两道sql
①连续登录天数
②互相关注的用户(用case+concat)
一次体验不错的面试,面试官人真的好好,很耐心引导我不会的问题,许愿二面
更新 3.29二面
全部评论
他说的random seed应该是用在sample函数里面的参数。估计想问你用sample函数处理数据倾斜问题这个点
佬,有后续吗
佬是因为你的项目用spark嘛,怎么全是spark
佬,二面约了吗
后续咋样了佬
roundseed到底是什么😭😭
相关推荐
点赞 评论 收藏
分享
查看12道真题和解析 点赞 评论 收藏
分享
2025-11-12 02:50
广州航海学院 软件测试
Jcwemz:中软证书写单行,考了什么学了什么相关技术栈的内容就说自己会什么,
没实习就包装实习简历,将项目经历写成实习做的,项目时间拉长,项目成果具体化,测试的项目成果无非就是写了多少用例查出了多少bug,重要的不是实习了多久,而是你会多少东西,你能表达的就都是你的。
cet4,随便找个地方标上就好了,不用写单行。
粗略建议,我也不在行,觉得对的可以采纳 点赞 评论 收藏
分享
2025-12-18 18:34
河北工程技术学院 Web前端 点赞 评论 收藏
分享