脉脉大数据开发实习生一面

岗位JD

使用大数据组件对海量数据进行建模,参与数据仓库的的开发、维护及优化

岗位要求

  1. 计算机相关专业,对大数据有浓烈的兴趣
  2. 扎实的计算机基础,熟练使用python/java/scala其中至少一种语言
  3. 熟悉Hadoop生态体系,包括但不限于Hadoop/Hive/Spark/Clickhouse
  4. 学习能力强,强烈的责任心,具有较强的沟通能力及团队合作精神,细致耐心、积极主动
  5. 有大规模数据/日志处理经验,熟悉离线计算者优先

一面

  1. 自我介绍
  2. 对数仓分层、维度建模有什么相关的了解。数仓分层答的不是很好 磕磕绊绊 得加强 维度建模还行
  3. 项目是都跟着走完了还是?
  4. 维度建模分数据域和分层 主题域 分了哪些数据域 数据是怎么流向的 大概讲解下 数据域(交易域 流量域 用户域 工具域 互动域)
  5. 对hive的优化有什么了解?具体的优化措施
  6. 本科和硕士都是大数据相关 数仓大数据类相关的知识学过哪些
  7. hadoop三大件有哪些
  8. 简单讲一下mapreduce怎么跑起来的 mapreduce的流程 这个没讲好
  9. 简单讲一下shuffle的原理?
  10. 两道hive sql题 简单题 1:排名函数 2 多行转多列
  11. 反问:我问了 工作时间(早10晚7)和工作氛围(和蔼平和)怎么样?最近部分有项目在忙吗?

以后可以问 面试官对我有一些什么建议吗?技术上,简历上,面试上等?

SQL题总结

第一题 窗口函数

select a,second_c
from (
  select a,second_c,
  row_number() over (partition by a order by b) rank
  from t2
where rank=2
)t
group by a

问题 子查询里面的 where 不能直接用rank判断 这样会报错 where 应该写在外面 且是c列 不是second_c

第二题

select 
    year,
    concat_ws(',', collect_list(case when department = 'A' then person_count else null end))  col_A,
    concat_ws(',', collect_list(case when department = 'B' then person_count else null end))  col_B
from t
group by year;


全部评论
还好,问的不是很深
1
送花
回复
分享
发布于 01-31 21:51 上海
大佬
点赞
送花
回复
分享
发布于 01-15 16:28 河南
滴滴
校招火热招聘中
官网直投
我们组刚走一个 就招人了😅
点赞
送花
回复
分享
发布于 01-15 21:21 北京

相关推荐

美团数据开发转正实习面经总结:美团效率,完全没准备好就面试了。问了很多八股,兼具深度广度,知道的不知道全问了。学习之路道阻且长啊。数仓分层:为什么不能直接建DWD,DIM层,ODS层的必要性是什么?DWS层的作用是什么,为什么不能直接建ADS层?完全同上乱答SQL考查:统计每个科目各等级的人数,写的很艰辛,面试的时候脑子经常短路,干着急。菜就多练分组topN,窗口函数。left join where中的条件写在where里和写在on里面有什么区别,查询结果一样吗?Java考查:HashMap底层组成,怎么减少扩容次数,答扩大初始容量,增加扩容因子。说说面向对象。了解的数据类型。Hive:什么情况会导致倾斜,怎么解决。写了一个HQL语句,问从提交到MR的整个详细执行过程,答的很粗略。hive 怎么根据表名去找表数据,metastore。MySQL 常见内存引擎,什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树,而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则,100个文件前面99个小文件,最后一个文件150M,默认切几片。顺势问到小文件的危害,怎么解决。分区器问题,疯狂拷打,但没什么印象了环形缓冲区调大调小有什么问题,纯乱答。写个快排,没注意有重复元素,好像陷入死循环了。问了为什么选择走数据开发这条路,有看过什么大数据类型的书吗。最后问你的亮点是什么,一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。
点赞 评论 收藏
转发
4 35 评论
分享
牛客网
牛客企业服务