2024字节跳动面试数据开发

#软件开发2024笔面经#
2024字节跳动面试 数据岗位
1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档?
2.如何保障数据质量(准确性)?
3.spark有什么优缺点?在使用过程如何规避缺点?
4.spark内存模型?
5.spark和MR为什么会进行shuffle,如何减少shuffle?
6.小文件治理的方式?
7.主题域建设的流程?
8.大表join大表的优化(10亿与1千万数据关联)?
9.为什么存在ods穿透?
10.你希望公司工作强度如何? #数据人的面试交流地#  #第一次面试#  #如何确定求职岗位#  #大数据#
全部评论
这是什么时候面的呢
点赞
送花
回复
分享
发布于 04-25 16:06 四川
真不戳啊,字节太强了
点赞
送花
回复
分享
发布于 04-25 16:23 陕西
滴滴
校招火热招聘中
官网直投
这里说的模型开发是什么模型?
点赞
送花
回复
分享
发布于 05-14 11:36 北京

相关推荐

美团数据开发转正实习面经总结:美团效率,完全没准备好就面试了。问了很多八股,兼具深度广度,知道的不知道全问了。学习之路道阻且长啊。数仓分层:为什么不能直接建DWD,DIM层,ODS层的必要性是什么?DWS层的作用是什么,为什么不能直接建ADS层?完全同上乱答SQL考查:统计每个科目各等级的人数,写的很艰辛,面试的时候脑子经常短路,干着急。菜就多练分组topN,窗口函数。left join where中的条件写在where里和写在on里面有什么区别,查询结果一样吗?Java考查:HashMap底层组成,怎么减少扩容次数,答扩大初始容量,增加扩容因子。说说面向对象。了解的数据类型。Hive:什么情况会导致倾斜,怎么解决。写了一个HQL语句,问从提交到MR的整个详细执行过程,答的很粗略。hive 怎么根据表名去找表数据,metastore。MySQL 常见内存引擎,什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树,而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则,100个文件前面99个小文件,最后一个文件150M,默认切几片。顺势问到小文件的危害,怎么解决。分区器问题,疯狂拷打,但没什么印象了环形缓冲区调大调小有什么问题,纯乱答。写个快排,没注意有重复元素,好像陷入死循环了。问了为什么选择走数据开发这条路,有看过什么大数据类型的书吗。最后问你的亮点是什么,一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。
点赞 评论 收藏
转发
点赞 评论 收藏
转发
11 22 评论
分享
牛客网
牛客企业服务