s3t - 个人主页动态 - 牛客网

2025-12-16 00:10

门头沟学院大数据开发工程师

百度大数据开发校招一面60min

1.实习介绍2.介绍-下spark的内存模型?3.动态内存管理中存储内存和执行内存的区别?4.对堆外内存有了解吗?5.有了解过oom的几种类型吗?6.治理过数据吗?举个具体的优化案例?7.除了提高shuffle并发，还有什么方法能优化?8.平时在公司平台上使用的大数据组件有哪些?9.spark是完全基于内存吗?10.spark的几种join有了解吗?介绍一下?11.sort join和hash join的shuffle区别?12除了join，还有哪些操作会引起shuffle?13.spark shuffle过程中有sort和没有sort的区别?14.熟悉非等值连接吗?15.sql题:求次日、三日、七日留存率16.如果是日增量的分区表数据量很大，如何进一步处理?16.需要用distinct吗?代码能否优化?17.反问环节

查看16道真题和解析

0 点赞评论收藏

分享

2025-10-26 09:42

门头沟学院大数据开发工程师

京东数据开发，大数据组件二开，一面

研究生什么研究方向、为什么选择做数据spark和mr的区别，spark为什么快aqe的特性spark用过的参数shuffle.partitions调节的经验，调多大合适，是否有公式计算和存储的治理怎么做的spark合并小文件怎么做的，落hdfs之前合并还是之后合并？平台自动化合并小文件和repartition哪个快（合并小文件快）为什么要合并小文件cbo的优化规则对spark感兴趣吗，接受提前实习吗，最早什么时候

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务