百度 大数据研发实习

一面
实习深挖
对于高耗时任务的代码优化思路
如何发现不必要的扫表
sparksql和hivesql有什么区别
sparksql和hive on spark性能有差异吗,差异在哪
hdfs架构
datanode心跳机制
datanode挂了之后会怎么样,容错机制是怎么样
机架感知
有限内存下的一亿数据怎么排序
了解哪些shell命令
有a,b两个文件,存的都是id,写shell找出a中有但b中没有的id行
flink窗口计算相关
java反射是什么,作用场景,反射性能
数据质量是怎么保证的,完整性唯一性具体怎么实现的
反问 业务和工作内容 主要做离线还是实时
#面经##百度#
全部评论
大佬,简历要写成啥样才能有机会面试啊
1 回复 分享
发布于 2024-03-13 21:29 浙江
你这啥时候投的?我看最近都没有大数据研发的岗位
1 回复 分享
发布于 2024-03-13 16:24 河北
跟我两年前面试差不多内容
点赞 回复 分享
发布于 2024-03-24 13:57 浙江
佬,如何避免不必要的扫表,答案是啥
点赞 回复 分享
发布于 2024-03-14 18:16 北京
请问你是在哪投递的
点赞 回复 分享
发布于 2024-03-14 10:31 安徽
我发了饿了么的25届实习内推码,同学有需要可以自取,这次转正率超高可以一试
点赞 回复 分享
发布于 2024-03-13 15:54 江西

相关推荐

数据开发岗 秋招第一个面试,被狠狠拷打了1.spark和flink有哪些共性和区别2.你说到flink是一条数据一条数据的处理,那我们要对以前数据做聚合会怎么处理(状态机制)3.状态怎么进行恢复和使用(checkpoint机制,下游二阶段提交)4.为什么会有二阶段提交5.了解过二阶段提交机制怎么实现吗6.两阶段提交是保证卡夫卡提交和checkpoint机制同时完成,怎么去保证这个事情,状态保存在哪里7.flink针对kafka是怎么去传递两阶段结果的8.对spark有哪些自己的理解9.spark为什么能处理大规模数据集(高并发)10.多台机器处理,内存是比较宝贵的,数据过大,内存放不下怎么处理(写盘)11.spark当中结点分为那些类型12.大规模数据集,不断落盘,是写到同一个磁盘文件还是多个磁盘文件13.spark中间会一直生成小文件,如何处理14.什么是OOM,什么时候会出现OOM15.怎么去定位OOM出现在哪16. jvm, 内存模型17.spark SQL怎么执行(任务调度)18.底层资源调度是什么资源19.程序运行,内存放的什么东西,怎么管理内存,内存分配20. MySQL执行引擎21.什么是聚簇索引22.为什么要回表,什么样的操作会回表23.介绍什么是b+树24.知道平衡二叉树吗,什么是二叉树25.精准一次语义,kafka中有那些语义26.java这一块熟悉哪些内容,对java这块实现数据结构了解那些27.hashmap底层怎么实现,怎么去实现不可重复的,如果重复了怎么处理。hashcode和equals方法有什么区别和联系,如何判断是否和现有的key相同28.线程安全问题,什么是线程安全29.主要课程包括哪些30.大模型这块,transform架构了解过吗,用来做什么31.SQL题,求班级TOP5学生信息32.SQL锁机制,多个用户同时去写一条数据33.锁机制和事物区别34.什么是悲观锁什么是乐观锁35.乐观锁怎么实现36.进程和线程有什么区别,怎么去调度线程/进程运行,了解过协程吗37.一个进程中包含哪些部分,哪些数据38.讲一下堆和栈,栈有哪些应用反问后续,9.26约二面
脾气小祖宗:感觉蔚来出结果好慢啊。一面自我感觉很好,面试官也给予肯定,但是10天了都没后文。
数据人的面试交流地
点赞 评论 收藏
分享
评论
15
45
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务