大数据开发工程师精选面经合集
3家公司
5篇面经
最新 热门
/feed/main/detail/fe77ef5d818944dca3806acabdc5430e/discuss/750388760121966592/feed/main/detail/9f0fa7047d574c0da7bf1cec23d175fb/feed/main/detail/df79ce7827254e7c832d4365964abaac
京东数据开发一面
状态最差一次面试,整个人在漫长春招一个多月后开始说话语无伦次+脑袋不转。0. 面试官自我介绍,问实习时间1. 自我介绍,简单讲项目2. neo4j底层怎么存储:基于磁盘的二进制文件存储3. 故障怎么办:故障检测、宕机恢复4. 访问量增加怎么办:水平扩展、读写分离、索引缓存(redis5. redis怎么数据一致性:单线程保证了、主从同步、持久化机制6. py的dict怎么安全多线程?加锁7. py线程池 threadlocal:忘了8. 分布式负载均衡的算法:rr、wrr、随机、加权随机、最少连接9. CAP:一致性可用性和分区容忍不可兼得,一般舍弃C或者A10. 项目和hdfs的区别:算法上,结构微调11. 知道其他大数据组件吗:没咋看12. 分布式系统总结 共通的特点解决问题和架构:解决一致性可用性分区容忍、负载均衡容错。。架构是分namenode和后面存储node13. 解决数据一致性的方法:2PC预提交 + 正式提交、投票、最终一致性14. 场景:py 生产者消费者 时间戳数据 怎么实现15. Queue有界的话怎么办?丢异常16. 报错怎么解决:重传、调速度17. queue锁怎么设计:互斥锁、又说了乐观锁桶锁好像跑题了。。应该有条件变量?18. 加整个queue还是怎么加?生产者生产的时候消费者没办法消费:只锁关键小段代码19. 假设分布式系统十亿数据挑选最大top10:每个服务器选top10然后归并。选的算法可以hashset、可以bitmap、可以堆排,考虑到内存。20. spark用py写的?对。。21. 卡夫卡用过:恩22. 反问感觉又要凉了,自己面的方向太多做的东西又杂.. 路漫漫其修远兮😌
查看22道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/4fa48eec8078456c89b92a7a2663fa1e/feed/main/detail/9dcc0284e5cc40bdb8c570a539e2af10/feed/main/detail/f04dca6532224053b118d13b725d3830
4.25腾讯云智数开一面
1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
/discuss/745407749042769920/discuss/744876905526026240
联想内推
联想数据开发工程师面经(2025届校招/实习)📌 背景:985本硕,计算机相关专业,有大数据项目经历,面试岗位为数据开发工程师(Base北京/上海)。📝 面试流程 & 问题回顾1. 笔试(线上编程+SQL)- 题型:- 算法题(********中等难度,考察数组、字符串、动态规划)- SQL题(多表关联、窗口函数、复杂查询优化)- 大数据基础(Hadoop/Spark原理简答)2. 技术一面(1小时)- 数据结构与算法- 手撕代码:合并K个有序链表(优先队列实现)- 时间复杂度分析,如何优化?- 大数据生态- Spark和Hadoop的区别?Spark为什么更快?- 数据倾斜的解决方案?- SQL实战- 写一个**连续登录用户统计**的SQL(使用窗口函数)- 项目深挖- 介绍一个大数据项目,你在其中负责什么?- 如果数据量增加10倍,如何优化你的方案?3. 技术二面(45分钟)- 系统设计- 设计一个实时数据仓库,如何保证低延迟和高可用?- Kafka和Flink在实时计算中的作用?- 数据库- MySQL索引原理,B+树 vs Hash索引- Hive内部表和外部表的区别?- 场景题- 如果某天发现报表数据异常,如何排查?4. HR面(30分钟)- 职业规划、为什么选择联想?- 对加班/出差的看法?- 期望薪资?💡 面试建议1. **重点复习**:SQL(窗口函数、优化)、Spark/Hadoop原理、常见大数据场景题。2. **项目复盘**:确保能清晰讲解技术选型、难点和优化思路。3. **算法刷题**:********热题100+剑指Offer,尤其是**链表、树、DP**。4. **反问环节**:可以问团队业务、技术栈、新人培养计划等。🌟 联想数据团队体验- 技术氛围浓厚,大牛导师带教,内部有完善的大数据平台。- 业务覆盖智能供应链、用户行为分析、风控建模等,实战性强!📢 投递Tips:联想对代码能力+大数据基础要求较高,建议尽早投递!📅 【投递链接】春招:https://talent.lenovo.com.cn/position?projectType=1暑期实习:https://talent.lenovo.com.cn/position?projectType=2【内推码】2025XZLMCX【内推入口】在“联想校招官网”投递校招职位,创建简历时“从哪儿获知招聘信息”选择“联想员工推荐”并且输入推荐人ITcode:2025XZLMCX投递的同学评论区留下【姓名缩写+岗位】,方便及时跟进加入联想,与创新者同行,用科技改变世界!(欢迎留言交流,祝大家offer多多!🎯) #内推#                        内推码                        #联想#                        26届                        #26届实习交流#                        数据人的面试交流地   
点赞 评论 收藏
分享
/feed/main/detail/9d3fee212a014d34a3da419fa6deb6ba/feed/main/detail/d6b486ddd2574aafa880def0990bf830/discuss/744272337456893952
联想内推
联想数据开发工程师面经(2025届校招/实习)📌 背景:985本硕,计算机相关专业,有大数据项目经历,面试岗位为数据开发工程师(Base北京/上海)。📝 面试流程 & 问题回顾1. 笔试(线上编程+SQL)- 题型:- 算法题(********中等难度,考察数组、字符串、动态规划)- SQL题(多表关联、窗口函数、复杂查询优化)- 大数据基础(Hadoop/Spark原理简答)2. 技术一面(1小时)- 数据结构与算法- 手撕代码:合并K个有序链表(优先队列实现)- 时间复杂度分析,如何优化?- 大数据生态- Spark和Hadoop的区别?Spark为什么更快?- 数据倾斜的解决方案?- SQL实战- 写一个**连续登录用户统计**的SQL(使用窗口函数)- 项目深挖- 介绍一个大数据项目,你在其中负责什么?- 如果数据量增加10倍,如何优化你的方案?3. 技术二面(45分钟)- 系统设计- 设计一个实时数据仓库,如何保证低延迟和高可用?- Kafka和Flink在实时计算中的作用?- 数据库- MySQL索引原理,B+树 vs Hash索引- Hive内部表和外部表的区别?- 场景题- 如果某天发现报表数据异常,如何排查?4. HR面(30分钟)- 职业规划、为什么选择联想?- 对加班/出差的看法?- 期望薪资?💡 面试建议1. **重点复习**:SQL(窗口函数、优化)、Spark/Hadoop原理、常见大数据场景题。2. **项目复盘**:确保能清晰讲解技术选型、难点和优化思路。3. **算法刷题**:********热题100+剑指Offer,尤其是**链表、树、DP**。4. **反问环节**:可以问团队业务、技术栈、新人培养计划等。🌟 联想数据团队体验- 技术氛围浓厚,大牛导师带教,内部有完善的大数据平台。- 业务覆盖智能供应链、用户行为分析、风控建模等,实战性强!📢 投递Tips:联想对代码能力+大数据基础要求较高,建议尽早投递!📅 【投递链接】春招:https://talent.lenovo.com.cn/position?projectType=1暑期实习:https://talent.lenovo.com.cn/position?projectType=2【内推码】2025XZLMCX【内推入口】在“联想校招官网”投递校招职位,创建简历时“从哪儿获知招聘信息”选择“联想员工推荐”并且输入推荐人ITcode:2025XZLMCX投递的同学评论区留下【姓名缩写+岗位】,方便及时跟进加入联想,与创新者同行,用科技改变世界!(欢迎留言交流,祝大家offer多多!🎯) #内推#                       内推码                       #联想#                       26届                       #26届实习交流#                       数据人的面试交流地   
点赞 评论 收藏
分享
/feed/main/detail/55e61c82c19d4182a0a46607c36827c9
字节大数据开发暑期实习(已oc)
一面(4-7):--大数据相关内容--    拷打用SparkSQL迭代计算的合作项目(常规问题:如你负责哪一部分,做什么内容,难点是什么,价值点在哪里)    Spark和MR区别    Spark宽窄依赖,DAG流程图    Spark和Hive对数据倾斜的处理    Hadoop指的是什么(狭义,广义上来答)    你还用过哪些大数据组件(sqoop,presto,zookeeper)    sqoop用来做什么    presto和Spark的区别是什么    zookeeper干什么用(高可用,不过我只知道理论基础,这一块实操我不负责)    维度建模和范式建模的区别(面向分析和面向事务,一个为了分析可以接受冗余,另一个则尽量拆分表直到没有冗余)    --之后就偏离大数据,侧重于基础知识的考察--    数据库的索引(不会,g)    数据库设计一个图书管理系统,用范式建模理论,要有哪些表和字段(很久之前的课设,所以答得很一般)    http和https(久远的知识,只答了一个后者比前者更安全)    tcp三次握手(有点印象,草草讲了一下)    tcp和udp区别(大二学的,忘完了,g)    数组和链表(简单讲了一下存储地址与增删改查的时间复杂度)--算法--    二分查找(ez)    --sql--    1.统计每个用户每天每种支付方式的总金额(没有数据,只有字段,愣了一下之后解决了)        user_id        pay_method(有两种支付方式)        date        count    2.连续三天登录(sql中经典的难题,但做法死板,多做几遍就会了)--面试官解释--    实习侧重综合能力,所以问了很多大数据之外的内容,这点和秋招有一定差别二面(4-9):--大数据相关内容--    拷打数仓构建的学习项目    数据仓库为什么分层    数据仓库怎么分层(结合项目讲)    数据仓库分层后每一层的作用(结合项目讲)    缓慢渐变维怎么处理(SCD1,SCD2,SCD3)    SCD2好处,弊端(保留历史数据的同时更新数据,数据冗余比较多(但面试官一直追问还有吗....榨不出来了啊))    拉链表具体怎么做,end_date有什么用    hql怎么翻译成MR程序的(偷面经背了一下)    MR流程详解(看过好多版本的MR流程,挑了一个背了)    select ... from t1 join t2 group by ...  这个SQL执行,要运行几个MR(不会,跟面试官说是两个)    如果用了map join,上面的SQL运行几个MR(不会,跟面试官说是一个(因为mapjoin不用shuffle))    (这个问题后来研究应该都是跑两个MR,但是mapjoin实践检验太麻烦了,就没深究了)--其余知识--    现在我们正在进行的视频通话,用到哪些网络传输协议(一面结束把tcp和udp区别背了一下,于是乎答了个udp)    大学期间还学了那些课(就怕说漏嘴了后考我陈年老课)    读过哪些大数据相关书籍(大数据之路,还有一些阿里开发的规范文档)--算法--        大数相加(输入是很长的数字字符串)   --sql--    统计每天城市消费占比前十的用户和他们消费占区域总消费的多少(猪脑过载,逆天了)    用户表:        user_id        city_id        date        product_id        count    区域表        city_id        area_namehr面(4-14): --常规问题--    为什么放弃深造    你对在北京工作的看法    职业规划    你给你前两轮面试打几分,为什么    你为面试字节做了什么准备    你对我们部门了解多少    没有工作经验,怎么适应公司业务    工作后你要怎么尽快适应环境oc(4-17)--------------------------------------面经到此为止,后面是一些求职感想----------------------------------------------------历程--求职本就是一个运气和实力交织的过程,这次面试凭借自身发挥和一定运气拿下offer了,但3-4月背后也有很多失败腾讯面五挂四(传奇耐挂王)    京东面二挂二    百度挂    美团挂    快手挂    字节hr面挂(挂了之后复活赛打赢了)阿里系(阿里云,携程,陶天,饿了么等)万兴,360 ...  笔试就挂了...往好的方向想,做最坏的打算。该干嘛干嘛就可以了,太注重失败就没心思学习了(而且很多kpi面没必要内耗)。希望每个人都可以得到心仪的工作,希望努力的人都有光明的未来
点赞 评论 收藏
分享
/feed/main/detail/59774c282d224401b7b378cb7a7a33f6/discuss/742748640946503680
联想内推
联想数据开发工程师面经(2025届校招/实习)📌 背景:985本硕,计算机相关专业,有大数据项目经历,面试岗位为数据开发工程师(Base北京/上海)。📝 面试流程 & 问题回顾1. 笔试(线上编程+SQL)- 题型:- 算法题(********中等难度,考察数组、字符串、动态规划)- SQL题(多表关联、窗口函数、复杂查询优化)- 大数据基础(Hadoop/Spark原理简答)2. 技术一面(1小时)- 数据结构与算法- 手撕代码:合并K个有序链表(优先队列实现)- 时间复杂度分析,如何优化?- 大数据生态- Spark和Hadoop的区别?Spark为什么更快?- 数据倾斜的解决方案?- SQL实战- 写一个**连续登录用户统计**的SQL(使用窗口函数)- 项目深挖- 介绍一个大数据项目,你在其中负责什么?- 如果数据量增加10倍,如何优化你的方案?3. 技术二面(45分钟)- 系统设计- 设计一个实时数据仓库,如何保证低延迟和高可用?- Kafka和Flink在实时计算中的作用?- 数据库- MySQL索引原理,B+树 vs Hash索引- Hive内部表和外部表的区别?- 场景题- 如果某天发现报表数据异常,如何排查?4. HR面(30分钟)- 职业规划、为什么选择联想?- 对加班/出差的看法?- 期望薪资?💡 面试建议1. **重点复习**:SQL(窗口函数、优化)、Spark/Hadoop原理、常见大数据场景题。2. **项目复盘**:确保能清晰讲解技术选型、难点和优化思路。3. **算法刷题**:********热题100+剑指Offer,尤其是**链表、树、DP**。4. **反问环节**:可以问团队业务、技术栈、新人培养计划等。🌟 联想数据团队体验- 技术氛围浓厚,大牛导师带教,内部有完善的大数据平台。- 业务覆盖智能供应链、用户行为分析、风控建模等,实战性强!📢 投递Tips:联想对代码能力+大数据基础要求较高,建议尽早投递!📅 【投递链接】春招:https://talent.lenovo.com.cn/position?projectType=1暑期实习:https://talent.lenovo.com.cn/position?projectType=2【内推码】2025XZLMCX【内推入口】在“联想校招官网”投递校招职位,创建简历时“从哪儿获知招聘信息”选择“联想员工推荐”并且输入推荐人ITcode:2025XZLMCX投递的同学评论区留下【姓名缩写+岗位】,方便及时跟进加入联想,与创新者同行,用科技改变世界!(欢迎留言交流,祝大家offer多多!🎯) #内推#                      内推码                      #联想#                      26届                      #26届实习交流#                      数据人的面试交流地   
点赞 评论 收藏
分享
/feed/main/detail/5bb5a7d39ea4472ab78bfca7f7f357ef/feed/main/detail/f54c8e7fe1d445e8ab0683790d250ba0/discuss/742096380830760960
联想内推
联想数据开发工程师面经(2025届校招/实习)📌 背景:985本硕,计算机相关专业,有大数据项目经历,面试岗位为数据开发工程师(Base北京/上海)。📝 面试流程 & 问题回顾1. 笔试(线上编程+SQL)- 题型:- 算法题(********中等难度,考察数组、字符串、动态规划)- SQL题(多表关联、窗口函数、复杂查询优化)- 大数据基础(Hadoop/Spark原理简答)2. 技术一面(1小时)- 数据结构与算法- 手撕代码:合并K个有序链表(优先队列实现)- 时间复杂度分析,如何优化?- 大数据生态- Spark和Hadoop的区别?Spark为什么更快?- 数据倾斜的解决方案?- SQL实战- 写一个**连续登录用户统计**的SQL(使用窗口函数)- 项目深挖- 介绍一个大数据项目,你在其中负责什么?- 如果数据量增加10倍,如何优化你的方案?3. 技术二面(45分钟)- 系统设计- 设计一个实时数据仓库,如何保证低延迟和高可用?- Kafka和Flink在实时计算中的作用?- 数据库- MySQL索引原理,B+树 vs Hash索引- Hive内部表和外部表的区别?- 场景题- 如果某天发现报表数据异常,如何排查?4. HR面(30分钟)- 职业规划、为什么选择联想?- 对加班/出差的看法?- 期望薪资?💡 面试建议1. **重点复习**:SQL(窗口函数、优化)、Spark/Hadoop原理、常见大数据场景题。2. **项目复盘**:确保能清晰讲解技术选型、难点和优化思路。3. **算法刷题**:********热题100+剑指Offer,尤其是**链表、树、DP**。4. **反问环节**:可以问团队业务、技术栈、新人培养计划等。🌟 联想数据团队体验- 技术氛围浓厚,大牛导师带教,内部有完善的大数据平台。- 业务覆盖智能供应链、用户行为分析、风控建模等,实战性强!📢 投递Tips:联想对代码能力+大数据基础要求较高,建议尽早投递!📅 【投递链接】春招:https://talent.lenovo.com.cn/position?projectType=1暑期实习:https://talent.lenovo.com.cn/position?projectType=2【内推码】2025XZLMCX【内推入口】在“联想校招官网”投递校招职位,创建简历时“从哪儿获知招聘信息”选择“联想员工推荐”并且输入推荐人ITcode:2025XZLMCX投递的同学评论区留下【姓名缩写+岗位】,方便及时跟进加入联想,与创新者同行,用科技改变世界!(欢迎留言交流,祝大家offer多多!🎯) #内推#                     内推码                     #联想#                     26届                     #26届实习交流#                     数据人的面试交流地   
点赞 评论 收藏
分享
/feed/main/detail/73f8bbf8098848a3966c619a6b4212a1/feed/main/detail/b32031cc606e48bfad5867bf257c26b2
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客企业服务