腾讯PCG-数据工程 一面

1.  简单介绍一下项目
2.  在中间层建设中遇到过什么问题
3.  数仓中状态的更新是比较及时的,如何记录这些状态,最核心是关心最终的状态还是流转的状态
4.  拉链表是什么,怎么实现的,执行过程中怎么解决效率的问题
5.  用的什么计算引擎,sql在spark上怎么执行的
6.  spark的提交流程
7.  uv和pv的含义,计算uv在spark上的运行原理
8.  MapReduce的原理,快排的目的是什么,有序的目的是什么,知道每个过程才能知道如何去调优
9.  sql转ast是怎么转的
10. ast做逻辑执行计划优化做了哪些
11. 逻辑执行计划和物理执行计划大概有什么区别
12. 写sql过程中有没有遇到过执行时间特别长的,引出数据倾斜相关内容(问的很细,基本所有的都问了)
13. 不同数据类型join为什么导致数据倾斜
14. mapjoin和正常join的区别,mapjoin原理是什么,怎么实现的
15. 加随机数打散,两阶段聚合怎么做的
16. new一个线程怎么做,thread和runnable的区别是什么
17. java集合类用过哪些(说没怎么用过java,就没再问了)
18. sql在不同执行引擎下有什么区别,答有些语法不通用,为什么不通用,如何造成这种问题的
19. sql中所有关键字的执行顺序
20. a join b where条件写在join里面和join外面 有什么区别
21. 4道sql
22. 一道mid算法

做的是计算引擎调优,一直在问spark底层,顶不住顶不住。
当晚挂...
全部评论
请问做完测试题等了多久才面试的?
点赞 回复 分享
发布于 2025-03-09 11:44 河北
这个偏数据平台了么
点赞 回复 分享
发布于 2025-03-07 13:19 北京

相关推荐

查看13道真题和解析
点赞 评论 收藏
分享
03-25 19:37
已编辑
蚌埠坦克学院 C++
时隔一年再战字节 又是二面挂了😅 每次字节都是第一个面的 准备的确实也不太好。一面 1h左右 根据项目问的八股1. 介绍项目 事务消息在项目中是怎么用的2. 除了事务消息还有哪些实现分布式事务的方法 优缺点是什么3. 2PC 3PC的区别4. mysql执行一条插入语句的过程5. mysql中有哪些索引 分别用了什么数据结构实现的? 比较各种数据结构6. 分布式事务和本地事务的区别?7. 队列怎么保证消息不丢失 不重复消费算法:实现一个类似于MVCC的数据结构 按不同时间戳保存数据的多个版本 询问时返回数据不超过timestamp的那个版本面试官经典问题:1. 为什么要用这个技术实现功能2. 这个技术和其他相似技术的区别是什么 还知道哪些其他技术3. 技术的底层原理感觉面试的核心就是这三个问题二面 1h左右1. 智能指针介绍一下 什么时候用原始指针好?2. 深拷贝 浅拷贝3. 平时怎么用AI辅助编程的 有什么经验吗?4. 实习过程中做完一个项目有没有总结可复用的内容5. 了解大模型评测吗 怎么评测的?怎么评估一个测试集的质量?6. 有了解AI前沿的技术吗算法题:判断二维平面上3点能否构成三角形 主要考虑优化double的精度问题 这题我直接用叉积 但是面试官说的精度不够 我后来又问豆包 给的答案和我一样 不知道面试官想要什么答案。反问:1. 有哪些不足? 技术上还行 但是对于AI的理解比较欠缺。
查看18道真题和解析
点赞 评论 收藏
分享
评论
9
26
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务