腾讯 数据工程一面

1. 自我介绍
2. 用Hive还是Spark,比较了解哪个
3. spark问题定位流程,以及解决方法
4. 现在有一个任务跑的很慢,你如何去定位
5. 介绍一下广播和Shuffle的区别,以及Shuffle为什么会比广播慢?
你这里面之前说到的大部分都是在数据传输上,包括涉涉及到一些网络会导致它传数据量大比较慢嘛。
6. Shuffle将各个节点的数据传输到另一个节点之后,会做什么操作呢?
7. 小文件导致任务运行缓慢,是在Spark读的环节还是哪个环节?
8. 用过二级分区吗?用Spark写Hive二级分区时有没有遇到过什么问题?
9. flink的滑动窗口,以滑动窗口为例子啊,就是每5分钟统计过去一小时的那个行为流水,100万一分钟的,然后你5分钟去输做这种滑动窗口所计算的时候,怎么去预估它可能会产生多大的输出,以及计算量。
10. flink 的就它发完了,它在重写的时候有个问题,我想问一下。它能基于checkpoint,我们可能说是checkpoint来重启嘛。那我数据从kafka里面消费的时候,我们可以某个精确到某一秒的时间点,能回溯对应的数据吗?
11. 那有没有哪里有性能问题?换一种更好的方式写的话,你会怎么写?
12. 如何优化你写的这两个sql
13. 这两段sql在spark里面是如何运行的
全部评论
蹲蹲后续
点赞 回复 分享
发布于 04-14 21:53 安徽
佬sql题出了什么呀
点赞 回复 分享
发布于 03-30 19:31 广东
哪个事业群呀
点赞 回复 分享
发布于 03-27 16:46 广东

相关推荐

04-16 16:21
已编辑
门头沟学院 Java
基本都答上来了 看到手撕出这个的时候就感觉不太妙  确实面完秒挂(kpi?)1. 自我介绍。2. 平时通过哪些渠道了解 AI 方向的新技术、新产品和新动态?3. 在学习或项目中用过哪些 AI 工具、产品或工程化框架?为什么这样选型?4. 实习中接触的系统数据规模大概是多少?表数量、单表数据量级分别如何?5. MySQL 慢查询一般怎么排查?会看哪些日志、用哪些分析手段?6. explain的常见关注指标有哪些?如何根据执行计划判断慢查询原因?7. 遇到查询慢时,一般会从哪些方向做优化?8. 为什么不建议直接 `select *`?按需查询字段为什么可能提升性能?9. 联合索引为什么会失效?什么是最左前缀匹配原则?10. 联合索引在范围查询、缺失中间列等场景下会有什么影响?11. 联表查询时索引是否还能生效?需要关注哪些问题?12. 介绍一下你做过的 AI Agent / 智能问答类项目:整体目标、系统形态、核心流程分别是什么?13. 为什么要引入 RAG?RAG 主要解决了大模型的哪些问题?14. SSE 是什么?为什么需要用它来做流式输出?15. 你的 RAG 流程是怎么实现的?从文档导入到最终回答,中间经历了哪些步骤?16. 向量检索里只做 TopK 是否足够?还有哪些更精细的召回或重排方案?17. 文档分段策略是怎么设计的?除了固定长度切分,还有哪些做法?18. 为什么要在分段时设置重叠区域(overlap)?它主要解决什么问题?19. 向量化存储用的是什么方案?为什么选择这种向量数据库 / 存储方式?20. 项目中接入过哪些模型?模型接入时如何考虑能力、成本和向量化支持?21. 进程间通信有哪些常见方式?22. 什么是死锁?死锁产生的典型场景和必要条件是什么?23. 网络分层模型有哪些?OSI 七层和 TCP/IP 四层分别怎么划分?24. TCP 和 UDP 属于哪一层?两者的主要区别是什么?25. TCP 为什么说是可靠传输?可靠性主要靠哪些机制保证?26. 三次握手的流程是什么?27. 为什么断开连接通常需要四次挥手,而不是三次或五次?28. Redis 中点赞 / 互动状态这类功能适合用什么数据结构实现?为什么?29. Redis 如何做高可用?30. 如果 Redis 挂掉,互动数据如何保证不丢?除了 Redis 本身,还可以怎么做持久化和兜底?31. 算法题:二叉树的最大深度。32. 解题思路?33. 反问环节
点赞 评论 收藏
分享
评论
2
11
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务