26秋招虾皮数据开发一二面

一面:
1.实习经历追问,数仓建设流程 ,为什么要设计各个层
2.spark的任务调度流程,spark的数据量级
3.spark的性能优化经验?
4.如何定位任务失败?有哪些原因?分别应该怎么处理
5.对于数据治理的理解,在元数据管理的治理中不同的元数据分别有什么作用?你是怎么使用的?
6.数据倾斜的情况在具体的什么业务中出现,举例,并给出你的优化方案
7.如何去保障数据的质量?数据标准你是如何制定的?
8.为什么源数据存在mongoDB?
9.了解agent么?大致讲一下agent的工作原理,mcp和functioncalls的区别是什么?
10.是否参与过模型的微调?agent的数据具体如何处理?数据增强那一块是怎么做的?
手撕:
拓扑排序,leetcode hot100课程表的变形 medium难度(之前背过模版所以还好)
二面:
1.具体追问了数据倾斜和OOM的问题是如何处理?
2.数据治理这一块你做了什么?不要说数据治理分这些
3.你是怎么做数据监控的?有哪些方面的监控?你如何具体定位问题去解决?
4.你的数据标准是如何制定的?你如何去保证数据的准确性和一致性?
5.agent这块是否了解?你实习主要是做什么的?agent的原理和强化学习这些是否有了解过?
手撕:
接雨水 用了双指针后要求用单调栈
全部评论
同学,瞅瞅我司,医疗独角兽, 因为新业务扩展,11月校招HC暴增! 我的主页最新动态,绿灯直达,免笔试~
1 回复 分享
发布于 11-17 09:26 广东

相关推荐

头像
11-24 19:03
已编辑
门头沟学院 数据仓库
30分钟 0.自我介绍1.谈了谈有无考公考研的打算2.回归正题 介绍项目(某硅谷的离线实时,还有paimon湖仓)讲了讲ads层指标什么三天登录,用户流向分析之类的,我说这三个项目指标都差不多问了我在哪做的,我说在自己虚拟机上部署的问数据来源,我说是有模拟生成业务库数据和日志数据的jar包,然后讲了一个这两条链路的数据的路径,maxwell,flume,kafka什么的然后问我paimon湖仓 怎么做的  我说paimon湖仓用官方的mysql-paimon的包直接进行同步,代替了maxwell然后我说paimon的snapshot+tag代替了传统离线的拉链表,感觉很方便,问我什么地方做的拉链,我说的用户表,然后我又讲了讲hdfs的小文件,paimon怎么解决的实时写入的小文件问了有没有遇到过什么问题  我说遇到执行任务的时候doris fe节点崩溃,查不到数据,然后我就一直扩大内存,虚拟机也搞得一台25g了3.flink怎么保证数据不丢不重   我答了kafka支持事务,checkpoint记录状态和kafka消费位点,又讲了paimon sink的时候自动清除没有snapshot指向的manifest来删除故障前多读的数据,说了一堆paimon相关的,比如lsm树文件结构,checkpoint时产生snapshot,还有paimon写入文件的大概流程4.数据倾斜  我说的原因就是比如短视频业务下某个视频火了产生热点key,导致某个分区数据特别多,可以用flink的重分区算子,写代码加盐打散,或者自定义kafka的分区逻辑5.sql优化  我说的谓词下推提前过滤,多表join优先join小表,还有starrocks,doris这些olap引擎的CBO优化查询,讲了starrocks物化视图是一个实际读出来的表,可以设置新鲜度来变更读的频率,而且CBO会自动查询sql语句的查询结果是不是某个物化视图的子集,以此来优化,然后这些引擎底层也会帮我们做些优化。6.问我知道paimon的结构化非结构化数据的存储格式吗    不知道,没接触过6.1讲一下什么是湖仓一体 我说是湖的各种数据都能存和仓的规范的,规定好字段名,类型等元数据便于分析的能力的结合,我自己又说了一些什么schema on write,read之类的7.问我还知道什么数据湖技术  我说iceberg,hudi 区别我之前看过,但是忘了,我就记得paimon和flink的集成比较好,比较亲儿子,然后就没问了8.怎么看现在很多人都投身大模型行业   我说的感觉很正常,因为这个ai本身看着就很吸引人()8.1我说我用过那个阿里云的data什么,面试官说dataworks是吧,就是我们之前做的,问我还用过什么,我说阿里云的flink,fluss都用过,也用过神策,然后面试官讲了讲他们的产品8.2说了说我做过的其他东西,我说我搭建过网站,做过抖音小游戏但是上架太麻烦()9.英语好不好  我答:半废   面试官说那海外业务就不考虑你了10.怎么看data+ai (因为我简历上写了了解data+ai)我说的就是从前我们用个什么库只能对文字完成基本情感的正负分析,而引入了大模型就可以做出更精确的判断,比如用在用户直播间识别弹幕给主播提建议,或者金融行业智能agent检测到风险实时邮件通知之类的反问 15分钟1.flink现实市场上用的多不多2.paimon这类数据湖到底用的多不多当时忘录音了(),有的问题记不清了整场面试也是又说有笑,面试体验给到夯()🤠🤠🤠
查看21道真题和解析
点赞 评论 收藏
分享
1. 实习介绍2. 说我做了很多项目,叫我推荐几个说,开始拷打项目,先讲拼团3. 拼团项目业务流程介绍、营销规则树、高并发、自己做的吗?4. 责任链模式一般用来解决什么问题5. 项目tps和qps多少?有点忘记了6. qps的瓶颈?7. 最终数据一致性8. 读多写少的优化策略:缓存策略、数据库优化、写操作优化、缓存一致性9. 读多写少的索引设计10. mysql单库单表 数据超过2kw,索引是否有效:有效、但性能慢:内存压力大、写入变慢、全表扫描失效灾难11. 为什么DDD架构设计?12. SpringBoot处理HTTP请求的核心流程13. HTTP传输数据的安全问题和防护14. HTTPS握手过程(TLS握手):Hello协商算法 → 证书验证身份 → 交换密钥 → 开始加密通信15. 拼团项目反思改进空间:高并发其他方案、部署、业务拓展16. 共享屏幕看我的Agent笔记17. 解释为什么做Agent开发?18. 出算法了,问我源码读的多不,我说不多,然后还是出常规算法题(估计想出多线程)19. 手撕:整数矩阵最长递增路径:DFS+记忆化搜索20. 为什么代码过度使用static,写习惯了leetcode、方便直接用21. Java中static编译后的效果:内存分配、字节码层面、类加载初始化、访问方式22. 手撕:连续子数组和为K的倍数的所有子数组:一开始暴力双层循环了,应该要哈希表存索引或者前缀和23. 代码怎么达到最优的性能:我答成了阿里代码规范、AI工具优化(回答空泛、缺乏具体优化案例)24. 反问什么部门和业务
查看19道真题和解析
点赞 评论 收藏
分享
评论
2
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务