shein 数据开发 一面

#发面经攒人品#
希音这家公司也是第一次面试,感觉整体还是偏难的
1 先做个自我介绍
2 讲一下你目前做的项目,主要是用了哪些技术栈,解决了哪些问题,做了哪些优化
3 对于数据湖你能说一下各个湖仓的优缺点吗,你目前用的哪个,主要是用了哪一块技术和实现
4 对于flink来说,对于一条主流一天有千亿级别数据,目前对于数据实时写入Doris存在这性能瓶颈,第一个问题是解析比较慢,第二个精确一致写入比较慢,你如果来优化需要怎么入手,对于优化的话怎么实现不延迟不oom
5 目前有个场景,需要每10秒看到某个APP的主页的实时uv并且需要取top100个页面,你来实现如何做到实时秒级计算和展示,数据量级有亿级起步
6 对于离线模型,如果存在一个画像需求,对于某些人群或者漏斗需要做到每天周期2点前产出,你如何保证这个时效性
7 目前你建设模型是怎么建设的,如何确保你这个模型是合理的,有啥量化的
8 对于数据倾斜如何快速定位,如何实现快速解决数据倾斜,除了加资源和join改变还有啥方法
9 对于数据治理有啥好的办法快速治理,你来主导治理的话主要是从哪一块入手,解决哪些问题
10 来个SQL题目,取一支股票的最大利润
11 有啥需要找我了解的
我这还是第一次面试这家公司,给我的感觉似乎还比较难啊,技术深度算是比较深了,对于面试的人来说必须要有这方面的经验才能解决上面的问题,要不然感觉估计答不出来
全部评论
第五个咋答的
点赞 回复 分享
发布于 昨天 00:31 重庆

相关推荐

不愿透露姓名的神秘牛友
04-30 17:45
本人简历上 1 个 RAG 项目 + 1 个 Agent demo;这次面的是AI岗一面前我以为:背完八股 + 把项目讲清楚,应该能稳过。0-5 min:自我介绍 + 项目背景- 顺利。讲清楚了我的 RAG 是给法律咨询场景做的,痛点是大模型不懂行业术语。5-20 min:项目深挖(开始崩)- Q1:你的法律文档总共多少?切了多少个 chunk?- 我:约 500 份 PDF,5 万个 chunk- Q2:500 份 PDF 加起来才 5 万 chunk?平均每份 100 个 chunk,你切片粒度是多少?- 我:512 token- Q3:法律文档里"第三条第二款"和"第三条之二"是不同含义,你的切片会不会把它切散?- 我:(沉默 5 秒)……应该会- Q4:那你怎么解决?- 我:我可以加一个 metadata……(开始编)❌ 第一次崩:切片粒度没考虑业务语义。20-35 min:评测体系(继续崩)- Q:你怎么知道你的 RAG 有效?- 我:我用 Recall@5……- Q:评测集多少条?怎么构造的?- 我:100 条,我手工标注的- Q:100 条够吗?分布怎么样?- 我:分布……我没分- Q:那你的 Recall@5 是 0.81,你怎么知道这个数字是好是坏?baseline 是什么?- 我:(沉默 10 秒)❌ 第二次崩:没有 baseline,没分布分析,纯靠"看起来还行"。35-55 min:Agent 部分(彻底崩)- Q:你的 Agent demo 用了几个工具?- 我:3 个,搜索、计算器、文档查询- Q:当用户问一个问题,你的 Agent 怎么决定调哪个工具?- 我:用 ReAct,让模型自己决定- Q:模型决策错了怎么办?- 我:我加了个 reflection……- Q:reflection 失败 3 次后怎么处理?- 我:(沉默 15 秒)……我没想过❌ 第三次崩:异常路径完全没设计。55-65 min:业务理解 + 反问- Q:你觉得字节做 AI 应用最大的瓶颈是什么?- 我:算力?数据?- Q:你看过哪些字节最近发的 AI 产品?- 我:豆包、扣子……- Q:扣子是 Agent 平台还是工作流平台?- 我:(再次沉默)❌ 第四次崩:对面试公司业务一无所知。
面试官拷打AI项目都会问...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务