阿里虎鲸文娱大模型算法实习一面

给我面没招了,发点面经攒攒人品~
1.实习拷打
2.context engineering的具体实现
3.mutiagent协作过程中的并行串行?还有如何保证结果的一致性
4.在agent不断对context修正的过程中特别是图的这种情况如果保证图片一致性?
5.agentrouter思路
6.你对agent理解 mutiagent sys的理解
全部评论
这是优酷还是大麦
点赞 回复 分享
发布于 04-19 21:21 重庆

相关推荐

一、自我介绍二、实习相关八股1. 实习业务场景负责大模型对话对齐、指令微调、强化学习优化,提升模型生成准确性、合规性与指令遵循度,落地垂类对话/问答业务。2. SFT数据筛选、采样及处理3. 选择GRPO的原因、优化目标及数学原理- 选型原因:相比PPO显存占用低、无需价值网络、训练更稳定,对齐效率高- 优化目标:最大化模型生成优势,约束KL散度防止策略突变- 原理:分组优势归一化、截断策略比率、近端约束,降低训练方差4. 奖励函数设计(重点)围绕有用性、准确性、合规性、流畅性设计,分维度打分;加入KL惩罚,避免单一奖励过拟合,区分正负奖励权重。5. 判断RL训练质量达标方法- 奖励值收敛、KL散度稳定;- 离线评测:指令遵循率、幻觉率达标;- 人工抽检生成内容,无退化、无套路化输出6. 是否遇到Reward Hacking遇到过,模型生成空洞话术、固定模板刻意刷高奖励值。7. 其他奖励作弊类型刻意迎合奖励规则、答非所问、重复安全话术、回避核心问题、策略坍缩同质化输出。8. PPO和DPO了解- PPO:在线强化学习,近端策略优化,带价值网络,训练复杂度高- DPO:离线偏好优化,基于成对偏好数据,无需交互采样,训练简单稳定三、基础八股1. Attention计算时间复杂度标准自注意力:O(n²d)(n为序列长度,d为特征维度)2. KV Cache原理推理时缓存历史token的KV矩阵,避免重复计算,降低算力开销,提升推理速度。3. GQA、MLA原理- GQA:分组查询注意力,Q分组共享KV,平衡推理速度与效果- MLA:融合局部+全局注意力,适配长上下文,降低显存占用4. vLLM原理基于PagedAttention分页管理KV Cache,提升显存利用率,支持高并发推理。5. Flash Attention原理分块计算注意力,优化显存IO,减少HBM访问,提速同时降低显存开销。6. 稀疏注意力原理仅计算局部/关联token注意力,舍弃全局无关token,将复杂度降至O(n),适配长文本。7. 模型推理慢排查思路检查序列长度、batch大小;确认KV Cache、量化、FlashAttention开启;排查GPU显存、算子优化问题。四、编程题1. rand7()实现rand10()拒绝采样:rand7()*rand7()生成1-49数,保留1-40,映射为1-10,超出则重新生成。2. 浮点数组取整最小变化和贪心思路:每个数选上/下取整中差值更小的,累加最小总误差。3. 最长无重复子串
查看19道真题和解析
点赞 评论 收藏
分享
腾讯 AI部门:CSIG-元宝、TEG-机器学习部、TEG-数据平台部、TEG-多模态模型部、TEG-大语言模型部薪酬:16薪绩效:outstanding 5-6个月 / good 3-4个月股权:行权周期3年(第1年1/3,第2年1/3,第3年1/3)其他福利:签字费、房补字节AI部门:应用-剪映、应用-豆包、模型-seed、模型-火山、智能计算研究院薪酬:15薪绩效:E 6个月+ / M+ 4个月+ / M 3个月+ / M- 1-2个月 / I 0-1个月股权:行权周期4年(第1年20%,第2年25%,第3年25%,第4年30%)其他福利:签字费+期权、三餐免费、房补阿里AI部门:钉钉、LMA大模型、夸克大模型、阿里云通义、AI Business薪酬:16薪绩效:3.75对应5-6个月 / 3.5对应3-4个月股权:行权周期4年(第1年15%,第2年25%,第3年30%,第4年30%)其他福利:签字费+股票、餐补、购房免息贷款美团大模型团队绩效系数:S 1.5+ / A 1.1-1.3 / B 0.5-1.1 / C 0-0.5股权行权周期:第1年0%,第2年50%,第3年25%,第4年25%福利:20:00后餐补百度部门:文心飞桨、千帆/智能云、智驾硬件薪酬:15.5薪(部分16薪)绩效:E 1.3~2 / M+ 1.05~1.35 / M 0.8~1.05 / M- 0股权行权周期:4年,新人每年25%,老员工不固定福利:餐补京东部门:具身智能、探索研究院薪酬:19薪 + 签字费绩效:A+ 8个月 / A 6个月 / B 5个月 / B- 3个月 / C 0股权行权周期:第1年15%,第2年35%,第3年25%,第4年25%福利:餐补小红书部门:AI技术部绩效:3.5+ 3-7个月 / 3.75 5-10个月 / 4 20个月+ / 5 20-30个月股权行权周期:第1年0%,第2年50%,第3年25%,第4年25%福利:三餐免费、房补小米部门:应用算法部、hi lab薪酬:16薪股权激励计划:最长十年福利:餐补快手部门:AI实验室、AI平台部、可灵AI薪酬:15-18薪 + 股票(部分16薪)绩效:S 2.4 / A 1.6 / B+ 1.1 / B 1(另一口径:S 8-10个月 / A 6-8个月 / B 3-4个月 / C 0-1个月)股权行权周期:第1年25%,第2年25%,第3年25%,第4年25%福利:房补
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务