阿里国际AI算法面经

一、自我介绍
二、实习相关八股
1. 实习业务场景
负责大模型对话对齐、指令微调、强化学习优化，提升模型生成准确性、合规性与指令遵循度，落地垂类对话/问答业务。
2. SFT数据筛选、采样及处理
3. 选择GRPO的原因、优化目标及数学原理
- 选型原因：相比PPO显存占用低、无需价值网络、训练更稳定，对齐效率高
- 优化目标：最大化模型生成优势，约束KL散度防止策略突变
- 原理：分组优势归一化、截断策略比率、近端约束，降低训练方差
4. 奖励函数设计（重点）
围绕有用性、准确性、合规性、流畅性设计，分维度打分；加入KL惩罚，避免单一奖励过拟合，区分正负奖励权重。
5. 判断RL训练质量达标方法
- 奖励值收敛、KL散度稳定；
- 离线评测：指令遵循率、幻觉率达标；
- 人工抽检生成内容，无退化、无套路化输出
6. 是否遇到Reward Hacking
遇到过，模型生成空洞话术、固定模板刻意刷高奖励值。
7. 其他奖励作弊类型
刻意迎合奖励规则、答非所问、重复安全话术、回避核心问题、策略坍缩同质化输出。
8. PPO和DPO了解
- PPO：在线强化学习，近端策略优化，带价值网络，训练复杂度高
- DPO：离线偏好优化，基于成对偏好数据，无需交互采样，训练简单稳定
三、基础八股
1. Attention计算时间复杂度
标准自注意力：O(n²d)（n为序列长度，d为特征维度）
2. KV Cache原理
推理时缓存历史token的KV矩阵，避免重复计算，降低算力开销，提升推理速度。
3. GQA、MLA原理
- GQA：分组查询注意力，Q分组共享KV，平衡推理速度与效果
- MLA：融合局部+全局注意力，适配长上下文，降低显存占用
4. vLLM原理
基于PagedAttention分页管理KV Cache，提升显存利用率，支持高并发推理。
5. Flash Attention原理
分块计算注意力，优化显存IO，减少HBM访问，提速同时降低显存开销。
6. 稀疏注意力原理
仅计算局部/关联token注意力，舍弃全局无关token，将复杂度降至O(n)，适配长文本。
7. 模型推理慢排查思路
检查序列长度、batch大小；确认KV Cache、量化、FlashAttention开启；排查GPU显存、算子优化问题。
四、编程题
1. rand7()实现rand10()
拒绝采样：rand7()*rand7()生成1-49数，保留1-40，映射为1-10，超出则重新生成。
2. 浮点数组取整最小变化和
贪心思路：每个数选上/下取整中差值更小的，累加最小总误差。
3. 最长无重复子串

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

05-13 16:09

离大谱！入职第二周mentor跳槽了😭

我入职那天分到的mentor是个工作三年的哥们儿，外号杰哥，浙大本硕，技术贼好，人也特别耐心。第一周他手把手带我熟悉项目，下班还带我去公司食堂吃晚饭，跟我讲组里的人际关系、哪个产品好沟通、哪个测试爱挑刺。我当时心里那个踏实啊，心想这mentor是真带我，运气真好。我甚至已经开始幻想转正后跟着他干。周一下午四点多，我正在改一个特别恶心的bug，他飞书突然发我："小x，跟你说个事儿，我下周一是最后一天，我跳槽了，你之后跟着王哥学。"我当时直接回复了“？？？？”真的以为他在开玩笑。他发了一个尴尬笑的表情，"真的，offer上个月就拿了，一直没说"。我那一瞬间真的不知道说啥。下班的时候我特意去他工位转了一圈，他已经在收拾东西来，看见我笑了一下，说"我请你吃个饭吧"。我们去了公司楼下的麻辣烫。吃饭的时候他跟我说了很多，说大厂这边晋升路径太卷，说他家在外地啊老婆怀孕了啊想离家近点什么的，说新公司虽然小但是给的钱多。我一边吃一边点头，看到一个快到中年研发人的无奈，感觉也看到了未来的我，心里挺不是滋味的。今早上午他飞书里发我一个文档链接，是他这两年攒的项目笔记，模块分工、踩过的坑、谁负责啥都有。他说"这个你留着，遇到问题先看这个再找王哥吧"。说实话，我当时贼感动，工作的这两周，他可能是我在公司里唯一真正把我当回事儿的人了。最后，我想说兄弟们，找实习真的别只看大厂光环，mentor稳定性也是玄学之一。我现在心里有点空，感觉靠山没了

勇敢的秋招人有点心碎：你这不错了，我之前遇到一个mentor干到我入职第三周直接被裁了，后来自学三个月，简历都写不出啥，太倒霉了

阿里国际AI算法面经

全站热榜

创作者周榜