阿里国际AI算法面经
一、自我介绍
二、实习相关八股
1. 实习业务场景
负责大模型对话对齐、指令微调、强化学习优化,提升模型生成准确性、合规性与指令遵循度,落地垂类对话/问答业务。
2. SFT数据筛选、采样及处理
3. 选择GRPO的原因、优化目标及数学原理
- 选型原因:相比PPO显存占用低、无需价值网络、训练更稳定,对齐效率高
- 优化目标:最大化模型生成优势,约束KL散度防止策略突变
- 原理:分组优势归一化、截断策略比率、近端约束,降低训练方差
4. 奖励函数设计(重点)
围绕有用性、准确性、合规性、流畅性设计,分维度打分;加入KL惩罚,避免单一奖励过拟合,区分正负奖励权重。
5. 判断RL训练质量达标方法
- 奖励值收敛、KL散度稳定;
- 离线评测:指令遵循率、幻觉率达标;
- 人工抽检生成内容,无退化、无套路化输出
6. 是否遇到Reward Hacking
遇到过,模型生成空洞话术、固定模板刻意刷高奖励值。
7. 其他奖励作弊类型
刻意迎合奖励规则、答非所问、重复安全话术、回避核心问题、策略坍缩同质化输出。
8. PPO和DPO了解
- PPO:在线强化学习,近端策略优化,带价值网络,训练复杂度高
- DPO:离线偏好优化,基于成对偏好数据,无需交互采样,训练简单稳定
三、基础八股
1. Attention计算时间复杂度
标准自注意力:O(n²d)(n为序列长度,d为特征维度)
2. KV Cache原理
推理时缓存历史token的KV矩阵,避免重复计算,降低算力开销,提升推理速度。
3. GQA、MLA原理
- GQA:分组查询注意力,Q分组共享KV,平衡推理速度与效果
- MLA:融合局部+全局注意力,适配长上下文,降低显存占用
4. vLLM原理
基于PagedAttention分页管理KV Cache,提升显存利用率,支持高并发推理。
5. Flash Attention原理
分块计算注意力,优化显存IO,减少HBM访问,提速同时降低显存开销。
6. 稀疏注意力原理
仅计算局部/关联token注意力,舍弃全局无关token,将复杂度降至O(n),适配长文本。
7. 模型推理慢排查思路
检查序列长度、batch大小;确认KV Cache、量化、FlashAttention开启;排查GPU显存、算子优化问题。
四、编程题
1. rand7()实现rand10()
拒绝采样:rand7()*rand7()生成1-49数,保留1-40,映射为1-10,超出则重新生成。
2. 浮点数组取整最小变化和
贪心思路:每个数选上/下取整中差值更小的,累加最小总误差。
3. 最长无重复子串
二、实习相关八股
1. 实习业务场景
负责大模型对话对齐、指令微调、强化学习优化,提升模型生成准确性、合规性与指令遵循度,落地垂类对话/问答业务。
2. SFT数据筛选、采样及处理
3. 选择GRPO的原因、优化目标及数学原理
- 选型原因:相比PPO显存占用低、无需价值网络、训练更稳定,对齐效率高
- 优化目标:最大化模型生成优势,约束KL散度防止策略突变
- 原理:分组优势归一化、截断策略比率、近端约束,降低训练方差
4. 奖励函数设计(重点)
围绕有用性、准确性、合规性、流畅性设计,分维度打分;加入KL惩罚,避免单一奖励过拟合,区分正负奖励权重。
5. 判断RL训练质量达标方法
- 奖励值收敛、KL散度稳定;
- 离线评测:指令遵循率、幻觉率达标;
- 人工抽检生成内容,无退化、无套路化输出
6. 是否遇到Reward Hacking
遇到过,模型生成空洞话术、固定模板刻意刷高奖励值。
7. 其他奖励作弊类型
刻意迎合奖励规则、答非所问、重复安全话术、回避核心问题、策略坍缩同质化输出。
8. PPO和DPO了解
- PPO:在线强化学习,近端策略优化,带价值网络,训练复杂度高
- DPO:离线偏好优化,基于成对偏好数据,无需交互采样,训练简单稳定
三、基础八股
1. Attention计算时间复杂度
标准自注意力:O(n²d)(n为序列长度,d为特征维度)
2. KV Cache原理
推理时缓存历史token的KV矩阵,避免重复计算,降低算力开销,提升推理速度。
3. GQA、MLA原理
- GQA:分组查询注意力,Q分组共享KV,平衡推理速度与效果
- MLA:融合局部+全局注意力,适配长上下文,降低显存占用
4. vLLM原理
基于PagedAttention分页管理KV Cache,提升显存利用率,支持高并发推理。
5. Flash Attention原理
分块计算注意力,优化显存IO,减少HBM访问,提速同时降低显存开销。
6. 稀疏注意力原理
仅计算局部/关联token注意力,舍弃全局无关token,将复杂度降至O(n),适配长文本。
7. 模型推理慢排查思路
检查序列长度、batch大小;确认KV Cache、量化、FlashAttention开启;排查GPU显存、算子优化问题。
四、编程题
1. rand7()实现rand10()
拒绝采样:rand7()*rand7()生成1-49数,保留1-40,映射为1-10,超出则重新生成。
2. 浮点数组取整最小变化和
贪心思路:每个数选上/下取整中差值更小的,累加最小总误差。
3. 最长无重复子串
全部评论
相关推荐
勇敢的秋招人有点心碎:你这不错了,我之前遇到一个mentor干到我入职第三周直接被裁了,后来自学三个月,简历都写不出啥,太倒霉了
点赞 评论 收藏
分享
战争学院:你妈妈第一反应是骗子,我妈妈第一反应是培训贷,全国家长系统是统一的吗哈哈哈
点赞 评论 收藏
分享
查看4道真题和解析