百度大模型实习算法面经
一、项目深挖
1. 训练时显存占用高的瓶颈在哪?做了哪些显存优化?
2. 如果重新做一次,你会在哪些环节提前做 ablation?
二、 延伸八股:
1. AdamW 与 Adam 在权重衰减上的实现差异?
2. 梯度累积等价于 batch 扩大的严格条件是什么?
3. PPO 的核心目标函数是什么?每个符号的物理意义?
4. 相比 PPO,GRPO 的“Group”体现在哪一步?
5. KL 散度在 RLHF 阶段出现的位置、作用以及过大/过小分别会导致什么现象?
6. Multi-Agent 场景里,Reflection 模块与 Memory 模块的输入输出各自是什么?它们如何解耦又能互相增强?
7. 简述 MRR 的计算流程。
8.同样是排序指标,NDCG 与 MRR 的评估视角差异在哪?
三、手撕环节
原地快速排序
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
1. 训练时显存占用高的瓶颈在哪?做了哪些显存优化?
2. 如果重新做一次,你会在哪些环节提前做 ablation?
二、 延伸八股:
1. AdamW 与 Adam 在权重衰减上的实现差异?
2. 梯度累积等价于 batch 扩大的严格条件是什么?
3. PPO 的核心目标函数是什么?每个符号的物理意义?
4. 相比 PPO,GRPO 的“Group”体现在哪一步?
5. KL 散度在 RLHF 阶段出现的位置、作用以及过大/过小分别会导致什么现象?
6. Multi-Agent 场景里,Reflection 模块与 Memory 模块的输入输出各自是什么?它们如何解耦又能互相增强?
7. 简述 MRR 的计算流程。
8.同样是排序指标,NDCG 与 MRR 的评估视角差异在哪?
三、手撕环节
原地快速排序
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
查看16道真题和解析