快手二面
📍面试公司:快手
💻面试岗位:大模型
❓面试问题:
1. ppo,dpo,grpo是什么各种的优劣
2. ppo中gae的计算
3. dpo的数据要怎么做
4. 对于grpo有什么改进的思路,dapo和gspo分别怎么做的
5. dpo如果正确和错误都下降怎么办
6. 分层强化学习要怎么具体设计agent的思路
7. reward怎么训练
8. reward hacking是怎么出现的,要怎么解决
9. 计算7b模型的占用
10. fddp和deepspeed怎么做显存优化
11. adamw中最占显存的是什么
12. 手撕一个MHA
#发面经攒人品##面试时最害怕被问到的问题##快手校招##大模型#
💻面试岗位:大模型
❓面试问题:
1. ppo,dpo,grpo是什么各种的优劣
2. ppo中gae的计算
3. dpo的数据要怎么做
4. 对于grpo有什么改进的思路,dapo和gspo分别怎么做的
5. dpo如果正确和错误都下降怎么办
6. 分层强化学习要怎么具体设计agent的思路
7. reward怎么训练
8. reward hacking是怎么出现的,要怎么解决
9. 计算7b模型的占用
10. fddp和deepspeed怎么做显存优化
11. adamw中最占显存的是什么
12. 手撕一个MHA
#发面经攒人品##面试时最害怕被问到的问题##快手校招##大模型#
全部评论
相关推荐

点赞 评论 收藏
分享

点赞 评论 收藏
分享