大模型算法 美团面经分享
面试很难,还是要多多练习,攒人品中!
1.讲一下为什么先cot后answer的情况下,越往后token的prob越高?
2.用大模型蒸馏的cot很多噪声怎么办?
3.对VLM做SFT,发现模型对文本信息更置信,看图片的时候反而会产生幻觉,怎么办?
RL相关
1. PPO中GAE的公式,如何递归计算每个token的优势?
2. DPO的loss公式?
3. GRPO和PPO有什么区别?GSPO和GRPO又有什么区别?
4. RL中的熵塌缩和reward hacking遇到过吗?两个问题都有什么改进方法,最近有什么新论文提出了改进方法?
5. 在组内采样类型的RL算法中,on-policy rollout不出正确答案怎么办?
6. 知道Self-Distillation吗,为什么要做,最近这方面有哪些论文?
7. RL过程中reward或者loss震荡严重,怎么办?
1.讲一下为什么先cot后answer的情况下,越往后token的prob越高?
2.用大模型蒸馏的cot很多噪声怎么办?
3.对VLM做SFT,发现模型对文本信息更置信,看图片的时候反而会产生幻觉,怎么办?
RL相关
1. PPO中GAE的公式,如何递归计算每个token的优势?
2. DPO的loss公式?
3. GRPO和PPO有什么区别?GSPO和GRPO又有什么区别?
4. RL中的熵塌缩和reward hacking遇到过吗?两个问题都有什么改进方法,最近有什么新论文提出了改进方法?
5. 在组内采样类型的RL算法中,on-policy rollout不出正确答案怎么办?
6. 知道Self-Distillation吗,为什么要做,最近这方面有哪些论文?
7. RL过程中reward或者loss震荡严重,怎么办?
全部评论
相关推荐
MOOSTTAR:面我的连Redis都不知道
点赞 评论 收藏
分享
查看17道真题和解析 点赞 评论 收藏
分享