大模型算法 美团面经分享

面试很难,还是要多多练习,攒人品中!
1.讲一下为什么先cot后answer的情况下,越往后token的prob越高?
2.用大模型蒸馏的cot很多噪声怎么办?
3.对VLM做SFT,发现模型对文本信息更置信,看图片的时候反而会产生幻觉,怎么办?
 RL相关
1. PPO中GAE的公式,如何递归计算每个token的优势?
2. DPO的loss公式?
3. GRPO和PPO有什么区别?GSPO和GRPO又有什么区别?
4. RL中的熵塌缩和reward hacking遇到过吗?两个问题都有什么改进方法,最近有什么新论文提出了改进方法?
5. 在组内采样类型的RL算法中,on-policy rollout不出正确答案怎么办?
6. 知道Self-Distillation吗,为什么要做,最近这方面有哪些论文?
7. RL过程中reward或者loss震荡严重,怎么办?
全部评论

相关推荐

评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务