大模型算法八股整理-后训练(SFT+RL

1.SFT和RL有什么区别,什么场景用什么
2.SFT 有哪些方法,如何判断SFT效果已经达标了
3.SFT 过程中 loss 是怎么计算的
4.现在基座能力越来越强,为什么还要SFT
5.大模型 RAG、SFT、RL区别,分别适用于什么场景
6.为什么在强化学习前要先SFT
7.强化学习 on-policy vs off-policy 的理解与适用场景?
8.PPO/DPO/GRPO/DAPO/GSPO,目标函数、损失函数等
9.GRPO-DPO 对比
10.PPO-GRPO 对比
11.GRPO 公式,GRPO 公式角度来看,为什么会倾向于生成长篇大论
12.GRPO的group 大小怎么影响算法效果
13.GRPO 训练出现熵崩怎么办
14.GRPO 如何评估优势值
15.KI 散度前的系数有什么含义,应该怎么设置
16.对reward hacking 问题的认识及解决办法
17.强化学习的灾难性遗忘的问题
18.怎么看待强化学习的未来
19.对强化学习算法本身的认知,对其研究和落地怎么看
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务