大模型算法八股整理-后训练(SFT+RL

1.SFT和RL有什么区别,什么场景用什么
2.SFT 有哪些方法,如何判断SFT效果已经达标了
3.SFT 过程中 loss 是怎么计算的
4.现在基座能力越来越强,为什么还要SFT
5.大模型 RAG、SFT、RL区别,分别适用于什么场景
6.为什么在强化学习前要先SFT
7.强化学习 on-policy vs off-policy 的理解与适用场景?
8.PPO/DPO/GRPO/DAPO/GSPO,目标函数、损失函数等
9.GRPO-DPO 对比
10.PPO-GRPO 对比
11.GRPO 公式,GRPO 公式角度来看,为什么会倾向于生成长篇大论
12.GRPO的group 大小怎么影响算法效果
13.GRPO 训练出现熵崩怎么办
14.GRPO 如何评估优势值
15.KI 散度前的系数有什么含义,应该怎么设置
16.对reward hacking 问题的认识及解决办法
17.强化学习的灾难性遗忘的问题
18.怎么看待强化学习的未来
19.对强化学习算法本身的认知,对其研究和落地怎么看
全部评论
GRPO为啥长篇
点赞 回复 分享
发布于 02-22 19:20 北京

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务