面试官:你认为GSPO有哪些地方可以改进?

1️⃣PPO 与 GRPO 在 token 级别进行优化
在实际中我们通常用回复的完整内容来评价模型,但 PPO 与 GRPO 却用逐词的方法来训练。 PPO 和 GRPO 是对模型输出的 token 逐个优化,这种做法的本意是更精细的优化。
但论文指出在大模型长文本的场景下,就容易引入噪声和奖励偏差,导致模型训练迷失方向。 GSPO 的核心思路就是把奖励和优化目标重新对齐,从给每个 token 打分,改为直接对整个句子打分。
这种切换带来的好处具体为
·训练更稳定。 GSPO 直接对整句进行训练,减少了词级波动带来的训练噪声。
·训练更高效, GSPO 根据句子的分筛选样本,仅保留高质量纯净的样本参与优化,让模型更快收敛,效果更好。

2️⃣GRPO 在MOE上难以收敛?
由于 MoE 每次推理只激活少数几个专家模块,虽然效率更高,但新旧策略的 Router 可能发生变化,导致新旧策略激活了不同的专家。比如:
·在旧策略下, Router 激活了【专家 A 】和【专家 C 】·在新策略下, Router 激活了【专家 B 】和【专家 D 】
模型更新后,实际参与计算的专家组合可能完全不同,导致两个概率的生成基础存在结构差异,重要性比率失真急剧上升,所以 Clip 会被频繁地触发,导致梯度也严重失真。
当高方差噪声渗入训练梯度后,还会模型不可逆崩溃,即使回退到历史检查点、调整裁剪范围或者修改生成长度后也无法恢复训练稳定性。
理想的重要性比率本应仅反映同一模型结构下参数变化带来的输出差异,但时的比率还混入了不同专家组合的影响,就会带来高方差导致训练崩溃。

3️⃣GSPO 可能存在什么不足?
1.若以整个 response 的重要性权重均值作为裁剪依据,则少数极端值很容易拉高或拉低均值,可能会导致整个 response 被误弃。在很多情况下,只需裁剪少量异常 token 即可修复该响应,但 GSPO 的做法却直接丢弃全部信息,导致采样数据的利用率降低,造成数据浪费。
2.即使在那些极端值不多、整体权重较为平缓的
 response 中, GSPO 仍保留所有 token 参与训练。这显然违背了 PPO - Clip 中引入 token mask 的初衷,那就是屏蔽的那些在 advantage 更新方向上已显著偏离原始策略的 token 。若继续使用这些 token ,反而可能干扰模型训练的稳定性。
3.论文中还提到, GSPO 的裁剪 token 数量约为 GRPO 的100倍。原本 token - level 的裁剪比例极低(约0.1%),而在 response - level 方法中,只要一个 group 中有一个 response 被整体丢弃, clip ratio 就会急剧上升。

📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务