首页 > 试题广场 >

强化学习后训练里,为何选择 PPO 而不是 GRPO?两者目

[问答题]
强化学习后训练里,为何选择 PPO 而不是 GRPO?两者目标函数、稳定性与实现复杂度有哪些关键差别?

这道题你会答吗?花几分钟告诉大家答案吧!