首页 > 试题广场 >

在PPO(Proximal Policy Optimizat

[单选题]
在PPO(Proximal Policy Optimization)用于RLHF时,clip机制的作用是什么?
  • 裁剪梯度以防止梯度爆炸
  • 限制策略更新幅度,防止新策略与旧策略偏离过大导致训练不稳定
  • 裁剪奖励值以防止奖励过大
  • 限制生成文本的最大长度

这道题你会答吗?花几分钟告诉大家答案吧!