首页 > 试题广场 >

PPO-Clip(Proximal Policy Optim

[单选题]
PPO-Clip(Proximal Policy Optimization with Clipping)通过什么机制限制策略更新的幅度?
  • 使用梯度裁剪限制梯度范数
  • 使用clip函数限制新旧策略比率在[1-ε, 1+ε]范围内
  • 使用KL散度惩罚项但不设硬约束
  • 使用经验回放缓冲区

这道题你会答吗?花几分钟告诉大家答案吧!