使用梯度裁剪限制梯度范数
使用clip函数限制新旧策略比率在[1-ε, 1+ε]范围内
使用KL散度惩罚项但不设硬约束
使用经验回放缓冲区
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题