首页 / ppo算法

#

ppo算法

#

3223次浏览 8人互动

此刻你想和大家分享什么

热门最新

2023-06-28 18:55

阿里巴巴_算法工程师

强化学习面试必知必答[8]：近端策略优化PPO算法

强化学习从基础到进阶-常见问题和面试必知必答[8]：近端策略优化（proximal policy optimization，PPO）算法 1.核心词汇   同策略（on-policy）：要学习的智能体和与环境交互的智能体是同一个时对应的策略。   异策略（off-policy）：要学习的智能体和与环境交互的智能体不是同一个时对应的策略。   重要性采样（important sampling）：使用另外一种分布，来逼近所求分布的一种方法，在强化学习中通常和蒙特卡洛方法结合使用，公式如下：   ∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex∼q[f(x)p(x)q(x)]=E...

强化学习（原理+项目）

点赞评论收藏

分享

2023-06-28 18:54

阿里巴巴_算法工程师

强化学习案例与实践[8]：近端策略优化PPO算法

强化学习从基础到进阶--案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法 相关链接以及码源见文末 1.从同策略到异策略PPO算法 在介绍近端策略优化（proximal policy optimization，PPO） 之前，我们先回顾同策略和异策略这两种训练方法的区别。在强化学习里面，要学习的是一个智能体。如果要学习的智能体和与环境交互的智能体是相同的，我们称之为同策略。如果要学习的智能体和与环境交互的智能体不是相同的，我们称之为异策略。 为什么我们会想要考虑异策略？让我们回忆一下策略梯度。策略梯度是同策略的算法，因为在策略梯度中，我们需要...

强化学习（原理+项目）

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务