首页 / 优势函数

#

优势函数

#

682次浏览 1人互动

此刻你想和大家分享什么

热门最新

2023-06-25 20:47

阿里巴巴_算法工程师

强化学习从基础到进阶[5]：梯度策略、添加基线、优势函数

强化学习从基础到进阶-案例与实践[5]：梯度策略、添加基线（baseline）、优势函数、动作分配合适的分数（credit） 1 策略梯度算法 如图 5.1 所示，强化学习有 3 个组成部分：演员（actor）、环境和奖励函数。智能体玩视频游戏时，演员负责操控游戏的摇杆， 比如向左、向右、开火等操作；环境就是游戏的主机，负责控制游戏的画面、负责控制怪兽的移动等；奖励函数就是当我们做什么事情、发生什么状况的时候，可以得到多少分数， 比如打败一只怪兽得到 20 分等。同样的概念用在围棋上也是一样的，演员就是 Alpha Go，它要决定棋子落在哪一个位置；环境就是对手；奖励函数就是围棋的规则，赢就是...

强化学习（原理+项目）

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务