《强化学习》 DP动态规划

奖赏设计

累计奖赏和折扣累计奖赏




数学上看,折扣奖赏机制可以将累计回报转化为递推的形式:

G t = R t + γ ( R t + 1 + γ R t + 2 + . . . ) = R t + γ G t + 1

折扣是一种固定效应模型

奖赏设计:不要平移,奖励做什么而不是怎么做

奖赏设计:缩放,塑形

贝尔曼等式

状态值函数

值函数的贝尔曼期望等式

动作值函数

两者关系

动作值函数的贝尔曼期望等式

衡量策略优劣

贝尔曼最优等式

广义策略迭代GPI

策略评估


策略改进



GPI


策略迭代

值迭代

对比

全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务