《强化学习》 DP动态规划

奖赏设计

累计奖赏和折扣累计奖赏




数学上看,折扣奖赏机制可以将累计回报转化为递推的形式:

G t = R t + γ ( R t + 1 + γ R t + 2 + . . . ) = R t + γ G t + 1

折扣是一种固定效应模型

奖赏设计:不要平移,奖励做什么而不是怎么做

奖赏设计:缩放,塑形

贝尔曼等式

状态值函数

值函数的贝尔曼期望等式

动作值函数

两者关系

动作值函数的贝尔曼期望等式

衡量策略优劣

贝尔曼最优等式

广义策略迭代GPI

策略评估


策略改进



GPI


策略迭代

值迭代

对比

全部评论

相关推荐

FieldMatching:看成了猪头顾问,不好意思
点赞 评论 收藏
分享
下北泽:都是校友,还是同届,我就说直白点,不委婉了,我相信你应该也不是个玻璃心,首先你觉得一个双非的绩点写简历上有用吗?班长职务有用吗?ccf有用吗?企业会关心你高数满分与否吗?第二,第一个项目实在太烂,一眼就能看出是外卖,还是毫无包装的外卖,使用JWT来鉴权,把热点数据放进Redis这两个点居然还能写进简历里,说难听点这两个东西都是学个几十分钟,调用个API就能完成的事情,在双非一本的条件下,这种项目你觉得能拿出手吗,第二个项目你写的东西和你的求职方向有任何的匹配吗?第三,计设那一块毫无价值,如果想突出自己会前端,直接写入专业技能不行吗,最后,专业技能里像深入理解JVM底层原理这种你觉得这句话你自己真的能匹配吗?都是校友加上同届,我措辞直接,但希望能点出你的问题,想进大厂还得继续沉淀项目和学习
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务