Functional approximation

Generalization and discrimination:
Generalization: 相似借鉴
Discrimination:不同区分

reinforcement online setting
reinforcement learning里的算法是online learning,所以并不是所有的supervised learning algorithm都能用到reinforcement learning里面。
Supervised learning: target是固定的,不会随着时间而改变。Reinforcement learning会随着自身状态估计而改变。

Gradient Monte Carlo Method
图片说明

State aggregation
把状态相近的分为一组。更新是一组跟着一起更新。

TD is a semi-gradient method
图片说明
所以是semi-gradient的策略。
图片说明

The true objective for TD
图片说明

全部评论

相关推荐

不愿透露姓名的神秘牛友
05-01 13:13
ecece:这么明目张胆虚报就业率啊
点赞 评论 收藏
分享
刘湘_passion:太强了牛肉哥有被激励到
点赞 评论 收藏
分享
我知道自己这个念头不好,但是真的很羡慕😭大家的父母长辈都能帮到自己吗?
大飞的诡术妖姬:父母都是普通打工人,身体也不好,能供我读到本科毕业很不容易,毕业以后帮衬心里会有罪恶感。虽然可能会错过很多风景,但还是想活的心安理得。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务