Functional approximation

Generalization and discrimination:
Generalization: 相似借鉴
Discrimination:不同区分

reinforcement online setting
reinforcement learning里的算法是online learning,所以并不是所有的supervised learning algorithm都能用到reinforcement learning里面。
Supervised learning: target是固定的,不会随着时间而改变。Reinforcement learning会随着自身状态估计而改变。

Gradient Monte Carlo Method
图片说明

State aggregation
把状态相近的分为一组。更新是一组跟着一起更新。

TD is a semi-gradient method
图片说明
所以是semi-gradient的策略。
图片说明

The true objective for TD
图片说明

全部评论

相关推荐

Java转测开第一人:这种就是饼 把应届当廉价劳动力用完然后丢掉
你觉得今年秋招难吗
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务