Functional approximation
Generalization and discrimination:
Generalization: 相似借鉴
Discrimination:不同区分
reinforcement online setting
reinforcement learning里的算法是online learning,所以并不是所有的supervised learning algorithm都能用到reinforcement learning里面。
Supervised learning: target是固定的,不会随着时间而改变。Reinforcement learning会随着自身状态估计而改变。
Gradient Monte Carlo Method
State aggregation
把状态相近的分为一组。更新是一组跟着一起更新。
TD is a semi-gradient method
所以是semi-gradient的策略。
The true objective for TD