Dyna:Framework for reinforcement learning

Dyna

two types of experience

  1. Direct learning from experience generated from actual environment.
  2. Simulated experience from models used for planning.

Dyna: combine direct RL and planning
Planning(如DP) 和learning(如MC、TD)方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated experience,而learning method使用的经验是由真实环境生成的real experience。但两者都满足上述state space Planning结构,这表示很多思想和算法可以相互借鉴,在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如,我们可以将Q learning 和 planning 结合,得到random-sample one-step tabular Q-planning 方法。

planning的时候如果模型不准确怎么办
比如环境突然变化,要怎么办
How model can plan with incomplete models?
Dyna-Q会从之前的状态中采样。
那如果模型不准确要怎么尽快能知道呢?
Add a bonus to reward used in planning.
图片说明

图片说明

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务