《强化学习》 模型无关方法

模型无关学习


Monte-Carlo & Temporal Difference; Q-learning





探索与利用

on-policy 和 off-policy

SARSA

Expected value SARSA

SARSA和Q-Learning对比

on-policy和off-policy对比

on-policy off-policy
Agent 可以选择动作 Agent 不能 选择动作
Most obvious setup Learning with exploration,playing without exploration
Agent always follows his own policy Learning from expert(expert is imperfect)
Learning from sessions(recorded data)
can’t learn from off-policy can learn from on-policy
SARSA Q-learning
more… Expected Value SARSA

经验回放

全部评论

相关推荐

2025-12-16 17:17
门头沟学院 产品经理
烤点老白薯:他第二句话的潜台词是想让你帮他点个瑞幸或者喜茶啥的
mt对你说过最有启发的一...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务