AC是off-policy吧,更新策略使用的数据仍然不是被更新策略产生的呀。只是策略之间的差异没有在更新方程中体现出来,所以没有用重要性采样吧
点赞 1

相关推荐

12-11 14:24
门头沟学院 Java
牛客35720396...:不要用boss,全是骗
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务