cs285: Policy Gradients

Introduction

复习一下policy gradients

Evaluating the objective

首先要说一下pg的推导过程。
图片说明

Direct policy differentiation

图片说明
其实最主要的就这三行公式。
然后再有:
图片说明
图片说明
图片说明
总而言之就是让好的轨迹出现的概率增大,让差的轨迹出现的概率减小。
但是因为pg的方差比较大。
图片说明
比如origin的值-5,5,5会使得分布变成其中一个样子,但是同时增加10之后成为0,10,10会使得分布变成另一个样子。但其实按照逻辑来讲两者本质相同。不应该差距那么大。所以我们要设置一个baseline来减小方差。当然也有其他办法。

Causality

限定t时刻能影响到的reward的时刻只能在t时刻之后

Baseline

增加baseline是个不错的方法。这个方法在之前的deepbayes中也提到过。
图片说明
图片说明
当然纯的简单baseline貌似不是最好的,最好的能使方差降到最低的应该是上面那个经过梯度平方加权的操作。但是简单baseline效果也不错了。

off policy, importance sampling

现在的问题是单纯的pg是on policy的,样本利用率不够。那么只能把它做成off policy的。并且需要重要性采样。
图片说明
图片说明
然后加入因果性,做时间的截断。
图片说明
做一下一阶近似。
图片说明
单纯MLE的tensorflow实现:
图片说明
把pg看成加权mle的tensorflow实现
图片说明

Summary

复习一下pg的思路。

算法小屋 文章被收录于专栏

不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。

全部评论

相关推荐

浩浩没烦恼:一二面加起来才一个小时? 我一面就一个小时多了
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
正在热议
更多
# 你的mentor是什么样的人? #
4588次浏览 33人参与
# 你觉得mentor喜欢什么样的实习生 #
10776次浏览 297人参与
# 智慧芽求职进展汇总 #
26075次浏览 110人参与
# 帮我看看,领导说这话什么意思? #
6729次浏览 28人参与
# 26届秋招公司红黑榜 #
13421次浏览 44人参与
# 怎么给家人解释你的工作? #
1748次浏览 17人参与
# 未岚大陆求职进展汇总 #
38160次浏览 114人参与
# 没有家庭托举的我是怎么找工作的 #
12806次浏览 161人参与
# 求职低谷期你是怎么度过的 #
5470次浏览 97人参与
# 实习必须要去大厂吗? #
146898次浏览 1542人参与
# 从哪些方向判断这个offer值不值得去? #
6825次浏览 95人参与
# 同bg的你秋招战况如何? #
158912次浏览 927人参与
# 度小满求职进展汇总 #
10248次浏览 53人参与
# 校招泡的最久的公司是哪家? #
4894次浏览 23人参与
# 面试紧张时你会有什么表现? #
1811次浏览 21人参与
# 你有哪些缓解焦虑的方法? #
37215次浏览 835人参与
# 你喜欢工作还是上学 #
77633次浏览 860人参与
# 入职第一天,你准备什么时候下班 #
85528次浏览 467人参与
# 秋招想进国企该如何准备 #
97761次浏览 487人参与
# 简历无回复,你会继续海投还是优化再投? #
103636次浏览 819人参与
# 机械人的工作环境真的很差吗 #
25100次浏览 119人参与
# 独居后,你的生活是更好了还是更差了? #
28161次浏览 263人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务