2020-05-06 12:08 腾讯_数据平台部_算法工程师

关注

cs285: Policy Gradients

Introduction

复习一下policy gradients

Evaluating the objective

首先要说一下pg的推导过程。
$图片说明$

Direct policy differentiation

$图片说明$
其实最主要的就这三行公式。
然后再有：

总而言之就是让好的轨迹出现的概率增大，让差的轨迹出现的概率减小。
但是因为pg的方差比较大。

比如origin的值-5，5，5会使得分布变成其中一个样子，但是同时增加10之后成为0，10，10会使得分布变成另一个样子。但其实按照逻辑来讲两者本质相同。不应该差距那么大。所以我们要设置一个baseline来减小方差。当然也有其他办法。

Causality

限定t时刻能影响到的reward的时刻只能在t时刻之后

Baseline

增加baseline是个不错的方法。这个方法在之前的deepbayes中也提到过。
图片说明

当然纯的简单baseline貌似不是最好的，最好的能使方差降到最低的应该是上面那个经过梯度平方加权的操作。但是简单baseline效果也不错了。

off policy, importance sampling

现在的问题是单纯的pg是on policy的，样本利用率不够。那么只能把它做成off policy的。并且需要重要性采样。
图片说明

然后加入因果性，做时间的截断。

做一下一阶近似。

单纯MLE的tensorflow实现：

把pg看成加权mle的tensorflow实现

Summary

复习一下pg的思路。

算法小屋文章被收录于专栏

不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。

全部评论

推荐最新楼层

10-20 19:08

已编辑

西安交通大学机械工程师

制造业求职 0 offer 时期的破局之道

主包简单背景如下：制造业，结构岗，单9学历，RM经历(虽然比起大佬来说这部分不难），三个机器人实物项目，几篇授权的1，2作专利，学科竞赛国奖有几个，一段正经实习。求职前自我感觉很良好，求职后被打的头破血流，经历了很长一段时间的0 offer时期 ，可以分享一下我的破局思路，为各位还在求职低谷期的牛友提供参考：（以制造业为主，可能行业时间线等信息和互联网差距较大）1 可以有段实习最好，大厂增加经验，小厂秋招保底实习学到的东西可以有助于秋招和春招，同时有了实习保底offer，可以避免拿第一个offer的时候被压价。同时心里也不会太崩溃。硕士生来说建议秋招前完成实习，本科生的话在不耽误学业的情况下一...

可爱的布莱恩拿到了s...：还有一点是要早投，不然就没hc了，并且线下宣讲会如果有投递和面试环节一定要去试试

求职低谷期你是怎么度过的

点赞评论收藏

分享

今天 10:02

上海交通大学人工智能

后悔接拼多多的offer

入职一个月，后悔没有早点来😍入职就发笔记本+台式机+办公大礼包业务迭代快，项目也非常有挑战性包四餐，伙食非常顶同事也特别好总包比字节大40%【拼多多集团-PDD校园招聘】内推链接：https://careers.pddglobalhr.com/campus/grad?t=QJ4GiRNH6A，内推码：QJ4GiRNH6A。期待你的加入！我们一起，无拼不青春！（通过此链接投递计入内推，内推简历优先筛选~）

拼多多集团-PDD公司福利 815人发布

点赞评论收藏

分享

10-15 13:36

河南农业大学 golang

摇身一变华孝子，烂双非也能沾上华子了😍

浩浩没烦恼：一二面加起来才一个小时？我一面就一个小时多了

点赞评论收藏

分享

10-17 16:48

湖南工学院网络工程师

有大佬看看鼠鼠的简历嘛，帮忙改一下（有偿）

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的mentor是什么样的人？ #

4588次浏览 33人参与

# 你觉得mentor喜欢什么样的实习生 #

10776次浏览 297人参与

# 智慧芽求职进展汇总 #

26075次浏览 110人参与

# 帮我看看，领导说这话什么意思？ #

6729次浏览 28人参与

# 26届秋招公司红黑榜 #

13421次浏览 44人参与

# 怎么给家人解释你的工作？ #

1748次浏览 17人参与

# 未岚大陆求职进展汇总 #

38160次浏览 114人参与

# 没有家庭托举的我是怎么找工作的 #

12806次浏览 161人参与

# 求职低谷期你是怎么度过的 #

5470次浏览 97人参与

# 实习必须要去大厂吗？ #

146898次浏览 1542人参与

# 从哪些方向判断这个offer值不值得去？ #

6825次浏览 95人参与

# 同bg的你秋招战况如何？ #

158912次浏览 927人参与

# 度小满求职进展汇总 #

10248次浏览 53人参与

# 校招泡的最久的公司是哪家？ #

4894次浏览 23人参与

# 面试紧张时你会有什么表现？ #

1811次浏览 21人参与

# 你有哪些缓解焦虑的方法？ #

37215次浏览 835人参与

# 你喜欢工作还是上学 #

77633次浏览 860人参与

# 入职第一天，你准备什么时候下班 #

85528次浏览 467人参与

# 秋招想进国企该如何准备 #

97761次浏览 487人参与

# 简历无回复，你会继续海投还是优化再投？ #

103636次浏览 819人参与

# 机械人的工作环境真的很差吗 #

25100次浏览 119人参与

# 独居后，你的生活是更好了还是更差了？ #

28161次浏览 263人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务