2020-02-24 15:02 已编辑腾讯_数据平台部_算法工程师

关注

Reinforcement learning: Alberta

optimistic initial values

set an initial value which is larger than the max value
This heuristic can only drive early exploration.
They are not suited for non-stationary problems.
We do not know the maximum value of each arm-bandit.
But it is still a good heuristic to combine with other methods.

explore探索起点

探索起点指的是初始环境各个状态概率都不为0的情况。但是很多情况无法满足这个初始条件。因为有的时候有些状态从未被访问过，所以概率是0。然而为了避免这样的情况，只能在过程中持续探索，所以出现了 $\epsilon$ -soft 策略，就是在过程中持续探索。所以就可以丢掉探索开始这个初始条件了。
软策略

离策略学习

off-policy学习和软策略学习不同。它将目标策略和行为策略分开。目标策略是指要学习的策略，行为策略是指用于动作选择的策略。分开的好处是可以持续探索，而不要软策略那样的手段。因为 $\epsilon$ 软策略无论是目标策略还是行为策略都不是最优策略。

Discounting-aware importance sampling

图片说明

Per-decision importance sampling

图片说明

Advantages of TD learning

TD converges faster in a low learning rate than MC and has a lower final error.
TD does not require a model.
TD is fully online and incremental.

General policy iteration

contains: policy evaluation, policy improvement

backup diagram(备份图)

图片说明
其中黑点是(s,a)对,白点是s。

policy具体指什么

policy的种类现在接触过的就是greedy policy, epsilon-greedy policy等类似的。也就是说如果target policy和behavior policy都是一样,那就是on-policy,否则就是off-policy。

Sarsa: policy iteration
Q-learning: value iteration

Q learning是off-policy的原因

因为Q-learning学习的是最有的value function,所以它的动作估计是under target policy的,也就是说它不需要纠正estimation,所以是off-policy的。

期望sarsa

has lower variance
期望sarsa既是on-policy,也是off-policy的,主要看策略的选取。

Planning

Models are used to improve policies through a process called planning.
Sample model就是做实验,distribution model给出具体分布和概率。
图片说明

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

07-01 10:56

现在是不是没有公司招人了呀

25届现在还有公司在招吗

点赞评论收藏

07-01 15:13

门头沟学院机械工程师

大厂会背调你的实习经历吗？

在小厂实习了一个月没学到什么东西就辞职了，但项目源码和文档都有，打算在简历上写实习三个月，会做背调吗

实习，不懂就问

点赞评论收藏

05-29 22:11

门头沟学院 Java

简历造假直接报jing处理？

这么严重吗

Elastic90：抛开学历造假不谈，这公司的招聘需求也挺怪的，Java开发还要求你有图文识别、移动端开发和c++的经验，有点逆天了。

点赞评论收藏

06-15 02:05

已编辑

南昌航空大学数据分析师

这种简历为什么被拒啊？

我是5.21号才知道牛客的，然后之前都是在其他招聘软件上投简历可是几乎没有人看，也从来没有通过初步筛选过，我想知道我的简历问题出在哪里啊，可以怎么优化啊，不想考研真的只想就业，只要能找到专业相关的实习就行，不在乎工资多少，怎么才能找到啊？问一下大佬们

Eason三木：你如果想干技术岗，那几个发公众号合唱比赛的经历就去掉，优秀团员去掉，求职没用。然后CET4这种不是奖项，是技能，放到下面的专业技能里或者单独列一个英语能力。另外好好改改你的排版，首行缩进完全没有必要，行间距好好调调，别让字和标题背景黏在一起，你下面说能做高质量PPT你得展现出来啊，你这简历排版我用PPT做的都能比你做的好。然后自我评价，你如果要干数据工程师，抗压能力强最起码得有吧。

简历中的项目经历要怎么写

点赞评论收藏