2017-10-16 20:16 已编辑算法工程师

关注

DQN的计算问题

求问大家为什么dqn的计算要用下一步的q value的max值呢，用mean不可以么

全部评论

推荐最新楼层

算法工程师

最优贝尔曼方程

点赞回复

发布于 2017-10-16 22:55

算法工程师

因为更新往reward最大的action走

点赞回复

发布于 2017-10-16 20:48

联易融

校招火热招聘中

官网直投

算法工程师

q learning是off policy的，它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的，它会按照之前学习的target policy去选a，一般是epsilon-greedy。以上是我个人的理解。

点赞回复

发布于 2017-10-17 08:55

牛客818193220号

04-22 13:10

河北工业大学计算机类

25届腾讯游戏客户端暑期实习

QWQ 先是接到北极光引擎组的面邀，二面20分钟结束后速挂，下午光子客户端（当时打电话说的可能偏向引擎方向）秒捞。三面结束，当时等offer 的时候祈祷，如果拿o 了就发下腾讯的面经。三面总监面没有记录有时间再补上

点赞评论收藏

转发

还没上岸的小张

04-25 00:15

吉林大学经济学类

双非本985硕，这简历太寒碜了，有没有大佬给指教一下

之前有过车企产品的机会，家里不支持脑子一热给拒了，现在非常后悔，不知道我这种都能去什么岗位啊求大佬们指点指点

最后再改一次简历如何写一份好简历

点赞评论收藏

转发

03-18 16:52

门头沟学院化工与制药类

非要我说7k吗

哈哈7-12k我寻思我折中一下呢

点赞评论收藏

转发

04-25 08:54

沈阳建筑大学建筑类

大家的实习怎么找的啊

实习岗位寥寥无几，搞了好多找工作的软件了，微信公众号也用上了，总共加起来的要实习的岗位都不超过十个，投了简历还都没有消息，这咋办啊

实习，投递多份简历没人回复怎么办

点赞评论收藏

转发

点赞收藏评论

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

353542次浏览 7299人参与

# 你更愿意参加线上面试还是线下面试？ #

4791次浏览 73人参与

# 晒一晒我的offer #

2768621次浏览 49503人参与

# 如何确定求职岗位 #

101040次浏览 2395人参与

# 华为求职进展汇总 #

433843次浏览 4353人参与

# 机械人怎么评价今年的华为 #

49454次浏览 405人参与

# 非技术岗薪资爆料 #

5101次浏览 117人参与

# 第一次面试 #

13893次浏览 212人参与

# 如果再来一次，你还会学硬件吗 #

16808次浏览 332人参与

# 海信求职进展汇总 #

6809次浏览 91人参与

# 通信硬件薪资爆料 #

137539次浏览 979人参与

# 来聊聊机械薪资天花板是哪家 #

18403次浏览 140人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

22097次浏览 212人参与

# 除了offer，现在你还缺点啥？ #

2067次浏览 45人参与

# 应届生应该先就业还是先择业 #

10759次浏览 103人参与

# 通信硬件人笔面经互助 #

63826次浏览 1417人参与

# 百度工作体验 #

19006次浏览 205人参与

# 讲讲我经历过的年终奖 #

5822次浏览 76人参与

# 租房前辈的忠告 #

19817次浏览 1579人参与

# 软件开发薪资爆料 #

536661次浏览 9217人参与

牛客网
牛客企业服务