2020-02-25 08:03 已编辑腾讯_数据平台部_算法工程师

关注

Dyna:Framework for reinforcement learning

Dyna

two types of experience

Direct learning from experience generated from actual environment.
Simulated experience from models used for planning.

Dyna: combine direct RL and planning
Planning（如DP）和learning（如MC、TD）方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated experience，而learning method使用的经验是由真实环境生成的real experience。但两者都满足上述state space Planning结构，这表示很多思想和算法可以相互借鉴，在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如，我们可以将Q learning 和 planning 结合，得到random-sample one-step tabular Q-planning 方法。

planning的时候如果模型不准确怎么办
比如环境突然变化，要怎么办
How model can plan with incomplete models?
Dyna-Q会从之前的状态中采样。
那如果模型不准确要怎么尽快能知道呢？
Add a bonus to reward used in planning.
图片说明

图片说明

全部评论

推荐最新楼层

04-20 16:26

长沙理工大学 C++

双非本西电计硕裸辞躺平一年后，现在拿到二线Offer该接还是拒？

网友提问：本科双非一本非计算机专业，研究生跨专业考的西电计算机专业，硕士期间自学了java ，没有很努力，也没实习。校招那会儿也并没有上心，24年6月毕业后凭借学历进入了某大型互联网国企，薪资过万但偏低，由于低代码的模式和职业前景的考虑，半年后就裸辞了，后来2025这一年就躺平了。25年底自己开发了一个微服务的网站，部署上线了，没有用户，但也学会了一些基本的开发技能。现在3月份开始找工作，很多介意空窗期的，最近一个周也有一些公司叫去面试就没下文了，估计是怕不稳定被当跳板吧。然后现在收到一个二线城市互联网企业的offer ，有融资，公司500多人，开价和之前国企一样的薪资，现在就在犹豫要不要去，...

点赞评论收藏

分享

04-21 21:06

华东交通大学后端工程师

目前面的比较多了，首先复试拿下了桂电工作方面：因湃（国企）谈薪完成，到手8K左右，双边公积金+包吃住，年包14-15W左右吧（但是可能会加班）大长江集团，江门那边的，一面过了，在等二面，目前了解到的薪资是8.5K（年包12W左右）+包吃住+三线城市消费低（如果可以拿下就是目前首选offer）中车广东（央企），一面过了，后续还有二面，但是薪资不高6K左右航同电气，一个一般类型的私企（面完当场发了offer），薪资5.5K+包吃住，在新余物价比较便宜珠江金智维，目前还在笔试阶段。。。。。。。。还是老样子，欢迎大家来取面经奥，或者是评论了解一些面试相关经验

点赞评论收藏

分享

03-29 10:51

江南大学嵌入式软件工程师

简历求拷打

😭找不到实习

点赞评论收藏

分享

04-10 17:55

重庆大学 Java

暑期意外的结束了

美团timeline一面 3.26二面 4.2oc 4.8offer 4.10其他：oppo 一面挂vivo 没动静携程 笔试挂哔哩哔哩 没动静感想感觉找实习运气也占不少的成分，本来0实习选手暑期只是准备随便投一下练一练，想着过会儿再找日常实习，没想到美团直接收留我了。感谢一面面试官，在我第一次面大厂的时候给了我自信

ZQFbest：感觉美团一堆KPI

点赞评论收藏

分享

04-19 22:18

杭州电子科技大学大数据开发工程师

什么人适合大厂，什么人适合小厂？发现这事真的因人而异。

适合大厂的人有个共同特点：能在规则里找到舒适感。大厂流程多、分工细、层级明确，你可能一年就负责一个模块，但这个模块你能做到极致。喜欢稳定、在意平台背书、能扛绩效考核压力、善于向上管理的人，大厂会如鱼得水。见过很多人在大厂混了五年，简历光鲜、福利好、技术栈规范，跳槽时特别好用。适合小厂的人反过来：受不了流程、喜欢什么都插一手、想看到自己做的东西直接影响结果。小厂一个人干三个人的活，今天写代码明天对接客户，成长确实快，但也累。最适合小厂的是那种有点创业心态、不需要太多外部认可、自驱力强的人。见过有人在小厂两年，技术广度吊打大厂同龄人，因为什么都得自己搞定。但最怕两种错位：有大厂心态去小厂，天天觉得...

什么人最适合大厂？

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 简历上如何体现你的“AI”能力？ #

15266次浏览 337人参与

# 哪些AI项目值得做？ #

25434次浏览 620人参与

# 华泰星战营，提前锁定校招offer #

13330次浏览 389人参与

# 找不到大厂实习可以去小厂吗？ #

20665次浏览 228人参与

# 你总挂在第__面？ #

10856次浏览 120人参与

# 没有面试的日子里，你在做什么 #

13575次浏览 363人参与

# 实习时最怕听到的一句话 #

22693次浏览 195人参与

# 选择和努力，哪个更重要？ #

207241次浏览 1551人参与

# 你想吐槽公司的哪些规定 #

47585次浏览 237人参与

# 你简历上最心虚的一句话 #

21240次浏览 233人参与

# 这份实习，有没有动摇过你的职业方向？ #

51455次浏览 284人参与

# 你知道最慷慨和最抠的公司分别是 #

10639次浏览 86人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

200303次浏览 1186人参与

# 正在春招的你，也参与了去年秋招吗？ #

398456次浏览 2741人参与

# 京东笔试 #

174119次浏览 936人参与

# 秋招笔试记录 #

399855次浏览 2221人参与

# 机械人还在等华为开奖吗？ #

335138次浏览 1638人参与

# 网易笔试 #

170542次浏览 811人参与

# 2022毕业的你对23届的寄语 #

68215次浏览 578人参与

# 90后北漂现状 #

39148次浏览 225人参与

# 机械人，说说你的烦心事 #

144788次浏览 1153人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务