2019-05-07 18:37 社区规范更新号

关注

【你问我答】什么是强化学习（RL）？

问题描述：

什么是强化学习（RL）？

回答有奖：

选取一位认真回答问题的牛友，赠送200牛币！

Tips.牛币兑换中心

你问我答问题汇总：点击进入

------------

#我也有问题想询问牛友，怎么办？

欢迎私信@筱茜说明你的问题，将根据问题具体情况排期进入【你问我答】专场~

私信请注明参与【你问我答】专场哦~

你问我答 - 答问题，成大佬，拿牛币！

你问我答是牛客新栏目，每周1期几个问题，

牛友在问题贴下留下自己的知识，经验与见解，

帮助更多牛友了解更多技术相关知识！

全部评论

推荐最新楼层

白驹之过隙

Java

强化学习又称为增强学习、加强学习、激励学习，是一种从环境状态到行为映射的学习，目的是使动作从环境中获得的累积回报值最大，介于监督学习和无监督学习之间。强化学习的特点：试错搜索延迟回报适应性不依赖外部教师信号主要算法和分类： Policy based, 关注点是找到最优策略。 Value based, 关注点是找到最优奖励总和。 Action based, 关注点是每一步的最优行动。强化学习是解决序贯决策问题的方法之一，将其纳入马尔科夫决策过程的框架可分为基于模型的动态规划方法和基于无模型的强化学习方法。有模型学习：在已知模型的环境中学习，对于多步强化学习任务其对应的马尔科夫决策过程四元组表示<S、A、R、P>均为已知。有策略迭代算法、值迭代算法 S:环境的状态空间 A：agent可选择的动作空间 R(s,a)：奖励函数，返回的值表示在状态下执行a动作的奖励 P(s'|s,a)：状态转移概率函数，表示从s状态执行a动作后环境转移至s'状态的概率无模型学习：模型位置，即状态转移概率、奖赏函数往往未知，无法直接利用Bellman方程来求解得到最优策略，学习算法不依赖环境建模。有蒙塔卡洛强化学习、时序差分强化学习（SARSA和Q-learnin）

点赞回复

发布于 2019-05-09 06:47

巴甫洛夫训狗就是最古老的强化学习。你如果不把狗当动物，当成一段程序。就好理解强化学习了。下面是新闻和报纸摘要时间：强化学习是机器学习的一个分支，强调如何基于环境行动，以取得最大化的预期利益，其灵感来源于心理学中的行为***理论，即有机体如何在环境的奖励或惩罚刺激下，逐步形成对刺激的预期，产生能最大化利益的习惯性行为。特点无特定的数据，只有奖励信号；奖励信号不一定实时，大部分情况滞后；研究的不是独立同分布的数据，更多的是时间序列的数据；当前的行为影响后续的分布；

点赞回复

发布于 2019-05-07 20:43

小红书

校招火热招聘中

官网直投

遥遥领先的Java

04-04 22:01

华为_2012实验室_Java工程师

为什么要学习大模型应用开发？

0 prompt engineer 就是prompt工程师它的底层透视。 1 学习大模型的重要性 底层逻辑 人工智能大潮已来，不加入就可能被淘汰。就好像现在职场里谁不会用PPT和excel一样，基本上你见不到。你问任何一个人问他会不会用PPT，他都会说会用，只是说好还是不好。你除非说这个岗位跟电脑完全无关。但凡说能用上电脑的，基本上都会用excel和PPT，你不会用的基本上都被淘汰了，逻辑一样。 人工智能虽有一些应用场景，好像跟普通人没关。如智能驾驶，人脸识别，好像跟普通人关系不太大，我们都是被动使用。但现在这大模型跟我们每个人都有关，它是一个强大提升工作效率工具。你不会用，将来就好像跟PPT...

点赞评论收藏

转发

牛客674475096号

04-07 14:20

已编辑

算法工程师

招实习生了！

【美团到家事业群-到家研发平台春招转正实习（大模型算法工程师）】0 重点转正率极高，转正率极高，转正率极高，不需要再次面试！！！1、实习工作描述- 研究大模型前沿技术，包括不限于预训练，指令微调和强化学习等对齐技术，多模态、可控文本生成、神经网络压缩技术等；- 研究高效数据处理技术，研发中文大模型预训练数据分布式采集、标注工具及平台，构建高质量数据集；- 实现大模型高效分布式训练和推理性能优化；- 推动大模型在搜索、客服、推荐、广告等场景规模化落地；- 参与大模型平台建设2、岗位要求- 计算机、数学、电子信息工程等相关专业博士、硕士研究生优先，要求在2025年10月前毕业。- 有高水平论文至少1篇及以上，有过高水平会议与期刊投稿或审稿经历的同学优先。- 有良好的学习能力和研究习惯，优秀的沟通能力，对新事物保持好奇心。具体研究问题将结合同学兴趣和团队需求综合考虑，有意向的同学欢迎联系：zhangxuesheng@meituan.com也可扫码

投递58到家等公司10个岗位

点赞评论收藏

转发

03-26 16:02

门头沟学院计算机类

京东搜索算法春招面经

#软件开发2024笔面经# 感觉已经凉透了。。。写点热乎的凉经攒攒人品。反馈效率非常3高，只要这轮过了当天就会联系你约下一面，是我面过的最不墨迹的单位一面聊一个项目(自己挑)Deepspeed了解吗介绍下熟悉的主流大模型(llama)和transformer有什么区别/改进旋转位置编码怎么做的了解强化学习吗算法题：1.大小为k的滑动窗口扫描无序数组(步长1)，输出移动过程中的窗口最大值2.最大值栈反问二面聊项目由项目引申细节提问(项目每个人不一样嘛，所以具体问题的参考意义不大，但可以再确认下自己项目的技术细节)：bert的位置编码设计有什么数学含义？正余弦位置编码为什么2t要除以d？说一下吉布斯采样怎么个事算法题：通配符匹配(hard)场景题：怎么在一万篇文档里查找50万大小的词典中的词是否出现？反问三面常用什么语言？Python怎么查字符串在另一个字符串中是否出现？答是find函数返回值？正常答底层实现逻辑？(嗯，这话一问出来我差不多知道我算是走远了。。。。)引申：你自己实现的话怎么实现字符串查找(模式串 母串 不用想太复杂)从商品描述中抽品牌，要求准确率覆盖率要高品牌词典大概50万，你怎么做？交流过程中有提到要考虑词义消歧，要考虑挖掘新的品牌词出来设计程序把物品pair list 同类合并成类/簇list(pair代表成对相关)反问总结就是：自己项目必须熟，大模型标配，字符串拉满，如果你有搜索项目经验的话抓瞎程度应该会比我低一些(吧

软件开发2024笔面经

点赞评论收藏

转发

04-11 00:57

已编辑

字节跳动_抖音_抖音(准入职员工)

字节抖音测开转部门四面面经

直播 4.8   55min 1.自我介绍2.课程设计提问，几个人做的，有没有遇到分歧‘3.毕设介绍，为什么选这个，说说你对DQN强化学习的理解4.毕设拷打，问了二十分钟5.你更熟悉python还是java6.做题 easy 原地移除值=val的元素，返回新数组长度，一开始用pop没完全做对，很快用双指针纠正了本来还想再给我一道题，被叫停了，说时间有限制7.给你一个直播间，你怎么测试？8.测试这些东西你怎么学的9.说说你社团和学习时间怎么分配的10.你从这些学习到了什么11.你的职业规划12.之前你已经通过了三轮面试， 为什么申请转部门？对工作地的要求13.手上有几个offer，都投测开吗14. 结束无反问而且进来是两个面试官，一个闭麦不开摄像头听我面试猜想1.应该是这个leader带着进来学习面试的，所以我怀疑是kpi猜想2.leader旁听，组长面试，因为面试官很年轻尽管如此，还是希望有hr面吧更新 直播无hc了，明天转部门5面。。已经有很大可能是拿我刷kpi了，明天要么过了hr面，要是再六面，那我不面了，把我当猴耍呢

点赞评论收藏

转发

找不到实习的大摆子

03-26 15:10

北京大学计算机类

度小满 NLP二面面经

1.自我介绍2.抓着项目的一些问面试官喜欢问从顶层的实验设计的一些东西我的实验为什么要选用 cos 距离或者 mse？能不能用 KL散度？是不能用还是不好用？KL 散度和交叉熵的区别和联系是什么？（都是我没考虑过的问题 有点汗流浃背）既然你用到了那么多微调方式， 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗？prompt tuning  ptuning v2 有啥区别？（说完他觉得我说的太八股太宏观了，又讲了一堆原理）为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear？ 我说论文里说适配 NLG 任务，好像记错了。有没有接触过强化学习？为什么你们只考虑微调，是因为啥原因？你是用几张卡跑实验？多大参数的模型？跑的时候内存占用量多大？有没有试过全量微调？ 那你想一下，假如我用 deepspeed 的几种版本， 全量微调7B 模型，内存占用多大？最后大概的意思就是说他比较看重实验最初的一些设计能力， 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。反正基本上就是项目围绕讲。 后面说我项目做的，工程应该能力不错。 代码题也是那种很简单的处理数据。

点赞评论收藏

转发

点赞收藏评论

招聘动态

联易融2024届营销管培生校园招聘

小红书

24届春招&25届实习生招聘

24届春招硬件高薪职位集合

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

290445次浏览 6345人参与

# 我在牛爱网找对象 #

45941次浏览 291人参与

# 应届生应该先就业还是先择业 #

8730次浏览 96人参与

# 非技术岗薪资爆料 #

1419次浏览 71人参与

# 华为求职进展汇总 #

422508次浏览 4236人参与

# 来聊聊机械薪资天花板是哪家 #

12939次浏览 103人参与

# 第一次面试 #

7376次浏览 118人参与

# 为什么那么多公司毁约 #

30819次浏览 261人参与

# 数据人的面试交流地 #

160795次浏览 3528人参与

# 你觉得比亚迪今年还有春招吗？ #

34105次浏览 236人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

20084次浏览 193人参与

# 硬件兄弟们甩出你的华为奖状 #

23881次浏览 163人参与

# 如果再来一次，你还会学硬件吗 #

15992次浏览 325人参与

# 租房前辈的忠告 #

19001次浏览 1538人参与

# 字节跳动工作体验 #

45877次浏览 1209人参与

# 机械人的薪资开到多少，才适合去？ #

36327次浏览 207人参与

# 机械人怎么评价今年的华为 #

45306次浏览 358人参与

# 你觉得通信/硬件有必要实习吗？ #

19337次浏览 393人参与

# 聊聊这家公司值得去吗 #

56819次浏览 953人参与

# 你已经投递多少份简历了 #

236206次浏览 3824人参与

牛客网
牛客企业服务