【你问我答】什么是强化学习(RL)?

问题描述:

什么是强化学习(RL)?

回答有奖:

选取一位认真回答问题的牛友,赠送200牛币!

你问我答问题汇总:点击进入

------------
#我也有问题想询问牛友,怎么办?

欢迎私信@筱茜 说明你的问题,将根据问题具体情况排期进入【你问我答】专场~
私信请注明参与【你问我答】专场哦~

你问我答 - 答问题,成大佬,拿牛币!
你问我答是牛客新栏目,每周1期几个问题,
牛友在问题贴下留下自己的知识,经验与见解,
帮助更多牛友了解更多技术相关知识!
#悬赏#
全部评论
强化学习又称为增强学习、加强学习、激励学习,是一种从环境状态到行为映射的学习,目的是使动作从环境中获得的累积回报值最大,介于监督学习和无监督学习之间。 强化学习的特点: 试错搜索 延迟回报 适应性 不依赖外部教师信号 主要算法和分类: Policy based, 关注点是找到最优策略。 Value based, 关注点是找到最优奖励总和。 Action based, 关注点是每一步的最优行动。 强化学习是解决序贯决策问题的方法之一,将其纳入马尔科夫决策过程的框架可分为基于模型的动态规划方法和基于无模型的强化学习方法。 有模型学习:在已知模型的环境中学习,对于多步强化学习任务其对应的马尔科夫决策过程四元组表示<S、A、R、P>均为已知。有策略迭代算法、值迭代算法 S:环境的状态空间 A:agent可选择的动作空间 R(s,a):奖励函数,返回的值表示在状态下执行a动作的奖励 P(s'|s,a):状态转移概率函数,表示从s状态执行a动作后环境转移至s'状态的概率 无模型学习:模型位置,即状态转移概率、奖赏函数往往未知,无法直接利用Bellman方程来求解得到最优策略,学习算法不依赖环境建模。有蒙塔卡洛强化学习、时序差分强化学习(SARSA和Q-learnin)
点赞 回复
分享
发布于 2019-05-09 06:47
巴甫洛夫训狗就是最古老的强化学习。你如果不把狗当动物,当成一段程序。就好理解强化学习了。下面是新闻和报纸摘要时间: 强化学习是机器学习的一个分支,强调如何基于环境行动,以取得最大化的预期利益,其灵感来源于心理学中的行为***理论,即有机体如何在环境的奖励或惩罚刺激下,逐步形成对刺激的预期,产生能最大化利益的习惯性行为。 特点 无特定的数据,只有奖励信号; 奖励信号不一定实时,大部分情况滞后; 研究的不是独立同分布的数据,更多的是时间序列的数据; 当前的行为影响后续的分布;
点赞 回复
分享
发布于 2019-05-07 20:43
小红书
校招火热招聘中
官网直投

相关推荐

#软件开发2024笔面经#&nbsp;感觉已经凉透了。。。写点热乎的凉经攒攒人品。反馈效率非常3高,只要这轮过了当天就会联系你约下一面,是我面过的最不墨迹的单位一面聊一个项目(自己挑)Deepspeed了解吗介绍下熟悉的主流大模型(llama)和transformer有什么区别/改进旋转位置编码怎么做的了解强化学习吗算法题:1.大小为k的滑动窗口扫描无序数组(步长1),输出移动过程中的窗口最大值2.最大值栈反问二面聊项目由项目引申细节提问(项目每个人不一样嘛,所以具体问题的参考意义不大,但可以再确认下自己项目的技术细节):bert的位置编码设计有什么数学含义?正余弦位置编码为什么2t要除以d?说一下吉布斯采样怎么个事算法题:通配符匹配(hard)场景题:怎么在一万篇文档里查找50万大小的词典中的词是否出现?反问三面 常用什么语言?Python怎么查字符串在另一个字符串中是否出现?答是find函数返回值?正常答底层实现逻辑?(嗯,这话一问出来我差不多知道我算是走远了。。。。)引申:你自己实现的话怎么实现字符串查找(模式串&nbsp;母串&nbsp;不用想太复杂)从商品描述中抽品牌,要求准确率覆盖率要高品牌词典大概50万,你怎么做?交流过程中有提到要考虑词义消歧,要考虑挖掘新的品牌词出来设计程序把物品pair&nbsp;list&nbsp;同类合并成类/簇list(pair代表成对相关)反问总结就是:自己项目必须熟,大模型标配,字符串拉满,如果你有搜索项目经验的话抓瞎程度应该会比我低一些(吧
点赞 评论 收藏
转发
1.自我介绍2.抓着项目的一些问面试官喜欢问从顶层的实验设计的一些东西我的实验为什么要选用&nbsp;cos&nbsp;距离或者&nbsp;mse?能不能用&nbsp;KL散度?是不能用还是不好用?KL&nbsp;散度和交叉熵的区别和联系是什么?(都是我没考虑过的问题&nbsp;有点汗流浃背)既然你用到了那么多微调方式,&nbsp;那你有什么实验过程中探究了&nbsp;lora&nbsp;的比如&nbsp;秩之类的参数的影响吗?prompt&nbsp;tuning&nbsp;&nbsp;ptuning&nbsp;v2&nbsp;有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)为什么&nbsp;p&nbsp;v&nbsp;2&nbsp;比&nbsp;prefix&nbsp;tuning&nbsp;要减去那个&nbsp;lstm&nbsp;和&nbsp;linear?&nbsp;我说论文里说适配&nbsp;NLG&nbsp;任务,好像记错了。有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?有没有试过全量微调?&nbsp;那你想一下,假如我用&nbsp;deepspeed&nbsp;的几种版本,&nbsp;全量微调7B&nbsp;模型,内存占用多大?最后大概的意思就是说他比较看重实验最初的一些设计能力,&nbsp;不能蹬&nbsp;OOM&nbsp;再来解决。让我之后要多理解一下&nbsp;deepspeed。说社招看的多这些理解能力。反正基本上就是项目围绕讲。&nbsp;后面说我项目做的,工程应该能力不错。&nbsp;代码题也是那种很简单的处理数据。
点赞 评论 收藏
转发
点赞 收藏 评论
分享
牛客网
牛客企业服务