强化学习基础篇[2]：SARSA、Q-learning算法_牛客网

我是谁呀呀呀

中国科学技术大学算法工程师发布于上海

关注

@汀丶人工智能：强化学习基础篇[2]：SARSA、Q-learning算法

强化学习基础篇[2]：SARSA、Q-learning算法简介、应用举例、优缺点分析1.SARSASARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常应用于机器学习和强化学习学习领域中。它由Rummery 和 Niranjan在技术论文“Modified Connectionist Q-Learning（MCQL）” 中介绍了这个算法，并且由Rich Sutton在注脚处提到了SARSA这个别名。State-Action-Reward-State-Action这个名称清楚地反应了其学习更新函数依赖的5个值，分别是当前状态S1，当前状态选中的动作A1，获得的奖励Reward，S1状态下执行A1后取得的状态S2及S2状态下将会执行的动作A2。我们取这5个值的首字母串起来可以得出一个词SARSA。1.1基础概念算法的核心思想可以简化为：Q(St,At)=Q(St,At)+α[Rt+1+γQ(St+1,At+1)−Q(St,At)]Q(S_{t},A_{t})=Q(S_{t},A_{t})+\alpha[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_{t},A_{t})]Q(St,At)=Q(St,At)+α[Rt+1+γQ(St+1,At+1)−Q(St,At)]其中 Q(St+1,At+1)Q(S_{t+1},A_{t+1})Q(St+1,At+1) 是下一时刻的状态和实际采取的行动对应的 Q 值，Q(St,At)Q(S_{t},A_{t})Q(St,At) 是当前时刻的状态和实际采取的形同对应的Q值。折扣因子γ\gammaγ的取值范围是 [ 0 , 1 ]，其本质是一个衰减值，如果gamma更接近0，agent趋向于只考虑瞬时奖励值，反之如果更接近1，则agent为延迟奖励赋予更大的权重，更侧重于延迟奖励；奖励值Rt+1R_{t+1}Rt+1为t+1时刻得到的奖励值。α\alphaα为是学习率。1.2应用举例将一个结冰的湖看成是一个4×4的方格，每个格子可以是起始块（S），目标块（G）、冻结块（F）或者危险块（H），目标是通过上下左右的移动，找出能最快从起始块到目标块的最短路径来，同时避免走到危险块上，（走到危险块就意味着游戏结束）为了引入随机性的影响，还可以假设有风吹过，会随机的让你向一个方向漂移。图1: 初始化左图是每个位置对应的Q value的表，最初都是0，一开始的策略就是随机生成的，假定第一步是向右，那根据上文公式，假定学习率是α\alphaα是 0.1，折现率γ\gammaγ是0.5，而每走一步，会带来-0.4的奖励，那么（1.2）的Q value就是 0 + 0.1 ×[ -0.4 + 0.5× (0)-0] = -0.04，为了简化问题，此处这里没有假设湖面有风。图2: 走一步假设之后又接着往右走了一步，用类似的方法更新（1，3）的Q value了，得到（1.3）的Q value还为-0.04图3: 走一步等到了下个时刻，骰子告诉我们要往左走，此时就需要更新（1，2）的Q-value，计算式为：V(s) = 0 +0.1× [ -0.4 + 0.5× (-0.04)-0) ]图4: 走一步从这里，智能体就能学到先向右在向左不是一个好的策略，会浪费时间，依次类推，不断根据之前的状态更新左边的Q table，直到目标达成或游戏结束。图5: 走一步假设现在智能体到达了如图5所示的位置，现在要做的是根据公式，更新（3，2）这里的Q value，由于向下走的Q-value最低，假定学习率是0.1，折现率是0.5，那么（3，2）这个点向下走这个策略的更新后的Q value就是，Sarsa会随机选一个action,比如这里选择的是(Q(4,2),down)：Q((3,2)down)=Q((3,2)down)+0.1×(−0.4+0.5×(Q((4,2)down))−Q((3,2),down）） Q( (3,2) down) = Q( (3,2) down ) + 0.1× ( -0.4 + 0.5 × (Q( (4,2) down) )- Q( (3,2), down））Q((3,2)down)=Q((3,2)down)+0.1×(−0.4+0.5×(Q((4,2)down))−Q((3,2),down））Q((3,2),down)=0.6+0.1×(−0.4+0.5×0.4–0.6)=0.52Q( (3,2), down) = 0.6 + 0.1× ( -0.4 + 0.5 × 0.4 – 0.6)=0.52Q((3,2),down)=0.6+0.1×(−0.4+0.5×0.4–0.6)=0.521.3 优缺点SARSA 算法经常与Q-learning 算法作比较，以便探索出两种算法分别适用的情况。它们互有利弊。与SARSA相比，Q-learning具有以下优点和缺点：Q-learning直接学习最优策略，而SARSA在探索时学会了近乎最优的策略。Q-learning具有比SARSA更高的每样本方差，并且可能因此产生收敛问题。当通过Q-learning训练神经网络时，这会成为一个问题。SARSA在接近收敛时，允许对探索性的行动进行可能的惩罚，而Q-learning会直接忽略，这使得SARSA算法更加保守。如果存在接近最佳路径的大量负面报酬的风险，Q-learning将倾向于在探索时触发奖励，而SARSA将倾向于避免危险的最佳路径并且仅在探索参数减少时慢慢学会使用它。如果是在模拟中或在低成本和快速迭代的环境中训练代理，那么由于第一点（直接学习最优策略），Q-learning是一个不错的选择。 如果代理是在线学习，并且注重学习期间获得的奖励，那么SARSA算法更加适用。2.Q-learning首先我们看一下上图Q-learning在整个强化学习的位置，Q-Learning是属于值函数近似算法中，蒙特卡洛方法和时间差分法相结合的算法。它在1989年被Watkins提出，可以说一出生就给强化学习带来了重要的突破。Q-Learning假设可能出现的动作a和状态S是有限多，这时a和S的全部组合也是有限多个，并且引入价值量Q表示智能体认为做出某个a时所能够获得的利益。在这种假设下，智能体收到S，应该做出怎样的a，取决于选择哪一个a可以产生最大的Q。下面的表格显示了动物在面对环境的不同状态时做出的a对应着怎样的Q，这里为了简单说明只分别列举了2种S和a：显然，如果此时S="前方有食物"，选择a="向前走1米"，得到的利益Q="1" 显然比选择a="向后走1米" 的q="0"要大，所以这时应该选择向前走；相对的前方如果有天敌，往前走显然没有任何利益，这时选择最大的利益就要向后走。这种表格在Q-Learning中被称为Q表，表中的S和a需要事先确定，表格主体的数据——q在初始化的时候被随机设置，在后续通过训练得到矫正。2.1 基础概念Q-Learning的训练过程是Q表的Q值逐渐调整的过程，其核心是根据已经知道的Q值，当前选择的行动a作用于环境获得的回报R和下一轮St+1S_{t+1}St+1对应可以获得的最大利益Q，总共三个量进行加权求和算出新的Q值，来更新Q表：Q(St,At)=Q(St,At)+α[Rt+1+γaQ(St+1,a)−Q(St,At)]Q(S_{t},A_{t})=Q(S_{t},A_{t})+\alpha[R_{t+1}+\gamma \mathop{max}_{a} Q(S_{t+1},a)-Q(S_{t},A_{t})]Q(St,At)=Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]其中 Q(St+1,a)Q(S_{t+1}, a)Q(St+1,a) 是在 t+1t+1t+1 时刻的状态和采取的行动（并不是实际行动，所以公式采用了所有可能采取行动的Q的最大值）对应的 Q 值，Q(St,At)Q(S_{t},A_{t})Q(St,At) 是当前时刻的状态和实际采取的形同对应的Q值。折扣因子γ\gammaγ的取值范围是 [ 0 , 1 ]，其本质是一个衰减值，如果gamma更接近0，agent趋向于只考虑瞬时奖励值，反之如果更接近1，则agent为延迟奖励赋予更大的权重，更侧重于延迟奖励；奖励值Rt+1R_{t+1}Rt+1为t+1时刻得到的奖励值。α\alphaα为是学习率。这里动作价值Q函数的目标就是逼近最优的q∗q*q∗ q∗=Rt+1+γaQ(St+1,a)q*=R_{t+1}+\gamma \mathop{max}_{a} Q(S_{t+1},a)q∗=Rt+1+γmaxaQ(St+1,a)，并且轨迹的行动策略与最终的q∗q*q∗是无关的。后面中括号的加和式表示的是 q∗q*q∗的贝尔曼最优方程近似形式。2.2 应用举例将一个结冰的湖看成是一个4×4的方格，每个格子可以是起始块（S），目标块（G）、冻结块（F）或者危险块（H），目标是通过上下左右的移动，找出能最快从起始块到目标块的最短路径来，同时避免走到危险块上，（走到危险块就意味着游戏结束）为了引入随机性的影响，还可以假设有风吹过，会随机的让你向一个方向漂移。图1: 初始化左图是每个位置对应的Q value的表，最初都是0，一开始的策略就是随机生成的，假定第一步是向右，那根据上文公式，假定学习率是α\alphaα是 0.1，折现率γ\gammaγ是0.5，而每走一步，会带来-0.4的奖励，那么（1.2）的Q value就是 0 + 0.1 ×[ -0.4 + 0.5× (0)-0] = -0.04，为了简化问题，此处这里没有假设湖面有风。图2: 走一步假设之后又接着往右走了一步，用类似的方法更新（1，3）的Q value了，得到（1.3）的Q value还为-0.04图3: 走一步等到了下个时刻，骰子告诉我们要往左走，此时就需要更新（1，2）的Q-value，计算式为：V(s) = 0 +0.1× [ -0.4 + 0.5× (-0.04)-0) ]图4: 走一步从这里，智能体就能学到先向右在向左不是一个好的策略，会浪费时间，依次类推，不断根据之前的状态更新左边的Q table，直到目标达成或游戏结束。图5: 走一步假设现在智能体到达了如图5所示的位置，现在要做的是根据公式，更新（3，2）这里的Q value，由于向下走的Q-value最低，假定学习率是0.1，折现率是0.5，那么（3，2）这个点向下走这个策略的更新后的Q value就是：Q((3,2)down)=Q((3,2)down)+0.1×(−0.4+0.5×max[Q((4,2)action)]−Q((3,2),down）） Q( (3,2) down) = Q( (3,2) down ) + 0.1× ( -0.4 + 0.5 × max [Q( (4,2) action) ]- Q( (3,2), down））Q((3,2)down)=Q((3,2)down)+0.1×(−0.4+0.5×max[Q((4,2)action)]−Q((3,2),down））Q((3,2),down)=0.6+0.1×(−0.4+0.5×max[0.2,0.4,0.6]–0.6)=0.53Q( (3,2), down) = 0.6 + 0.1× ( -0.4 + 0.5 × max [0.2, 0.4, 0.6] – 0.6)=0.53Q((3,2),down)=0.6+0.1×(−0.4+0.5×max[0.2,0.4,0.6]–0.6)=0.532.3 优缺点Q-Learning算法有一些缺点，比如状态和动作都假设是离散且有限的，对于复杂的情况处理起来会很麻烦；智能体的决策只依赖当前环境的状态，所以如果状态之间存在时序关联那么学习的效果就不佳。更多文章请关注公重号：xxx******

点赞 1

评论 0

全部评论

推荐最新楼层

02-17 18:29

复旦大学 C++

实习生连团建报名资格都要被偷偷收回？这公司格局我服了

#工作中哪个瞬间让你想离职#大部门 HR 搞滑雪团建，光看安排就已经够离谱了：就一下午，来回 2 小时地铁 + 1 小时大巴，本来还说在滑雪场吃饭，转头又改成回公司附近吃，抠门和寒酸都写在脸上了。我当时是部门实习生，一开始团建问卷还能点开，我没立刻填。结果没过多久，再点进去直接无访问权限。明眼人都看得出来：就是看我是实习生，不想让我去，悄悄把我权限关了。更搞笑的是，团建群还不把我踢出去，就这么挂着，主打一个体面不给、尴尬拉满。那段时间我毕业论文正赶得焦头烂额，本来也没打算去，就主动跟主管说不去了，回去写论文。结果主管还跑来问我：你怎么不去？你登记了吗？我当时真的又气又好笑：我想登记，可你们连问...

点赞评论收藏

分享

昨天 10:58

已编辑

门头沟学院 C++

博雷顿科技股份公司 C++ 一面复盘

1. 自我介绍我之前在某某公司实习，主要参与 C++ 后端相关开发工作。 实习期间参与消息处理和服务端模块开发，涉及功能迭代、问题排查和性能优化。 技术栈以 C/C++ 为主，熟悉 STL、Linux 多线程和网络编程（TCP/IP），了解 MySQL、Redis 组件。 整体偏工程实践，关注代码质量、稳定性及性能优化，期待在 C++ 后端方向继续提升2. 项目介绍我参与开发了一个分布式实时流处理平台，负责事件数据的实时计算和多维聚合。项目难点在于高并发写入时线程锁竞争严重，导致延迟不稳定；同时状态同步复杂，内存容易泄漏。我主要通过以下方式解决了问题： 用无锁队列替代传统锁，减少线程竞争。 设...

C++面试总结

点赞评论收藏

分享

01-29 11:19

中南财经政法大学销售专员

这一刻感受到了经济独立的快感

25届毕业半年，除了工作没有其他来源就靠省吃俭用攒了一笔小钱全款拿下心念许久的iPhone16pm下单那一刻简直爽爆自己赚钱给自己花钱真的好幸福拿到新手机后摸着爸妈给买的小13感慨万千年前给家里添了不少东西攒钱很爽花钱的时候简直不要太爽看到爸妈跟别人说我工作多舒适的时候也很骄傲心里列了个清单准备月底添一辆电动车🛵再给妈妈买一套护肤品一双鞋感觉赚钱的意义在这一刻完全体现了可以让自己幸福让家人幸福入职后一直很顺感觉找到了目标也隐隐期待着更好的未来，我要更加努力，加油吧！

站队站对牛：不错的自己礼物！

赚钱的意义在这一刻具象化

点赞评论收藏

分享

02-09 11:00

杭州电子科技大学网络安全

字节后端开发 (Agent中台)一面凉

1、自我介绍2、Agent项目是实习项目还是个人项目？有没有上线？3、拷打实习（10min）4、大模型微调，你的训练数据集是如何构建的？数据量有多大？5、在构建数据集的过程中，遇到了哪些挑战？花了多长时间？6、你之前的实习经历偏后端工程，你未来的职业规划更倾向于纯后端开发，还是希望从事与AI/大模型结合的工作？7、详细讲一下Golang中Channel的概念和作用，它是否是并发安全的？8、Channel和传统的锁（Mutex）在实现并发控制时有什么区别？各自的适用场景是什么？9、讲一下GMP模型10、当P的本地队列为空或者不为空时，它会怎么去调度G（协程）？11、Redis支持哪些数据结构12、为什么Redis的速度这么快13、如何实现一个类似淘宝搜索框的实时商品名称模糊搜索功能？14、实时输入联想与输入完成后点击搜索在技术实现上有什么本质区别？15、实时搜索通常使用什么网络协议（如WebSocket）？你了解或有使用过吗？讲一下16、请详细说明微信扫码登录的完整流程和背后发生的原理17、在微服务架构中，服务发现和负载均衡是如何实现的？18、服务注册中心（如Nacos, Consul）是如何工作的？服务实例如何注册和保活（如通过心跳机制）？19、讲一下Agent中的“长短期记忆”20、什么样的信息应该放在长期记忆，什么样的信息放在短期记忆？21、当对话轮数很多，上下文窗口不足时，有哪些处理策略？（如截断、压缩）22、如果要进行记忆压缩，通常有哪些方法？23、了解过Agent的设计范式吗？有哪些？24、你设计的Agent是怎么实现ReAct模式的？详细讲讲25、手撕：实现一个并发任务处理器：给定一个包含100个任务ID的列表，要求控制最大并发数为3，模拟并发调用某个外部接口（如打印ID）26、反问

查看24道真题和解析

点赞评论收藏

分享

02-16 08:41

蚌埠坦克学院嵌入式软件开发

影石-嵌入式软件开发-一面

1. 描述一下Linux驱动中字符设备的注册流程和核心数据结构？答案：核心结构：cdev结构体、file_operations操作集关键步骤：分配设备号（静态register_chrdev_region或动态alloc_chrdev_region）初始化cdev并添加到系统实现file_operations（open、read、write、ioctl、release等）创建设备节点（手动mknod或通过udev）注册流程：register_chrdev_region → cdev_init → cdev_add卸载流程：cdev_del → unregister_chrdev_region2....

查看15道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客新年AI问运 #

13904次浏览 168人参与

# 你最讨厌面试被问什么 #

1226次浏览 26人参与

# 牛客AI体验站 #

17863次浏览 302人参与

# 有转正机会的小厂实习值得去吗？ #

540次浏览 18人参与

# 牛友们，签完三方你在忙什么？ #

137367次浏览 993人参与

# 担心入职之后被发现很菜怎么办 #

282489次浏览 1185人参与

# 如何缓解入职前的焦虑 #

258851次浏览 1451人参与

# 校招第一份工作你干了多久？ #

139385次浏览 609人参与

# 去年的flag与今年的小目标 #

34278次浏览 337人参与

# 牛客租房专区 #

151400次浏览 1479人参与

# 秋招开始捡漏了吗 #

229457次浏览 1044人参与

# 九月了，是考研还是就业？ #

89242次浏览 556人参与

# 秋招投递攻略 #

268788次浏览 2553人参与

# 这份实习，有没有动摇过你的职业方向？ #

2170次浏览 39人参与

# 搜狐工作体验 #

4116次浏览 29人参与

# 机械人求职现状 #

33640次浏览 297人参与

# 我是XXX，请攻击我最薄弱的地方 #

61780次浏览 409人参与

# 用友工作体验 #

18083次浏览 151人参与

# 你的工资什么时候发？ #

57468次浏览 355人参与

# 你的实习什么时候入职 #

348075次浏览 2291人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务