首页 / 强化学习

强化学习

60766次浏览 303人互动

此刻你想和大家分享什么

热门最新

07-01 16:03

已编辑

National University of Singapore 机器学习

逐际动力机器人强化学习实习一面（挂）

面试时间：5月20日16:00（库名人520面试）面试岗位：机器人强化学习（实习）面试问题：上来就问项目（本人项目是双足机器人RL+locomotion），问题包括，1. 为什么要设计并行worker并行采样解构？2. PPO的Loss由哪几项组成？（典中典）3. 能不能用总的Loss去更新Policy和Value网络？（我是将Loss拆开来分别更新的）4. 用了多少时间（多少步）来训练达到这个效果？还问了两个Python的问题，函数前@啥意思（修饰器）反问面试体验：聊得挺顺畅的，问答比1:3左右，就是挂。事后总结感觉不缺人。

查看5道真题和解析

点赞评论收藏

2024-11-28 21:04

已编辑

仙台白百合女子大学嵌入式工程师

小米具身智能算法岗实习一面

第一个帖子给第一次面试，攒攒人品。课题：强化学习和模仿学习怎么在任务里结合的，为什么要用这两个。模仿学习收集数据怎么收集。强化学习奖励函数的设置，以及需要多少次迭代。末端力如果有噪声怎么办。实体的强化学习效果怎么样。对大模型有没有了解。对Serl有没有了解。竞赛：在竞赛中承担什么样的角色做了什么工作。八股：model-base和model-free的区别，马尔可夫性解释，为什么最优值函数就是最优策略，策略迭代和值迭代区别。代码：合并区间。感受：虽然迟到了但是面试官非常温柔，而且问的也很对口，就是我很容易说别的废话呜呜呜，第一次面试函数名用了拼音，写的时候感觉就不太好但是突然脑子里没有英文名。hr建议：多跟进最新进展成果，不要专注于两三年前的东西。如果有会大模型的也建议投一下，面试官说那边比较缺人。#

查看13道真题和解析

点赞评论收藏

03-16 13:43

门头沟学院算法工程师

百度-文心一言-一面面经

情况:面完一面过了一周，HR直接发了OFFER，没有二面，已ocPPO与GRPO的区别，分别介绍他们的优势与缺点DPO对齐训练的曲线是怎么样的，正例的概率会提升嘛,参考这个知乎回答:Deepseek-R1里面不仅推理能力很好，而且文采能力也很好，这个是个开放问题，如何让模型的文采能力也很好呢？介绍你在实习做的事情，有遇到什么case嘛，怎么解决的deepseed介绍deepspeed的每一段的通信比较，zero3分别是0和2的多少倍，1.5倍DPO如何解决回答过长的问题，除了正则开放问题：为什么现在大家都在关注于大模型的推理能力reasoning对于一个base model如何增强大模型的re...

查看12道真题和解析

点赞评论收藏

2022-10-19 11:29

已编辑

西安交通大学算法工程师

零跑汽车- 强化学习算法工程师面经

因为投的比较晚，所以目前进行到一面，后面是主管面和HR 面。      一面（1小时20分钟）：主要是聊项目和论文，撕了一道蒙特卡洛估计的题     从论文的DDPG算法开始聊，TD3，SAC算法，应用场景，优缺点啥的  聊王者荣耀比赛，从网络结构设计（特征工程、channel attention，self-attention，multi-head value estimation），奖励函数设计，算法设计（dual-clip PPO + NoisyNet， 此处对RL 中的探索方法展开了一下），训练流程设计（自对弈模型筛选、策略集成），聊完之后面试官已经比较满意了，后面就是随便聊了些跟CV相...

不愿透露姓名的牛油：手撕现场调试吗

投递零跑科技等公司10个岗位

点赞评论收藏

06-13 22:18

门头沟学院自然语言处理

【论文分享】CAR：推理长度自适应新框架，提升精度同时还降低推理token数！！

论文题目：Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning论文地址：https://arxiv.org/pdf/2505.15154论文详解：https://mp.weixin.qq.com/s/_Rhj8TQFgRFka9xj3xwBpQ核心贡献1、提出了一个基于模型置信度动态切换短答案和长形式推理的 CAR 新框架，实现了准确性和计算效率之间的最佳平衡。2、通过广泛的初步研究，验证了困惑度（PPL）可以作为模型置信度的可靠指标，并通过高斯建模建立了其与答案正确性的关系。3、在 LLM 和 MLLM 上进行的广泛实验表明，CAR 在保持推理准确性的同时，显著减少了推理标记的使用，优于短答案和长形式推理方法。4、CAR 超越了以前的推理标记减少方法。例如，使用 Qwen2.5 时，CAR 在整体准确率上提高了 6.9%，同时减少了 21.4% 的标记消耗。使用 Llama3.1 时，它实现了 5.5% 的准确率提升和 39.0% 的标记使用减少。实现方法1、使用包含短答案和长形式推理答案注释的示例进行训练，通过标准指令调整过程优化交叉熵损失。2、在训练数据集的所有示例上进行短答案推理，计算每个短答案的 PPL 值。3、假设正确和错误短答案的 PPL 分布遵循高斯分布，通过训练数据估计这些分布的参数。4、对于新的输入示例，首先生成短答案并计算其 PPL 值，然后根据 PPL 值在正确和错误分布下的概率进行决策。如果短答案被认为是正确的，则直接输出；否则，模型将执行长形式推理以获得更准确的答案。

算法学习交流

点赞评论收藏

2024-03-15 13:51

米哈游_前端工程师

米哈游校招-强化学习工程师

工作职责 岗位内容：强化学习前沿算法的探索针对游戏相关场景完成强化学习算法的实验与项目落地任职要求岗位要求：1. 具备扎实的深度强化学习技术积累和实践经验2. 具有良好的解决问题和沟通能力，对技术和游戏充满热情3. 发表过相关顶会文章或参与过相关高品质项目开发

投递米哈游等公司10个岗位

点赞评论收藏

2024-04-18 00:49

米哈游_前端开发

米哈游【社招】-强化学习研究员

工作职责 1. 利用强化学习技术解决项目实际问题，推进相关业务落地；2. 探索最前沿的强化学习理论和算法，并且能够结合运用到项目中。任职要求1. 本科以上学历，计算机等相关专业，扎实的深度强化学习和技术积累；2. 发表过强化学习等相关领域的顶会论文或高品质项目开发经验；3. 熟练使用强化学习框架，有分布式强化学习积累优先；4. 具备良好的解决问题与团队沟通能力，对技术和游戏充满热情。投递链接https://jobs.mihoyo.com/?sharePageId=33869&amp;recommendationCode=NTAWnlu&amp;isRecommendation=true#/position/3801

投递米哈游等公司10个岗位

点赞评论收藏

02-06 17:55

米哈游_前端工程师

米哈游实习-强化学习（动画）

工作职责 追踪前沿算法，探索强化学习在动作生成场景中可行性方案。任职要求强化学习方向的硕士、博士研究生优先；了解基本的Character Animation相关知识，比如FK、IK、旋转、FBX和BVH等；了解基本的生成模型算法，比如VAE，Diffusion，Autoregressive等；具备强化学习相关经验，包括但不限于模拟、编辑、控制与生成等。加分项熟悉基础的动作生成算法，比如PFNN，MotionMatching，MDM等；熟悉强化学习在动作生成上的一些算法，比如DeepMimic，AMP, MotionVAE，A-MDM等；在相关领域顶级会议（如CVPR、ICCV、ECCV、SIGGRAPH）上有论文发表优先考虑。

帮你内推｜米哈游实习

点赞评论收藏

2021-11-15 16:32

北京邮电大学机器学习

抓住2021的尾巴，强化学习实习个人经历

自己的研究方向是强化学习，最近投了三个有强化学习岗位公司的实习，比较幸运，因为问的问题都比较简单，最后全都收到了实习offer😄   滴滴：网约车策略与技术部运筹调度实习生   一面   1.自我介绍，介绍简历项目   2.场景题：跨区域车辆调度问题设计   3.算法题：   单个数组找单个重复元素   单个数组（100个数）找25个重复元素   二面   1.自我介绍，介绍简历项目   2.智力题：   去掉大小王的52张扑克牌抽中5张同花顺的概率   延伸：抽到五张顺子的概率   瓶盖换饮料问题（3换1），喝100瓶需要买多少瓶   3.机器学习：SVM，LR   4.场景题：给司机提供...

WOO-：楼主最后去了哪里

投递商汤科技等公司10个岗位

点赞评论收藏

07-25 17:09

哈尔滨工业大学算法工程师

🔥 日薪3500元！顶尖RL实习生招募中 | 小红书Hi Lab大模型团队等你加入！ 🔥

寻找对强化学习充满热情的 25届及以后毕业的硕士/博士！🚀 你加入的是什么神仙团队？小红书 Hi Lab 基座大模型团队！我们刚刚开源了 DOT.LLM1，现在正全力研发下一代大模型系列——你的加入，正当其时！🧠 挑战前沿课题：面向复杂场景的大规模强化学习系统！你将有机会独立负责以下激动人心的方向之一：🤔 Reasoning RL：让AI学会深度思考与决策！💻 Code Agent RL / Agent RL：打造能写代码、能自主行动的智能体！📈 Scalable Oversight (可扩展监督)：解决大模型高效对齐的核心难题！❤️ 人文情怀世界奖励模型构建：赋予AI理解人类价值观的能力！🔄 Pretrain 与 RL 的深度融合：探索基座模型与强化学习的协同进化！🌟 为什么选择我们？顶级薪酬：行业极具竞争力的实习薪资！顶尖团队：参与开源大模型研发的核心力量！前沿方向：深度探索RL与大模型结合的最热领域！独立负责：获得宝贵的一线科研与工程实战经验！👉 如果你：是 25届及以后毕业的硕/博，对强化学习(RL)有扎实基础和浓厚兴趣；渴望在大模型与RL交叉的前沿领域大展拳脚；具备优秀的动手能力和钻研精神；🔥 别犹豫了！快带上你的简历和热情，加入小红书Hi Lab，一起定义AI的未来！简历请发送至：****************RL AI实习 人工智能招聘 博士招聘 算法实习 #AI前沿

投递小红书等公司10个岗位

点赞评论收藏

2022-10-17 12:08

已编辑

西安交通大学算法工程师

秋招offfer投票

本人985本硕，假设下面的都能拿到，大家觉得哪个好一点？   有没有懂哥

青岛菜虚鲲：还有人投商汤呢，都裁成什么样了

点赞评论收藏

01-09 13:54

华北理工大学算法工程师

Anker具招聘强化学习算法实习生啦

职位描述 1. 围绕机器人的多模态感知、端到端操作、基础模型开展具身感知算法研发工作，研发方向以强化学习为主。2. 对学界及业界前研技术的持续跟进。3. 围绕机器人场景落地先进算法技术。职位要求1. 计算机相关专业硕士以上学历。2. 扎实的AI理论基础与丰富的工程经验。3. 熟练掌握深度学习基础知识，能够熟练使用tensorflow/pytorch中的一种或多种深度学习框架；4. 强化学习方向。5. 熟练掌握C/C++/Python等常用编程语言，有ros机器人系统使用经验；6. 有机器人端到端操作相关领域的算法研发以及项目落地经验、有机器人仿真平台使用经验者优先；7. 有相关竞赛经验或者在CV领域全球顶会发表过相关论文者优先。划重点：北京、上海都有岗位，欢迎大家投递邮箱：**********

投递安克创新 Anker等公司10个岗位

点赞评论收藏

2023-06-29 11:46

阿里巴巴_算法工程师

强化学习面试必知必答[10]：模仿学习、行为克隆、逆强化学习

强化学习从基础到进阶--案例与实践含面试必知必答[10]：模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人 模仿学习（imitation learning，IL） 讨论的问题是，假设我们连奖励都没有，要怎么进行更新以及让智能体与环境交互呢？模仿学习又被称为示范学习（learning from demonstration），学徒学习（apprenticeship learning），观察学习（learning by watching）。在模仿学习中，有一些专家的示范，智能体也可以与环境交互，但它无法从环境里得到任何的奖励，它只能通过专家的示范来学习什么是好的，什么是不好...

强化学习（原理+项目）

点赞评论收藏

2023-06-28 18:55

阿里巴巴_算法工程师

强化学习面试必知必答[8]：近端策略优化PPO算法

强化学习从基础到进阶-常见问题和面试必知必答[8]：近端策略优化（proximal policy optimization，PPO）算法 1.核心词汇   同策略（on-policy）：要学习的智能体和与环境交互的智能体是同一个时对应的策略。   异策略（off-policy）：要学习的智能体和与环境交互的智能体不是同一个时对应的策略。   重要性采样（important sampling）：使用另外一种分布，来逼近所求分布的一种方法，在强化学习中通常和蒙特卡洛方法结合使用，公式如下：   ∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex∼q[f(x)p(x)q(x)]=E...

强化学习（原理+项目）

点赞评论收藏

2023-07-17 22:26

阿里巴巴_算法工程师

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念 在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数，能对当前的状态刻画一个分数，来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高，则奖励模型输出的分数也越高。 1.2 奖励模型的模型架构与损失函数 1.2.1 模型架构 奖励模型（RM 模型）将 SFT 模型最后一层的 softmax 去掉，即最后一层不用 softmax，改成一个...

AI前沿技术

点赞评论收藏

06-14 23:26

门头沟学院自然语言处理

DeepCritic：SFT+RL两阶训练显著提升LLM自我监督能力！！

论文题目：DeepCritic: Deliberate Critique with Large Language Models论文地址：https://arxiv.org/pdf/2505.00662论文详解：https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架，用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics（包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o），并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。两阶段训练方式第一阶段：监督式微调（SFT）：通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调，使模型能够生成包含多视角验证和深入批判的批判内容。第二阶段：强化学习（RL）：在监督式微调的基础上，进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据（如 PRM800K），也可以是通过蒙特卡洛采样估计正确性自动标注的数据。

算法学习交流

点赞评论收藏

玩命加载中

强化学习

创作者周榜

热议话题