首页 / 强化学习
#

强化学习

#
50337次浏览 266人互动
此刻你想和大家分享什么
热门 最新
【论文分享】CAR:推理长度自适应新框架,提升精度同时还降低推理token数!!
论文题目:Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning论文地址:https://arxiv.org/pdf/2505.15154论文详解:https://mp.weixin.qq.com/s/_Rhj8TQFgRFka9xj3xwBpQ核心贡献1、提出了一个基于模型置信度动态切换短答案和长形式推理的 CAR 新框架,实现了准确性和计算效率之间的最佳平衡。2、通过广泛的初步研究,验证了困惑度(PPL)可以作为模型置信度的可靠指标,并通过高斯建模建立了其与答案正确性的关系。3、在 LLM 和 MLLM 上进行的广泛实验表明,CAR 在保持推理准确性的同时,显著减少了推理标记的使用,优于短答案和长形式推理方法。4、CAR 超越了以前的推理标记减少方法。例如,使用 Qwen2.5 时,CAR 在整体准确率上提高了 6.9%,同时减少了 21.4% 的标记消耗。使用 Llama3.1 时,它实现了 5.5% 的准确率提升和 39.0% 的标记使用减少。实现方法1、使用包含短答案和长形式推理答案注释的示例进行训练,通过标准指令调整过程优化交叉熵损失。2、在训练数据集的所有示例上进行短答案推理,计算每个短答案的 PPL 值。3、假设正确和错误短答案的 PPL 分布遵循高斯分布,通过训练数据估计这些分布的参数。4、对于新的输入示例,首先生成短答案并计算其 PPL 值,然后根据 PPL 值在正确和错误分布下的概率进行决策。如果短答案被认为是正确的,则直接输出;否则,模型将执行长形式推理以获得更准确的答案。
算法学习交流
点赞 评论 收藏
分享
🔥 日薪3500元!顶尖RL实习生招募中 | 小红书Hi Lab大模型团队等你加入! 🔥
寻找对强化学习充满热情的 25届及以后毕业的硕士/博士!🚀 你加入的是什么神仙团队?小红书 Hi Lab 基座大模型团队!我们刚刚开源了 DOT.LLM1,现在正全力研发下一代大模型系列——你的加入,正当其时!🧠 挑战前沿课题:面向复杂场景的大规模强化学习系统!你将有机会独立负责以下激动人心的方向之一:🤔 Reasoning RL:让AI学会深度思考与决策!💻 Code Agent RL / Agent RL:打造能写代码、能自主行动的智能体!📈 Scalable Oversight (可扩展监督):解决大模型高效对齐的核心难题!❤️ 人文情怀世界奖励模型构建:赋予AI理解人类价值观的能力!🔄 Pretrain 与 RL 的深度融合:探索基座模型与强化学习的协同进化!🌟 为什么选择我们?顶级薪酬:行业极具竞争力的实习薪资!顶尖团队:参与开源大模型研发的核心力量!前沿方向:深度探索RL与大模型结合的最热领域!独立负责:获得宝贵的一线科研与工程实战经验!👉 如果你:是 25届及以后毕业的硕/博,对强化学习(RL)有扎实基础和浓厚兴趣;渴望在大模型与RL交叉的前沿领域大展拳脚;具备优秀的动手能力和钻研精神;🔥 别犹豫了!快带上你的简历和热情,加入小红书Hi Lab,一起定义AI的未来!简历请发送至:****************RL AI实习 人工智能招聘 博士招聘 算法实习 #AI前沿
投递小红书等公司10个岗位
点赞 评论 收藏
分享
2022-10-17 12:08
已编辑
西安交通大学 算法工程师
秋招offfer投票
本人985本硕,假设下面的都能拿到,大家觉得哪个好一点?   有没有懂哥
青岛菜虚鲲:还有人投商汤呢,都裁成什么样了
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务