DeepCritic:SFT+RL两阶训练显著提升LLM自我监督能力!!

论文题目:DeepCritic: Deliberate Critique with Large Language Models
论文地址:https://arxiv.org/pdf/2505.00662
论文详解:https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架,用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式
第一阶段:监督式微调(SFT):通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调,使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段:强化学习(RL):在监督式微调的基础上,进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据(如 PRM800K),也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#
全部评论

相关推荐

刚面了北京一个中小厂(100-499),先就简历上写的项目要点进行了拷打,然后问了一些八股,接着他就让我打开屏幕共享演示一个项目。到这我心里就慌了,因为这一个月以来一直在背八股,刷算法,项目也只是掌握了那几个核心的技术点,项目源文件很久没碰过也没启动过。果不其然,忘了开mq,又忘了开redis,项目连着启动失败了两次,面试官就让我直接开始讲代码。这里还有个难绷的点,我光改了简历上写的项目名,但ide里还赫然写着sky–takeout,hm–dianping,甚至还有黑马项目文件里自带的一些注释😱😱😱(主要当时压根没想过后面会有让演示项目的,自己这块也是没考虑充分)整个过程中,面试官先让我讲项目架构,每一块是做什么的,然后让我挑一个业务逻辑从头到尾讲一遍,一条一条源码问。(这里我讲的黑马点评里那个防超卖,一人一单的业务)讲完业务逻辑后让我打开数据库定义语言,解释每一个字段、关键字的含义。整个过程能感受到面试官态度的转变。最后说整个业务逻辑太简单了,代码编写不太规范,说网上的项目学习时要有自己的理解。没有反问环节(感觉应该是凉了)。第一次遇到这种情况,太紧张了,整体过程不太流畅,有点磕绊,还有就是太长时间没看,有些业务代码找了半天。有点标题党了,其实也不是烂大街项目的问题,感觉面试官是想考察对项目的理解和熟悉程度,然而我最近恰好忽视了这一点,光顾着项目里的一些核心技术点实现,反而对项目的整体细节把握不够。
点赞 评论 收藏
分享
06-25 10:55
人工智能
本人某211的计算机专业研二。3月初偷偷在牛客投实习,无意中发现牛客本身有CV实习岗位,抱着试一试的心态投了一下,没想到​​两天后就收到了AI面试(一面)的通知​​。二面由后来的Mentor进行,过程很轻松,主要聊了项目经历和技术理解。面试结束后,​​很快给了offer​​,效率非常高。入职第一天,公司就​​给我配了一台MacBook Pro​​作为工作电脑。这三个月的实习让我接触了很多新东西,尤其是​​深入理解了一个面向企业(to B)的大型项目是如何进行工程设计和落地的​​。说来很有意思,我的主要工作就是参与优化当初面试我时用的那个​​AI数字人系统​​。这个项目对我而言很有挑战性,也是一个宝贵的学习机会。​​我不仅需要思考算法改进,更要考虑如何将其集成到稳定的生产环境中,处理多模块之间的协作、接口设计以及实际场景中的各类噪声干扰问题。​​ 这种​​从实验室原型到真实产品的探索过程​​,本身就充满了乐趣。​​在牛客的实习经历非常值得肯定。公司提供了强大的硬件支持、真正畅吃的零食饮料福利(节假日还有额外的零食礼品)、以及不加班文化。更重要的是,我遇到了一位能力出众又非常友善的Mentor,以及一个技术氛围浓厚、同事之间关系融洽的团队。这一切共同构成了一段​​高效、愉快且收获巨大​​的实习体验,让我能够将学校的理论知识真正应用于实践,并直观地了解工业界的运作模式,这段经历对我帮助很大。最后祝大家都能找到满意的实习/工作!
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务