03-21 15:00 门头沟学院自然语言处理发布于上海

关注

R2Rank：强化学习 + 自反思 SFT，打造大模型推荐排序新框架

论文题目：R2Rank：强化学习 + 自反思 SFT，打造大模型推荐排序新框架
论文地址：https://arxiv.org/pdf/2602.12530
论文详解：https://mp.weixin.qq.com/s/Lm3MdkE2vEhoa9PuGDJ_Hg

核心要点：该论文通过端到端的强化学习框架，首次将大语言模型（LLM）的内在推理过程与推荐系统的最终排序目标（ranking utility）直接对齐，解决了传统方法中推理与排序脱节的问题。

关键结论
1、提出一个创新的端到端推荐框架，通过将推理过程内置于排序效用优化中，成功连接了 LLM 的语义推理与推荐的核心目标。
2、引入一种基于 Plackett-Luce 可微代理的强化学习方法，巧妙地解决了 listwise 排序指标（如 NDCG）不可微的难题，实现了从最终排序奖励到 LLM 逐个 token 生成的端到端梯度传播和信贷分配。
3、设计了一种自反思（self-reflective）的监督微调（Supervised Fine-Tuning, SFT）策略，用于冷启动阶段，教会 LLM 如何稳定、有效地推理用户意图，为后续的 RL 训练打下坚实基础。
#SFT微调##大模型##人工智能#

全部评论

推荐最新楼层

04-17 16:49

四川大学 C++

华为和莉莉丝的offer

👋个人背景：9本👏offer1：华为智能驾驶产品线，通用软件开发，没有具体部门，base上海，薪资n*14-16（基础+绩效），公积金5%，不支持用ai，工作时间8-17.5（加班的时候21下班，忙的时候一周3-4天加班）💯offer2：莉莉丝游戏在研项目，游戏服务器开发，base上海，薪资（n+1）*14-16，公积金7%，工作时间10-19（提前实习了，实际一般20下班，忙的时候21-22）华为认可度似乎更高，但不让用ai，不知道自己离了ai还能写多少代码，hr说公司内部有自己的ai，不知道是什么样的产品有没有懂行的大佬解释下选哪个好 引流：腾讯、字节、阿里、得物、拼多多、小红书、大...

点赞评论收藏

分享

04-14 09:20

门头沟学院 Java

入行Agent所有技术全学一遍?

很多人问入行Agent要学什么技术，最大的误区就是「所有技术全学一遍」，最后什么都只会一点皮毛。Agent赛道早就细分出了不同的岗位方向，不同岗位的技术栈、招聘要求天差地别，选错了方向，学了再多也没用。今天结合2026年金三银四的企业招聘需求，以及我自己在AI公司的从业经历，把Agent赛道的4大主流岗位，分别对应的必学技术、进阶技术、面试重点、落地要求全拆解清楚，不管你是校招应届生，还是转岗开发，都能精准对标，不做无用功。先给核心前提：Agent赛道的岗位，分为两大方向，四大细分岗位应用层方向（需求量最大，对本科生最友好，校招岗位占比超70%）：AI Agent应用开发岗、多智能体解决方案岗...

想从事Agent应该学习...

点赞评论收藏

分享

03-31 14:46

已编辑

门头沟学院 Web前端

励志成为双港第一ja...：这其实很正常，离的太远了，他认为你不会来，就为了混个面试，而且成本很高，实习生都优先选本地高校。吃了地域的亏，所有很多时候地域可能比院校层次更重要。

点赞评论收藏

分享

02-28 01:18

已编辑

南昌大学后端工程师

28届混子终于写好简历了，求大佬锐评

28届2本非科班大概很快要找实习了，应该是偏ai应用开发方向

黑皮白袜臭脚体育生：把开源经历放个人项目上边应该更好，就像大部分人都把实习经历放个人项目上边

点赞评论收藏

分享

04-15 13:14

广西大学算法工程师

蚂蚁大模型应用开发一面(暑期)

1. 自我介绍2. 如果让你设计一个面向跨境售后纠纷的智能工单中台，整体架构怎么落可以把系统拆成接入层、规则与路由层、会话编排层、模型服务层、工单状态层、证据存储层和审计回放层。接入层处理 IM、邮件、表单和外部 API；规则层做租户隔离、语言识别、风险分级和触发策略；会话编排层维护案件上下文、节点执行历史和工具调用轨迹；模型服务层只负责生成和抽取，不直接持久化状态；状态层维护工单生命周期和人工接管点；证据层保存截图、订单记录、退款日志和模型引用片段；审计层负责回放每一步输入输出，便于定位误判和争议。真正难的点不在“能不能生成回复”，而在于把模型能力约束在可追踪、可回滚、可仲裁的业务流程里。3...

蚂蚁集团一面259人在聊

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职进度条 #

1258442次浏览 9309人参与

# 第一份工作应该选择高薪还是大平台 #

221340次浏览 1049人参与

# 华泰星战营，提前锁定校招offer #

6305次浏览 298人参与

# 你简历上最心虚的一句话 #

4377次浏览 27人参与

# 考公VS就业，你怎么选？ #

100420次浏览 526人参与

# 哪些公司对双非友好 #

230653次浏览 1239人参与

# 卷__卷不过你们，只能卷__了 #

60440次浏览 760人参与

# 校招第一份工作你干了多久？ #

150485次浏览 631人参与

# 商战，最累的是我们 #

31808次浏览 99人参与

# 国企/银行/研究所公司爆料 #

209650次浏览 920人参与

# 荣耀求职进展汇总 #

1176792次浏览 5674人参与

# 比特大陆工作体验 #

18840次浏览 89人参与

# 找工作的破防时刻 #

289966次浏览 2066人参与

# 小红书求职进展汇总 #

238755次浏览 1397人参与

# 面试等了一周没回复，还有戏吗 #

240178次浏览 1842人参与

# 哪些公司在招寒假实习？ #

93855次浏览 765人参与

# 面试线索爆料 #

127482次浏览 699人参与

# 春节前，你还在投简历吗？ #

43240次浏览 351人参与

# 字节7000实习来了，你投了吗？ #

45143次浏览 353人参与

# 大疆求职进展汇总 #

700101次浏览 4351人参与

# 总结:offer选择，我是怎么选的 #

287744次浏览 1566人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务