R2Rank:强化学习 + 自反思 SFT,打造大模型推荐排序新框架
论文题目:R2Rank:强化学习 + 自反思 SFT,打造大模型推荐排序新框架
论文地址:https://arxiv.org/pdf/2602.12530
论文详解:https://mp.weixin.qq.com/s/Lm3MdkE2vEhoa9PuGDJ_Hg
核心要点:该论文通过端到端的强化学习框架,首次将大语言模型(LLM)的内在推理过程与推荐系统的最终排序目标(ranking utility)直接对齐,解决了传统方法中推理与排序脱节的问题。
关键结论
1、提出一个创新的端到端推荐框架,通过将推理过程内置于排序效用优化中,成功连接了 LLM 的语义推理与推荐的核心目标。
2、引入一种基于 Plackett-Luce 可微代理的强化学习方法,巧妙地解决了 listwise 排序指标(如 NDCG)不可微的难题,实现了从最终排序奖励到 LLM 逐个 token 生成的端到端梯度传播和信贷分配。
3、设计了一种自反思(self-reflective)的监督微调(Supervised Fine-Tuning, SFT)策略,用于冷启动阶段,教会 LLM 如何稳定、有效地推理用户意图,为后续的 RL 训练打下坚实基础。
#SFT微调##大模型##人工智能#
论文地址:https://arxiv.org/pdf/2602.12530
论文详解:https://mp.weixin.qq.com/s/Lm3MdkE2vEhoa9PuGDJ_Hg
核心要点:该论文通过端到端的强化学习框架,首次将大语言模型(LLM)的内在推理过程与推荐系统的最终排序目标(ranking utility)直接对齐,解决了传统方法中推理与排序脱节的问题。
关键结论
1、提出一个创新的端到端推荐框架,通过将推理过程内置于排序效用优化中,成功连接了 LLM 的语义推理与推荐的核心目标。
2、引入一种基于 Plackett-Luce 可微代理的强化学习方法,巧妙地解决了 listwise 排序指标(如 NDCG)不可微的难题,实现了从最终排序奖励到 LLM 逐个 token 生成的端到端梯度传播和信贷分配。
3、设计了一种自反思(self-reflective)的监督微调(Supervised Fine-Tuning, SFT)策略,用于冷启动阶段,教会 LLM 如何稳定、有效地推理用户意图,为后续的 RL 训练打下坚实基础。
#SFT微调##大模型##人工智能#
全部评论
相关推荐
03-19 16:42
东南大学 C++ 点赞 评论 收藏
分享
点赞 评论 收藏
分享
