首页 / SFT微调

#

SFT微调

#

8310次浏览 14人互动

此刻你想和大家分享什么

热门最新

2023-07-16 22:36

阿里巴巴_算法工程师

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。微调时，为目标模型添加一个输出大小为目标数据集类别个数的输出层，...

点赞评论收藏

分享

03-21 15:00

门头沟学院自然语言处理

R2Rank：强化学习 + 自反思 SFT，打造大模型推荐排序新框架

论文题目：R2Rank：强化学习 + 自反思 SFT，打造大模型推荐排序新框架论文地址：https://arxiv.org/pdf/2602.12530论文详解：https://mp.weixin.qq.com/s/Lm3MdkE2vEhoa9PuGDJ_Hg核心要点：该论文通过端到端的强化学习框架，首次将大语言模型（LLM）的内在推理过程与推荐系统的最终排序目标（ranking utility）直接对齐，解决了传统方法中推理与排序脱节的问题。关键结论1、提出一个创新的端到端推荐框架，通过将推理过程内置于排序效用优化中，成功连接了 LLM 的语义推理与推荐的核心目标。2、引入一种基于 Plackett-Luce 可微代理的强化学习方法，巧妙地解决了 listwise 排序指标（如 NDCG）不可微的难题，实现了从最终排序奖励到 LLM 逐个 token 生成的端到端梯度传播和信贷分配。3、设计了一种自反思（self-reflective）的监督微调（Supervised Fine-Tuning, SFT）策略，用于冷启动阶段，教会 LLM 如何稳定、有效地推理用户意图，为后续的 RL 训练打下坚实基础。

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务