首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
SFT 和对齐(RLHFDPOIPOPPO)原理差在哪
[问答题]
SFT 和对齐(RLHF/DPO/IPO/PPO)原理差在哪?在不同数据与资源条件下,你会怎么选路线。
添加笔记
求解答(0)
邀请回答
收藏(12)
分享
纠错
2个回答
添加回答
2
Raymond_030927
预训练模型还不会回答问题,则使用SFT做监督微调,现在会回答问题了,就要看数据 如果数据的风格偏少,就需要做AI数据蒸馏 如果不少有算力就使用RLHF强化自主学习, 没算力就离线DPO/IPO
发表于 2026-03-14 06:18:53
回复(0)
0
Jerryyyytse
supervised fine-tuning: 在有标准答案的指令数据上做交叉熵模仿学习(question-answer pair) alignment: 在有人类偏好的反馈上优化行为,使模型更符合人意与安全
发表于 2026-04-20 10:12:08
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
大模型应用-牛客面经八股
难度:
2条回答
12收藏
334浏览
热门推荐
相关试题
安全合规你是怎么做的?幻觉检测/事...
评论
(0)
来自
大模型应用-牛客面经八股
为什么只做 SFT 往往对不齐人类...
评论
(1)
来自
大模型应用-牛客面经八股
MoE 怎么玩更稳?门控、路由、稀...
评论
(0)
来自
大模型应用-牛客面经八股
当检索或对齐效果翻车时,你会用哪些...
评论
(0)
来自
大模型应用-牛客面经八股
向量库工程落地你遇到过哪些关键点?...
评论
(0)
来自
大模型应用-牛客面经八股
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题