首页 > 试题广场 >

为什么只做 SFT 往往对不齐人类偏好?它跟预训练损失的差异

[问答题]
为什么只做 SFT 往往对不齐人类偏好?它跟预训练损失的差异到底体现在哪。

这道题你会答吗?花几分钟告诉大家答案吧!