1. 自我介绍2. 项目拷打3. Reward Model 在对齐训练里扮演什么角色Reward Model 本质上是在学一个“人类更偏好什么”的可微近似函数。SFT 学的是“像人那样答”,RM 学的是“人更喜欢哪种答法”。它并不直接生成答案,而是给候选答案打分,把人类偏好从离散排序信号压进一个标量目标里,后续无论是 PPO 还是其他策略优化方法,核心都要依赖这个分数去推动模型往偏好更强的方向移动。RM 最大的价值不是替代人工,而是把人工偏好从逐条监督扩展成可批量泛化的训练信号。真正难的地方在于它很容易学到表面模式,比如更长、更像模板、更会说套话的答案可能被错判成更优,所以 RM 训练的上限很...