面试官:目前有哪些post-training方法

面试官:目前有哪些post-training方法
今天老师给大家详细分析一道大厂算法面试真题:目前有哪些post-training方法,供各位同学参考。
✅回答:当前主流的后训练方法包括监督微调、基于人类反馈的强化学习(RLHF)、直接偏好优化(DPO)、专家迭代(EI)以及它们的变体(例如:RLAIF、PPO、ORPO、)。然而,后训练方法在LLM部署之前增加了一个相当复杂的过程。
✍🏻详解:
1️⃣基于人类反馈的强化学习(RLHF): 基于人类反馈的强化学习是一种将人类偏好和意见引入强化学习过程中的方法。RLHF将人类的反馈作为奖励信号来指导模型学习。人类可以通过提供对模型行为的偏好、反馈或排序,帮助模型更好地调整策略来适应人类的偏好,就是更懂你。
2️⃣直接偏好优化(DPO): 直接偏好优化是一种优化技术,主要通过直接学习模型在不同情境下对不同偏好的评估,来提高模型的性能。注意,它是直接优化偏好,在本质上其是通过排序的思想构造了一个优化函数,然后推导为最后可直接优化的损失,比起来RLHF的思想它更简单,大体就是改个损失就可以了。
3️⃣专家迭代(EI): 专家迭代是一种通过模仿专家行为并不断迭代改进模型的方法。在专家迭代过程中,模型首先通过观察专家的行为来学习。然后,通过模拟和优化这些行为,模型根据专家的反馈或策略进行改进。这个我没有用到过,只能说个大概。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

07-17 12:07
门头沟学院 Java
勇敢牛牛不怕困难
投递OPPO等公司7个岗位
点赞 评论 收藏
分享
求offer的大角牛:简历写的第一乱,没有突出重点,第二项目太多太杂看不出来有啥核心技术,第三自我评价太多了,第四获得的荣誉没啥含金量,可以不写,反正问题不少
点赞 评论 收藏
分享
屌丝逆袭咸鱼计划:心态摆好,man,晚点找早点找到最后都是为了提升自己好进正职,努力提升自己才是最关键的😤难道说现在找不到找的太晚了就炸了可以鸡鸡了吗😤早实习晚实习不都是为了以后多积累,大四学长有的秋招进的也不妨碍有的春招进,人生就这样
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务