算法打工人阿旺

04-12 13:07 中山大学算法工程师发布于山东

关注

面试官：目前有哪些post-training方法

面试官：目前有哪些post-training方法
今天老师给大家详细分析一道大厂算法面试真题:目前有哪些post-training方法，供各位同学参考。
✅回答：当前主流的后训练方法包括监督微调、基于人类反馈的强化学习（RLHF）、直接偏好优化（DPO）、专家迭代（EI）以及它们的变体（例如：RLAIF、PPO、ORPO、）。然而，后训练方法在LLM部署之前增加了一个相当复杂的过程。
✍🏻详解：
1️⃣基于人类反馈的强化学习（RLHF）：基于人类反馈的强化学习是一种将人类偏好和意见引入强化学习过程中的方法。RLHF将人类的反馈作为奖励信号来指导模型学习。人类可以通过提供对模型行为的偏好、反馈或排序，帮助模型更好地调整策略来适应人类的偏好，就是更懂你。
2️⃣直接偏好优化（DPO）：直接偏好优化是一种优化技术，主要通过直接学习模型在不同情境下对不同偏好的评估，来提高模型的性能。注意，它是直接优化偏好，在本质上其是通过排序的思想构造了一个优化函数，然后推导为最后可直接优化的损失，比起来RLHF的思想它更简单，大体就是改个损失就可以了。
3️⃣专家迭代（EI）：专家迭代是一种通过模仿专家行为并不断迭代改进模型的方法。在专家迭代过程中，模型首先通过观察专家的行为来学习。然后，通过模拟和优化这些行为，模型根据专家的反馈或策略进行改进。这个我没有用到过，只能说个大概。
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

07-17 12:07

门头沟学院 Java

oppo26届提前批

勇敢牛牛不怕困难

投递OPPO等公司7个岗位

点赞评论收藏

分享

昨天 15:27

广东技术师范大学 Java

关于牛土兵教育割韭菜的事实

1.买课---后悔的开始本人是今年的毕业生，由于今年由于疫情的原因，上半年迟迟没有找到工作，这人吧一着急脑袋就不好使了，病急乱投医可能就是这么来的。时间一点一点的过去，工作还是没找到，钱包的压力越来越大，这时候就想着是不是自己的实力不行，就合计去买些网课看一看提高一下自己，学习的同时再找工作。这时候我就开始在b站看网课，还记着看的是强软弱虚的四种引用，看到了牛土兵的公开课，具体的内容我记不太清了，反正有一段是牛老师点评简历的一段，什么上天入地，50w 80w年薪的把我虎的一愣一愣的，只要报了他的课，学完出来这些都是小case，这些话就像洪水猛兽一样冲击着一个正在找工作的毕业生的内心，他心想：&...

点赞评论收藏

分享

06-14 14:21

成都东软学院人工智能

求锐评，求拷打

普通二本人智找不到实习😢

求offer的大角牛：简历写的第一乱，没有突出重点，第二项目太多太杂看不出来有啥核心技术，第三自我评价太多了，第四获得的荣誉没啥含金量，可以不写，反正问题不少

点赞评论收藏

分享

06-02 19:23

华南理工大学 Java

友友们看看简历，不玻璃心求拷打

五月中才醒悟，现在才学15天，项目全是网上烂大街项目，每天晚上都失眠😭，六月还有机会找到实习吗

屌丝逆袭咸鱼计划：心态摆好，man，晚点找早点找到最后都是为了提升自己好进正职，努力提升自己才是最关键的😤难道说现在找不到找的太晚了就炸了可以鸡鸡了吗😤早实习晚实习不都是为了以后多积累，大四学长有的秋招进的也不妨碍有的春招进，人生就这样

点赞评论收藏

分享

07-16 14:01

已编辑

门头沟学院客户端其它

为什么都不要我！

暑期实习 + 秋招 + 春招，我少说投了500家，是简历投出去的那种。该泡池子我是一样没少泡。现在想一想啊，还是挺委屈的，这破互联网的环境，我真是把简历改到极致了，当时简历我就3个，每个简历改了不下10版，可结果照样折在简历筛选，老老实实的泡在学历的池子里面。也算是体会到找工作的艰辛了吧。包括但不局限于：字节跳动、京东、腾讯、阿里巴巴、拼多多、蚂蚁集团、百度、美团、快手....跟TMD报菜名一样🙂

你被哪些公司秒挂过？

点赞评论收藏

分享

评论

点赞

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 风评不好的公司，你会去吗？ #

37560次浏览 230人参与

# 假如你的老板掉河里，你的工作能为他做什么 #

31251次浏览 380人参与

# 第一份工作应该选高薪还是热爱？ #

72245次浏览 699人参与

# 职场新人体验 #

4099次浏览 55人参与

# 你觉得第一学历对求职有影响吗？ #

95729次浏览 675人参与

# 外包能不能当跳板？ #

38010次浏览 228人参与

# 你觉得早上几点上班合适？ #

73740次浏览 308人参与

# 学历贬值真的很严重吗？ #

26536次浏览 180人参与

# 推荐一首陪你工作的歌吧 #

15328次浏览 99人参与

# 秋招签约后的心态变化 #

84129次浏览 821人参与

# 双非能在秋招上岸吗？ #

223405次浏览 1180人参与

# 听劝，这个公司值得去吗 #

487818次浏览 1709人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

93511次浏览 692人参与

# 打工人的工作餐日常 #

55052次浏览 436人参与

# 反问环节如何提问 #

93844次浏览 1938人参与

# 大学最后一个寒假，我想…… #

47451次浏览 576人参与

# 面试被问第一学历差时该怎么回答 #

138029次浏览 853人参与

# 一人推荐一个值得去的通信/硬件公司 #

187224次浏览 1861人参与

# 月薪多少能在一线城市生存 #

37387次浏览 357人参与

# 机械制造秋招总结 #

54687次浏览 513人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务