职场成长过程就是ChatGPT的进化过程!!

如果说当前深度学习领域最火的模型有哪些,ChatGPT一定排在前列。从流畅对话到“无所不知”的问答;从学术到商业,无不充斥这ChatGPT的身影。在OpenAI公布相关的API后,其火爆程度更上一层楼,纷纷讨论其带来的影响。

这么爆火的ChatGPT,我们作为技术人员,能够知其应用场景,也应该知其背后训练过程。OpenAI没有公布ChatGPT的训练细节,只有一个官方博客,目前网上讲解ChatGPT的训练,均以InstrctGPT为例进行讲解。这本身没有问题,从官方公布的博客看,也仅是数据和使用的base模型存在一点差异,其他的训练过程是完全类似的。

在学习了训练过程后,感觉应届生进入公司的成长历程,就是ChatGPT的训练过程。从应届生进入公司成长看ChatGPT训练过程。

本文不涉及任何公式推导,只从定性的角度进行类比,旨在理解其大概的想法,细节上不做太多讲解。

每一个毕业生,都是在学校预训练好的“大模型”,见证了许许多多的数据。在本文中,假定有三个毕业生A、B和C。

从官方公布博客看,InstrctGPT和ChatGPT大概经历了三个步骤:1、**微调:**收集一定问题后,人工对齐进行标注书写期望的输出,对GPT3模型微调,得到SFT模型2、**模仿:**基于GPT模型,进行问题和模型输出的收集,人工对输出数据标注顺序,通过监督学习得到RM模型3、**反馈:**以SFT初始化GPT,利用PPO策略对模型进行迭代更新,最终得到终态模型

微调

在刚进入公司的时候,会有各类的文档:编码规范、上线流程、立项说明等等,经过学习入手文档(微调)后,可以应对基础的工作知识了,实现第一步进化(微调)。

相比学校学习的海量知识(数据),在上手工作的时候,接触的文档要少的多;微调,或者说从学校到职场的转变,是必须的过程。在这个过程中,不是从头学习编程能力、沟通能力,仅仅是调整相应的方式以适配工作而已。在ChatGPT或者InstrctGPT的训练过程中,微调也是其训练流程的第一步,不过其输入的带标签数据,是人工生成的。

模仿

在完成初步的学习后,A、B、C对于基本的工作都能够应对:对于老板给定的问题,能够给出反馈。

但B不甘心如此,对于每次老板的问题,给出多个反馈,然后根据老板的反馈,去模仿老板:学习老板的偏好(喜好)——更喜欢简洁的还是长篇大论的答案?还是数据形式还是图文并茂形式?等等喜好。

B通过对老板的反馈进行模仿学习,实现了第二次进化(模仿)——在下次老板给定问题的时候,A和C给出的方案,B能够模仿老板对A和C的方案进行评论(打分—)。

B通过向优秀的人(老板)学习,掌握了新的技能:评判问题方案的好坏,这个能力让B脱颖而出。在ChatGPT和InstrctGPT中,第二步是利用已有的模型,结合人工打分,训练一个RM(Reward Model),专注打分的模型

反馈

C在工作中勤勤恳恳,被老板看在眼里,于是,在B完成第二步进化后,老板说了:B来指导C,提升下C的能力吧。

于是C在第一轮进化的基础上,通过不断的与B交互(将方案给B,B对方案进行评价反馈给C),C的能力不断提升,最终直接实现了究极进化:成了独当一面的人了。

C在与B的交互(C->产出方案->B->给出反馈->C)中,不断提升自己的能力,实现自己的成长。ChatGPT和InstrctGPT的训练过程要更复杂点,有A(SFT模型)约束C(PPO模型),以及考虑了预训练,基本思路是相同的。

经过上面三个步骤,C最终弯道超车,脱颖而出,C位(ChatGPT)出道啦!希望所有的职场打工人,能够像ChatGPT一样,通过学习(训练)最终脱颖而出!

#牛客创作充电计划##职场成长##应届生初入职场,求建议##我的求职思考##职场#
全部评论
小白成长过程
点赞 回复 分享
发布于 2023-03-08 09:20 湖南
职场就是一个学习进化的过程
点赞 回复 分享
发布于 2023-03-08 09:15 陕西
讲道理来说,讲道理真的可以吗
点赞 回复 分享
发布于 2023-03-07 14:17 北京
所以女朋友吵架了怎么办?急,在线等回复
点赞 回复 分享
发布于 2023-03-07 13:57 江苏
哈哈哈哈,这个比喻很形象
点赞 回复 分享
发布于 2023-03-07 13:42 山东

相关推荐

写下这篇文章的时候,我正坐在从学校飞往北京的飞机上。就在今天,我的秋招终于算是有了结论,一共60场面试,拿到了字节百度美团等10+大厂offers,最终确认了腾讯给的机会。同时给我的这三个月,这三年以及从今天往前的所有人生做了个结。这句话写的真好,为什么这么说呢?本来挺久之前我就想写点什么,有特别多想记录的,从选择这个专业到选择这个岗位,从科研的疲惫到未来生活的期待,但总感觉这样写没个纲,乱成一团。直到我今天正式在系统中点击了三方的确认,我才突然发现这种感觉就是“不可逃避的结束”在向我走来,于是纲便有了。首先是这三个月的结果吧,或者换句话说,其实是秋招的结果。从我硕士选择了强化学习的研究方向,我就知道并不会有太多的岗位。从试错中学习,这听起来很符合人类的学习方式,但实际场景中哪来那么多试错的成本?除了游戏产业和机器人行业,我想不到特别对口的赛道,而这两个行业国内又只有寡头,让我望而生畏。整个秋招,我没法像学后端开发的同学一样投递大量的简历,我没法像学大模型的同学一样是时代的香饽饽,我只能盯着那几家公司去投,或者想方设法的在别的不太相关的算法岗上沾沾边。方向是大于努力的,但努力一定不是不重要的。秋招整体对我来说还算顺利,前文就自然变成了只有我自己懂的无病呻吟,不再赘述。从结果来说,我的秋招是非常成功的,至少我自己是满意的。命运给了我很大的惊喜,我从未想过能够在这次有多个远超期待的offer,所以我如今是心满意足。虽说很多事都是焉知非福吧,但对口的工作内容,熟悉的工作环境,我一定不会后悔。我就是这样,毕竟让我在做一百次选择也不会变,那为什么要在不可预测的未来后悔。然后是三年,三年即将过去,我的硕士生涯来到了最后一章。回想过往,我在其中反复感受井底之蛙的狭隘。从我在二十多个四点睡的凌晨产出的论文初稿开始,链式反应就这样发生了。把论文投出去,我发了一篇很长的朋友圈,那时候觉得压力真的好大,尽管其实根本没人要求我什么。那时,我第一次觉得我比本科毕业时的自己进步了太多,可以独当一面了。然后去了北京自所交流,尽管大多的时间都在修改那篇返稿的文章,但也在不一样的平台中见识了人外有人的世界。回来后,我第二次觉得自己有了很大的进步,而鄙夷去北京前的自己是如此短浅。那是11月,我开始纠结到底未来该从事开发岗还是算法岗,但时间并没有给我机会。我偷懒了,两个月根本没有做任何开发岗的准备,于是只能硬闯算法。期间只有那篇论文中了让我稍微有些自信,毕竟只有两周的理论准备时间让我心里太虚了,这甚至还算上了刷题的时间。第一面就是最想去的公司,我甚至紧张到大脑一片空白。好在后面算是有惊无险,拿到了腾讯给我的实习机会。去腾讯工作的时间是幸福的,组里氛围也很好,在公司获得的提升我觉得甚至超过了我在学校一年的量。毕竟做算法,思维的敏捷度和见识广度都是如此重要。看着同事前辈们的工作能力,和工业级的项目架构,我又一次不由得感叹曾经自己的狭隘。于是每天我只睡五小时,忙完工作忙学校,每每想到这里,我也不觉得我的成功是侥幸了。我真的建议大家离开自己舒适的环境到外面看看,鸡头或许真的不如凤尾。硕士是一个连锁反应最直接,最有力的时期。高考失利或许还能补救,考研没上岸还有第二次机会,但就业前这一年,努力就是会有回报,就一定会体现在结果中,没有侥幸。最后,也是我最想聊的。十九年的学生生涯终于快要画下句号,我其实一直觉得非常梦幻。我能回忆起每一个瞬间,有小学六年级遇到的很有个性的数学老师,有考上重点中学的快乐,有中考和提前高考而大失败的难受,有本科比赛的每个通宵的焦虑,有保研出现差错的绝望,有刚读研高压之下的崩溃。但这篇长文不会再有更多的剧情了,每个故事都让我无限回味,成为了我一生中最宝贵的财富。这些瞬间组成了我。我父亲说我是一个总抓不住机会的人,确实有很多别人没有的机会摆在我面前,我都错过了。但我心中的热爱始终没有错过,我觉得这对我来说是幸运且幸福的。我非常爱打游戏,从初中开始学编程,第一个目的就是做出属于自己的游戏,做了很多小游戏发在班级群里,被人厌烦。高中自己买了unity的书,想做自己的游戏,无奈连网络的基本知识都不懂,无功而返。到了大学,我又被强化学习吸引,我想知道能不能让人工智能来帮我打游戏呢?这一整条线我没有放弃过,拿到了游戏算法offer,我真的特别特别开心。人不是一直成功的,我经历过的失败远超过成功10倍,但那让我知道成功来之不易,让我知道失败是生活常态,让我知道真正的怯懦不是不敢失败,而是不敢尝试。言尽于此,这些都“不可逃避的结束”了。追风赶月莫停留,平芜尽处是春山。
肖先生~:追风赶月莫停留,平芜尽处是春山,passion!
我的秋招日记
点赞 评论 收藏
分享
评论
8
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务