首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
Bright🌙
淘天集团_算法工程师
关注
已关注
取消关注
@汀丶人工智能:
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法1.SFT 监督微调1.1 SFT 监督微调基本概念SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。1.2 监督微调的步骤具体来说,监督式微调包括以下几个步骤:预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练;微调: 使用目标任务的训练集对预训练模型进行微调。通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好;评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。1.3 监督微调的特点监督式微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。其次,由于预训练模型的参数和结构对微调后的模型性能有很大影响,因此选择合适的预训练模型也很重要。1.4 常见案例样例 1在计算机视觉中,低层的网络主要学习图像的边缘或色斑,中层的网络主要学习物体的局部和纹理,高层的网络识别抽象的语义,如下图所示。因此,可以把一个神经网络分成两块:低层的网络进行特征抽取,将原始信息变成容易被后面任务使用的特征;输出层的网络进行具体任务的预测。输出层因为涉及到具体任务没办法在不同任务中复用,但是低层的网络是具有通用型的,可以应用到其他任务上。下图表示的是将预训练模型的前 L-1 层的参数复制到微调模型,而微调模型的输出层参数随机初始化。在训练过程中,通过设置很小的学习率,从而达到微调的目的。样例 2BERT 模型是 Google AI 研究院提出的一种预训练模型,通过预训练 + 微调的方式于多个 NLP 下游任务达到当时最先进水平,如实体识别、文本匹配、阅读理解等。与样例 1 一样,BERT 模型微调时,将预训练好的模型参数复制到微调模型,而输出层参数随机初始化。1.5 SFT 监督微调的主流方法随着技术的发展,涌现出越来越多的大语言模型,且模型参数越来越多,比如 GPT3 已经达到 1750 亿的参数量,传统的监督微调方法已经不再能适用现阶段的大语言模型。为了解决微调参数量太多的问题,同时也要保证微调效果,急需研发出参数高效的微调方法(Parameter Efficient Fine Tuning, PEFT)。目前,已经涌现出不少参数高效的微调方法,其中主流的方法包括:LoRAP-tuning v2Freeze2. LoRA 微调方法2.1 LoRA 微调方法的基本概念LoRA(Low-Rank Adaptation of Large Language Models),直译为大语言模型的低阶自适应。LoRA 的基本原理是冻结预训练好的模型权重参数,在冻结原模型参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。由于这些新增参数数量较少,这样不仅 finetune 的成本显著下降,还能获得和全模型参数参与微调类似的效果。随着大语言模型的发展,模型的参数量越来越大,比如 GPT-3 参数量已经高达 1750 亿,因此,微调所有模型参数变得不可行。LoRA 微调方法由微软提出,通过只微调新增参数的方式,大大减少了下游任务的可训练参数数量。2.2 LoRA 微调方法的基本原理神经网络的每一层都包含矩阵的乘法。这些层中的权重矩阵通常具有满秩。当适应特定任务时,预训练语言模型具有低的 “内在维度”,将它们随机投影到更小的子空间时,它们仍然可以有效地学习。在大语言模型微调的过程中,LoRA 冻结了预先训练好的模型权重,并将可训练的秩的分解矩阵注入到 Transformer 体系结构的每一层。例如,对于预训练的权重矩阵W0,可以让其更新受到用低秩分解表示后者的约束:其中:而且,秩r≪min(d,k),此时,修正后的正向传播计算公式就变成:在模型微调时,W0被冻结,不接受梯度更新,只微调参数A和B。与所有参数参与模型微调相比,此时该步骤模型微调的参数量由d×k变成d×r+r×k,而r≪min(d,k),因此微调参数量大量减少了。如下图所示,LoRA 微调时,对A使用随机高斯初始化,对B使用零初始化,因此ΔW=BA在训练开始时为零。对 Transformer 的每一层结构都采用 LoRA 微调的方式,最终可以使得模型微调参数量大大减少。当部署到生产环境中时,只需要计算和存储W=W0+BA,并像往常一样执行推理。与其它方法相比,没有额外的延迟,因为不需要附加更多的层。在 Transformer 体系结构中,自注意力机制模块中有四个权重矩阵 (Wq、Wk、Wv、Wo), MLP 模块中有两个权重矩阵。LoRA 在下游任务微调时,只调整自注意力机制模块的权重,并冻结 MLP 模块。所以对于大型 Transformer,使用 LoRA 可减少高达 2/3 的显存(VRAM)使用量。比如在 GPT-3 175B 上,使用 LoRA 可以将训练期间的 VRAM 消耗从 1.2TB 减少到 350GB。2.3 LoRA 微调方法的主要优势预训练模型参数可以被共享,用于为不同的任务构建许多小的 LoRA 模块。冻结共享模型,并通过替换矩阵 A 和 B 可以有效地切换任务,从而显著降低存储需求和多个任务切换的成本。当使用自适应优化器时,由于不需要计算梯度以及保存太多模型参数,LoRA 使得微调效果更好,并将微调的硬件门槛降低了 3 倍。低秩分解采用线性设计的方式使得在部署时能够将可训练的参数矩阵与冻结的参数矩阵合并,与完全微调的方法相比,不引入推理延迟。LoRA 与其它多种微调方法不冲突,可以与其它微调方法相结合,比如下节实训将要介绍的前缀调优方法等。3. P-tuning v2 微调方法3.1 P-tuning v2 微调方法的相关技术传统的微调方法需要微调整个预训练语言模型,对于大语言模型的微调需要大量的资源和时间,急需更加高效的微调方法。理解 P-tuning v2 微调方法,首先需要了解 prefix-tuning 微调方法和 P-tuning v1 微调方法。3.1.1 Prefix-tuning 微调方法Prefix-tuning 微调方法在模型中加入 prefix,即连续的特定任务向量,微调时只优化这一小段参数。对于条件生成任务,如下图所示,其输入是文本x,输出是序列y。在上图中,z=[x;y]是x和y的拼接,Xidx和Yidx表示序列的索引,hi∈Rd表示每个时刻i下的激活值,hi=[hi(1);...;hi(n)]表示当前时刻所有层输出向量的拼接,hi(j)是时刻i的第j层 Transformer 的输出,于是自回归语言模型计算每一时刻的输出hi即:hi的最后一层用来计算下一个词的分布:其中ϕ是语言模型的参数。在自回归语言模型前添加 prefix 后,z=[PREFIX;x;y]或者z=[PREFIX;x;PREFIX;y],Pidx表示 prefix 的索引,|Pidx|表示 prefix 的长度。Prefix-tuning 通过初始化可训练矩阵Pθ(维度为∣Pidx×dim(hi)∣) 来存储 prefix 参数:训练对象与 Fine-tuning 相同,但语言模型的参数ϕ固定,仅 prefix 参数θ是可训练的参数。因此hi是可训练的Pθ的函数。3.1.2 P-tuning v1 微调方法P-tuning v1 微调方法是将 Prompt 加入到微调过程中,只对 Prompt 部分的参数进行训练,而语言模型的参数固定不变。如下图所示:P-tuning v1 设计一个自动的生成连续 prompt 的方法来提升模型的微调效果。由上图,P-tuning v1 的模版可以用下面公式表示:其中h代表 P-tuning v1 的连续 prompt 表征,e代表一个预训练的语言模型,x代表数据的原始输入,y代表数据的标签。在面对下游任务微调是,通过优化h的参数来进行模型微调:3.1.3 存在不足P-tuning v1 微调方法缺少普遍性。实验表明,当模型规模超过 100 亿个参数时,P-tuning v1 可以与全参数微调方法相媲美,但对于那些较小的模型,P-tuning v1 方法和全参数微调方法的表现有很大差异,效果很差。同时,P-tuning v1 缺少跨任务的通用性,在序列标注任务中的有效性没有得到验证。序列标注需要预测一连串的标签,而且大都是无实际意义的标签,对于 P-tuning v1 微调方法极具挑战。此外,当模型层数很深时,微调时模型的稳定性难以保证。模型层数越深,第一层输入的 prompt 对后面的影响难以预估。3.2 P-tuning v2 微调方法的原理P-tuning v2 微调方法是 P-tuning v1 微调方法的改进版,同时借鉴了 prefix-tuning 微调的方法。如下图所示:与 P-tuning v1 微调方法相比,P-tuning v2 微调方法采用了 prefix-tuning 的做法,在输入前面的每一层都加入可微调的参数。在 prefix 部分,每一层的 transformer 的 embedding 输入都需要被微调,而 P-tuning v1 只在第一层进行微调。同时,对于 prefix 部分,每一层 transformer 的输入不是从上一层输出,而是随机初始化的 embedding 作为输入。此外,P-Tuning v2 还包括以下改进:移除 Reparamerization 加速训练方式;采用多任务学习优化:基于多任务数据集的 Prompt 进行预训练,然后再适配的下游任务。舍弃词汇 Mapping 的 Verbalizer 的使用,重新利用 [CLS] 和字符标签,跟传统微调方法一样利用 cls 或者 token 的输出做自然语言理解,以增强通用性,可以适配到序列标注任务。3.3 P-tuning v2 微调方法优点P-tuning v2 微调方法解决了 P-tuning v1 方法的缺陷,是一种参数高效的大语言模型微调方法。P-tuning v2 微调方法仅精调 0.1% 参数量(固定 LM 参数),在各个参数规模语言模型上,均取得和 Fine-tuning 相比肩的性能,解决了 P-tuning v1 在参数量不够多的模型中微调效果很差的问题。如下图所示(横坐标表示模型参数量,纵坐标表示微调效果):将 Prompt tuning 技术首次拓展至序列标注等复杂的 NLU 任务上,而 P-tuning v1 在此任务上无法运作。4. Freeze 监督微调方法4.1 Freeze 微调方法的概念Freeze 方法,即参数冻结,对原始模型部分参数进行冻结操作,仅训练部分参数,以达到在单卡或不进行 TP 或 PP 操作,就可以对大模型进行训练。在语言模型模型微调中,Freeze 微调方法仅微调 Transformer 后几层的全连接层参数,而冻结其它所有参数。4.2 Freeze 微调方法的原理Freeze 微调方法为什么只微调 Transformer 后几层的全连接层参数呢?下面对其原因进行展开讲述。Transformer 模型主要由自注意力层和全连接层(FF 层)构成。对于 Transformer 的每一层结构,自注意力层的参数量为4⋅d2,即WQ、WQ、WQ和WQ ∈Rd×d;FF 层的参数量为8⋅d2,即W1∈Rd×4d,W2∈Rd×4d。因此 FF 层占据了模型的32的参数,具有重要的研究价值。Transformer 的全连接层网络结构图如下图所示:Transformer 的 FF 层可以视为一个 key-value memory,其中每一层的 key 用于捕获输入序列的特征,value 可以基于 key 捕获的特征,给出下一个 token 的词表分布。Transformer 每一层的 FF 层是由多个 key-value 组合而成,然后结合残差连接对每层结果细化,最终产生模型的预测结果。FF 层的公式可以表示为:其中K,V∈Rdm×d是可训练的参数矩阵,f是非线性激活函数,如 ReLU。此外,实验表明,Transformer 的浅层倾向于提取出浅层特征,深层倾向于提取语义特征,如下图所示。层数越深提取的语义特征所占的比例越重。对于各类不同的 NLP 任务,浅层特征往往是具有 “共性”,而主要区别在于各自深层次的语义特征。因此,通过仅微调 Transformer 后几层的全连接层参数,在保证参数高效微调的前提下,可以最大程度的发挥大语言模型的微调作用。4.3 Freeze 微调方法的优势大量减少了大语言模型的微调参数,是一种参数高效的微调方法;由于只需微调高层特征,加快了模型的收敛,节约了微调的时间;最大程度地保留了大语言模型预训练所学习到的语言的 “共性”,可解释性较强。5.关键知识点总结SFT监督微调时监督微调时,学习率通常会设置得很小常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可监督微调常见任务:1.用中文预训练BERT模型完成中文实体识别任务 2.训练语言模型GPT3 3.UIE模型在垂直领域的数据集上微调常见误区:在ImageNet上的预训练的模型再来训练目标检测任务 (则不是)目前,主流的SFT监督方法包括:LoRA、P-tuning v2、FreezeLoRA微调方法预训练的模型参数不参与微调,LoRA微调方法一般会在各层新增参数,LoRA微调方法的核心思想是利用高阶矩阵秩的分解来减少微调参数量LoRA微调方法的优势:减少大语言预训练模型微调的参数量、节省成本、能取得与全模型微调类似的效果LoRA微调方法不会 对Transformer的每个权重矩阵采用秩分解。P-tuning v2微调方法是在P-tuning v1的基础上引入了prefix-tuning的思想常见误区:1.P-tuning v1微调方法能微调实体识别的任务、2.P-tuning v1微调方法在效果上可以媲美全参数微调的方式 3.P-tuning v2微调方法在自然语言理解任务上表现不佳P-tuning v2微调方法原理方面:1.P-tuning v2微调方法在transformer的每一层都加入了prefix、2.P-tuning v2微调方法采用了多任务学习、3.P-tuning v2微调方法prefix部分的参数不是由上一层的prefix输出来输入常见误区:P-tuning v2微调方法微调的参数对象是每一层离散表示的prefixP-tuning v2微调方法解决了P-tuning v1微调方法中序列标注任务不佳、普遍性很差等问题。Freeze微调优点:1.Freeze微调方法是一种参数高效的微调方法 2.大语言模型的后几层网络主要提取的是语义特征,前几层主要提取的是文本的表层特征 3.Transformer的全连接层参数量多于自注意力层参数量更多优质内容请关注:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
点赞 4
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
05-29 12:11
北京联合大学 C++
如何优雅而不失礼貌的拒绝dirtywork?
新人往往不敢拒绝,怕得罪人,但又不能当软柿子任人拿捏。和大家说说一些常用的拒绝话术和策略,早一点拜托dirtywork!核心原则:态度真诚,语气坚定但温和: 避免显得傲慢或推诿。保持礼貌、专业。表达理解与感谢: 先让对方感到被尊重和理解。清晰说明原因(必要时): 简洁说明拒绝的原因(通常聚焦在优先级、时间、职责范围)。提供替代方案(如果可能): 展现合作意愿,帮忙指条明路。不轻易承诺或过度道歉: 不要为拒绝而过度内疚或道歉,这显得底气不足。避免说“我试试看”这种模糊承诺。及时回应: 不要拖延,尽快给出明确答复。🍊几个实用拒绝话术分场景:场景一:拒绝同事临时增加的、非本职或低优先级的杂事/请求...
Maples31:
差点看成了如何拒绝 dirty talk,我还寻思这给我干哪来了
一人一个landing小技巧
职场新人生存指南
点赞
评论
收藏
分享
昨天 19:28
天津大学 产品经理
分享我的秋招之路(2025届版)
作为一名2025届应届生,我在秋招中最终选择加入Keep,一方面是我实习中感受到了Keep非常融洽的氛围,另外一方面是得益于我mentor对我的帮助,实习过程中接触了很多核心的项目。所以基于我对Keep在技术、培养体系和团队氛围这些方面的因素最终决定实习留任。关于我的秋招经历和选择逻辑,希望能为正在求职的同学提供参考。一、求职准备:提升技术能力与摸清行业认知其实作为产品岗,我觉得都需要技术和业务方面的能力,因为我们本身就是计算机方向,在做产品上也具备了技术的能力。去年年初的时候我们学校和工信部联合举办的人工智能平台产品实现方向培训班,虽然课程实践不多,但着实给我很多方面的输入,我有一个很强烈的...
Offer收割機:
回看来时路,苦尽甘来
投递Keep等公司6个岗位 >
点赞
评论
收藏
分享
05-27 16:58
西安电子科技大学 Java
孩子要找不到后端实习了,恳请各位帮忙看看简历
方向 Java 后端 😭
生如夏花知识库:
看不出简历有什么问题
点赞
评论
收藏
分享
05-21 16:37
成都信息工程大学 深度学习
从未见过如此恶心的公司面试了半个小时问完了直接退出会议一点都不让人问问题啊避雷避雷
鬼迹人途:
你去投一投尚游游戏,服务器一面,第一个图算法,做完了给你一个策略题,你给出方案他就提出低概率问题,答不上当场给你挂
点赞
评论
收藏
分享
05-28 14:56
中南大学 Java
抽象百度
还没面试呢,hr问了我手中offer的情况和意向薪资后直接说给不起这么多,只能给多少k16薪和几万签字费,能接受就面试不能就别浪费时间,难绷,这个谈薪不应该是最后根据面试表现定的吗?百度是不是给的ssp太多了把招聘预算都花的差不多了?还是这个部门本来就没钱?#牛客AI配图神器#
Aki-Tomoya:
挺好的其实,如果不满意可以省下面试时间(
牛客创作赏金赛
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
字节last day,知无不言!
2623
2
...
你的经历比较单薄, 但简历又弥补了这一点--双非仔个人简历分享
2294
3
...
六月还有机会的,对吗?
1839
4
...
发现27282届的同学怎么越来越卷了,投个票看看相互的进度吧
1367
5
...
只有收到offer那一刻是开心的
1134
6
...
25 暑期实习&秋招面经
991
7
...
怎么包装实习经历呢
935
8
...
记录一下选择
930
9
...
答辩时被导师当着所有人的面阴阳
893
10
...
为什么我的mos管驱动电路总是不听话?(上-基本原理总结)
710
创作者周榜
更多
正在热议
更多
#
写给毕业5年后的自己
#
6962次浏览
123人参与
#
今年形式下双非本找得到工作吗
#
133749次浏览
1007人参与
#
华泰证券Fintech星战营
#
190783次浏览
279人参与
#
职场捅娄子大赛
#
334175次浏览
3370人参与
#
你的秋招第一场笔试是哪家
#
128486次浏览
1399人参与
#
一人一个landing小技巧
#
64959次浏览
1005人参与
#
材料专业就业可以去哪些企业岗位
#
32828次浏览
314人参与
#
汇川技术求职进展汇总
#
120838次浏览
809人参与
#
产品2023笔面经
#
51148次浏览
441人参与
#
哪些公司笔/面试难度大?
#
2541次浏览
19人参与
#
硬件应届生薪资是否普遍偏低?
#
70170次浏览
506人参与
#
我想象的工作vs实际工作
#
470799次浏览
4781人参与
#
今年的你投递了多少份简历才上岸
#
33528次浏览
117人参与
#
通信硬件人社招/春招/实习投递现状
#
24943次浏览
922人参与
#
实习中的菜狗时刻
#
349494次浏览
3218人参与
#
考公VS就业,你怎么选?
#
58641次浏览
393人参与
#
总结:哪家公司面试体验感最差
#
55763次浏览
262人参与
#
工作后会跟朋友渐行渐远吗
#
25774次浏览
191人参与
#
机械人的薪资开到多少,才适合去?
#
107779次浏览
445人参与
#
你的论文盲审过了没?
#
103102次浏览
1468人参与
#
考公还是考研,你怎么选?
#
26014次浏览
131人参与
牛客网
牛客企业服务