1、LoRA 微调的原理LoRA 的核心思想是不直接更新预训练模型里的原始大权重,而是在某些线性层旁边增加一个低秩更新分支,用低秩矩阵去近似权重增量。假设原始权重是 W∈Rd×k,全量微调时直接学习ΔW,LoRA 则把它写成:ΔW=BA其中A∈Rr×k,B∈Rd×r ,,(r) 是远小于 (d) 和 (k) 的秩。这样前向计算就变成:h=Wx+ΔWx=Wx+BAx实际里通常还会加缩放项:这样做的本质是认为很多下游任务对大模型权重的更新其实存在低秩结构,不需要真的去学习一个完整的大矩阵。LoRA 的优点是可训练参数少、显存占用低、训练快,而且原模型参数冻结,方便多任务切换和权重管理。2、LoRA...