第 15 题:LoRA(Low-Rank Adaptation)的数学原理

第 15 题:LoRA(Low-Rank Adaptation)的数学原理

题目

解释 LoRA(Low-Rank Adaptation)微调的数学原理。

一、动机

全量微调大模型要更新全部参数,显存与算力成本高。LoRA 假设预训练权重在适应新任务时,有效更新是低秩的,因此只学习一个低秩增量,与原权重相加得到适应后的权重,从而大幅减少可训练参数与显存。

二、数学形式

设某层线性变换为 。LoRA 不直接改 ,而是增加低秩分解的增量:

其中 为秩。前向时:

  • 训练:只训练 冻结;参数量从 变为
  • 推理:可把 算好存成一张矩阵,等价于单层线性,无额外延迟;或保留 分开算以省显存(只存一份 多份 )。

三、设计要点

  • 初始化:通常 用高斯小随机, 用零初始化,使训练初态 ,不破坏预训练表示。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论
可以的,写的很好呢
点赞 回复 分享
发布于 05-06 23:30 北京

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务