04-28 09:23 华为_系统工程师

发布于上海

关注

第 5 题：KV Cache 的原理与在自回归生成中的作用

第 5 题：KV Cache 的原理与在自回归生成中的作用

题目

解释 KV Cache 的原理，以及它在自回归生成中的作用。

一、自回归生成时在算什么？

自回归生成是一个 token 一个 token地生成：第 $t$ 步只多一个新 token，对应一个新的 query $q_t$ ；而 key 和 value 来自当前及之前所有 token（1 到 $t$ ）的表示。若不做缓存，每步都要对“从 1 到 t”的整段序列重新前向一遍，那么第 $t$ 步会重复计算 1 到 $t-1$ 的 K、V，浪费大量计算。

不缓存的复杂度：第 $t$ 步要算 $t$ 个 token 的 K/V 和一次 Attention，总步数若为 $L$ ，K/V 的计算量是 $O(1+2+\cdots+L) = O(L^2)$ ，非常贵。

二、KV Cache 做了什么？

KV Cache 的思路：把已经算过的每个位置的 Key 和 Value 存下来，生成下一步时：

只对当前新 token 算一次前向，得到 $q_t, k_t, v_t$ ；
把 $k_t, v_t$ 拼到已有的 K、V 缓存后面；
用 $q_t$ 和整段缓存的 $K_{1:t}, V_{1:t}$ 做 Attention，得到当前步的输出。

这样每步只算 1 个新 token 的 K/V，其余都用缓存，避免对历史 token 重复计算。

形式化：设已生成 $t-1$ 个 token，缓存为 $K_{1:t-1}, V_{1:t-1}$ 。第 $t$ 步：

新 token 的隐状态经过当前层 → 得到 $q_t, k_t, v_t$ 。
更新缓存： $K_{1:t} = [K_{1:t-1}; k_t]$ ， $V_{1:t} = [V_{1:t-1}; v_t]$ （按序列维拼接）。
$\mathrm{Attention}(q_t, K_{1:t}, V_{1:t})$ 得到当前层的输出。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

Ai Agent：面试300问文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造，适配校招、社招全场景，覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题，全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域，拆解考点底层逻辑，分享一线实战经验，助你一站式通关高薪面试。

全部评论

推荐最新楼层

05-06 20:34

阿里巴巴_Java开发工程师

从阿里被裁到快手升P6，我花了四年

520那天晚上，公司正在为618忙得热火朝天，我却一个人坐在会议室里哭01 少年心事当拿云我本科是电气工程专业，19年跨考了计算机，靠着小公司实习的跳板，21年面进了阿里的暑期实习。实习入职给我的评级是B，不过做了三个月之后，实习转正答辩也不错，结果当天就给我的评级提到了A，22年正式入职。就这样到了23年上半年，接了个大项目，是对我个人能力提升巨大的一个项目，跟在组里的一个资深的P7后面做，跨了三个事业群去推动一件事情，他负责统筹协调，我负责技术实现，学习到了很多相关技巧，很多横向合作的能力都是在这里练出来的。这个时候我觉得我好像还可以，在大团队的同期里面应该算是比较靠前的，两年升P6应该是...

爱吃香菜的无尾熊服了...：好文共勉了兄弟加油

点赞评论收藏

分享

05-06 12:50

门头沟学院后端工程师

25届双非年后主动离职，投递过程困难 & 长空窗期 & 0 面试，最错误的选择？？？

背景 之前毕业前实习的公司，因为实习期间工作质量还不错，后来给的待遇还不错( 远程 + 10k)，毕业后就没怎么找工作就直接去了。 也有可能是太舒服了，但是公司业务确实不太行，个人发展空间局限，再加上最近 Ai 发展迅速，一直觉得想要走出去看看，想要找个大点的公司期待个人发展可以好一点吧。 然后 刚开始是想要休息休息，三月底才把简历重构完成，但是后来因为家里有急事，导致投递简历时间比较晚，四月中旬才开始正式投递，断断续续已经投递一个多月了，到现在还是基本没什么回复以及0面试。 现在自己也已经意识到空窗期也已经二个半月了，再加上在家待业压力确实大，人已经彻底老实服气了，有点开始迷茫了。     ...

点赞评论收藏

分享

04-30 14:25

已编辑

门头沟学院后端工程师

28届对简历再次简单优化了下

唉，继续投吧 有无一起找实习的同志抱个团

点赞评论收藏

分享

不愿透露姓名的神秘牛友

04-23 10:48

腾讯测评是不是会挂人

测评完就显示结束了完蛋了

点赞评论收藏

分享

昨天 14:09

电子科技大学 C++

timeline笔试 4.18一面 4.23二面 4.28offer 5.7

我的求职进度条

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

联想

26届补录

27届校招宝典

厦门银行

2026届春季校园招聘

快手

27届实习超多转正机会

联宝科技

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

30879次浏览 221人参与

# 校招薪资来揭秘 #

960301次浏览 4061人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

50625次浏览 781人参与

# 如果春招能重来，我会___ #

29016次浏览 284人参与

# 24秋招避雷总结 #

1019766次浏览 7098人参与

# 你会因为行情，降低找工作标准吗？ #

44561次浏览 322人参与

# 在爱玛，骑向未来 #

20091次浏览 392人参与

# 机械人还在等华为开奖吗？ #

339142次浏览 1652人参与

# 米哈游求职进展汇总 #

688512次浏览 3348人参与

# 华为池子有多大 #

177946次浏览 931人参与

# 26届春招投递记录 #

8577次浏览 71人参与

# 通信/硬件求职避坑tips #

171957次浏览 1170人参与

# 25届网易互娱暑实进度 #

109052次浏览 802人参与

# 记录我的毕业季 #

4400次浏览 116人参与

# 机械人，你的秋招第一份简历被谁挂了 #

268704次浏览 2450人参与

# 远程面试的尴尬瞬间 #

363738次浏览 2062人参与

# 大学最后一个寒假，我想…… #

103256次浏览 846人参与

# 机械求职避坑tips #

103633次浏览 589人参与

# 你认为小厂实习有用吗？ #

144997次浏览 762人参与

# 网易求职进展汇总 #

213086次浏览 1523人参与

# 美团秋招笔试 #

216241次浏览 1191人参与

# 刚入职就____，这样正常吗？ #

148936次浏览 709人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务