第 5 题:KV Cache 的原理与在自回归生成中的作用

第 5 题:KV Cache 的原理与在自回归生成中的作用

题目

解释 KV Cache 的原理,以及它在自回归生成中的作用。

一、自回归生成时在算什么?

自回归生成是一个 token 一个 token地生成:第 步只多一个新 token,对应一个新的 query ;而 key 和 value 来自当前及之前所有 token(1 到 )的表示。若不做缓存,每步都要对“从 1 到 t”的整段序列重新前向一遍,那么第 步会重复计算 1 到 的 K、V,浪费大量计算。

不缓存的复杂度:第 步要算 个 token 的 K/V 和一次 Attention,总步数若为 ,K/V 的计算量是 ,非常贵。

二、KV Cache 做了什么?

KV Cache 的思路:把已经算过的每个位置的 Key 和 Value 存下来,生成下一步时:

  • 只对当前新 token 算一次前向,得到
  • 拼到已有的 K、V 缓存后面;
  • 整段缓存的 做 Attention,得到当前步的输出。

这样每步只算 1 个新 token 的 K/V,其余都用缓存,避免对历史 token 重复计算。

形式化:设已生成 个 token,缓存为 。第 步:

  1. 新 token 的隐状态经过当前层 → 得到
  2. 更新缓存:(按序列维拼接)。
  3. 得到当前层的输出。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

不愿透露姓名的神秘牛友
04-23 10:48
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务