加速自注意力层中重复token的计算
减少模型的显存占用量
提升生成文本的语法准确性
支持多模态输入的特征融合
在大语言模型(LLM)的自回归文本生成过程中,模型逐个生成 token。每次生成新 token 时,都需要计算它与所有先前(包括自身)token 的注意力权重。如果不使用 KV 缓存,每次生成新 token 时都要重新计算所有历史 token 的 Key(K)和 Value(V)向量,造成大量重复计算。
KV 缓存的作用是缓存已生成 token 的 Key 和 Value 向量,在后续生成新 token 时直接复用,从而避免重复计算,显著加速自注意力层的推理过程,尤其在生成长序列时效果明显。
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题