首页 > 试题广场 >

在大模型的文本生成推理过程中,KV缓存(KV Cache)的

[单选题]
在大模型的文本生成推理过程中,KV缓存(KV Cache)的主要作用是?
  • 加速自注意力层中重复token的计算
  • 减少模型的显存占用量
  • 提升生成文本的语法准确性
  • 支持多模态输入的特征融合

在大语言模型(LLM)的自回归文本生成过程中,模型逐个生成 token。每次生成新 token 时,都需要计算它与所有先前(包括自身)token 的注意力权重。如果不使用 KV 缓存,每次生成新 token 时都要重新计算所有历史 token 的 Key(K)和 Value(V)向量,造成大量重复计算。

KV 缓存的作用是缓存已生成 token 的 Key 和 Value 向量,在后续生成新 token 时直接复用,从而避免重复计算,显著加速自注意力层的推理过程,尤其在生成长序列时效果明显。

发表于 今天 09:27:26 回复(0)