首页 > 试题广场 >

以下哪些技术可以有效减少大模型推理时KV Cache的显存占

[不定项选择题]
以下哪些技术可以有效减少大模型推理时KV Cache的显存占用?
  • Grouped Query Attention(GQA)
  • Multi-head Latent Attention(MLA)
  • Flash Attention
  • 模型权重量化(如INT4)
kv 显存占用:GQA,MLA
发表于 2026-04-10 22:08:39 回复(0)