首页 > 试题广场 >

Grouped Query Attention(GQA)相比

[单选题]
Grouped Query Attention(GQA)相比Multi-Head Attention(MHA)的核心改进是什么?
  • 增加注意力头的数量以提升模型容量
  • 让多个Query头共享同一组Key-Value头,减少KV Cache显存占用
  • 使用单个Key-Value头服务所有Query头
  • 移除Value投影矩阵以降低计算量

这道题你会答吗?花几分钟告诉大家答案吧!