首页 > 试题广场 >

Grouped Query Attention(GQA)相比

[单选题]

Grouped Query Attention(GQA)相比Multi-Head Attention(MHA)的核心改进是什么？

增加注意力头的数量以提升模型容量

让多个Query头共享同一组Key-Value头，减少KV Cache显存占用

使用单个Key-Value头服务所有Query头

移除Value投影矩阵以降低计算量

查看答案及解析

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

大模型概念

难度：

0条回答 0收藏 1浏览

扫一扫，把题目装进口袋