首页 > 试题广场 >

在 LLM 推理中,分组查询注意力(GQA)与 MHA、MQ

[单选题]
在 LLM 推理中,分组查询注意力(GQA)与 MHA、MQA 的对比,下列说法最准确的是:
  • GQA/MQA 都是降维 Query
  • GQA 通过路由机制为每个 Query 头匹配 K/V 头
  • GQA 拥有比 MHA 更多的 K/V 头
  • GQA 让多组 Query 头共享同一组 Key/Value 头,K/V 数量介于 MHA 与 MQA 之间

这道题你会答吗?花几分钟告诉大家答案吧!