Q:你知道MHA,MQA,GQA的区别吗?详细解释一下。 难度:⭐⭐⭐ 岗位:通用(开发岗也需了解) 公司:字节、阿里(真题) 标准答案: 这三者都是 Attention 机制的变体,核心区别在于 K/V 的头数设计。 1. MHA (Multi-Head Attention) - 标准多头注意力 每个头都有独立的 Q/K/V 参数量:heads × d_k × d_model × 3 (Q/K/V各一份) 显存占用:最大(推理时需要缓存所有 K/V) 2. MQA (Multi-Query Attention) - 多查询注意力 所有头共享同一组 K/V,每个头只有独立的 Q 参数量:...