首页 > 试题广场 >

深入剖析自注意力机制及其变体,以下哪些陈述准确(多选)

[不定项选择题]
深入剖析自注意力机制及其变体,以下哪些陈述准确(多选)
  • 在 GQA 中不同组 Query 必须串行计算,无法并行
  • 从 MHA 到 GQA/MQA 的动机之一是减小推理时 KV 缓存以降显存
  • 单个头内部 Query 和 Key 的维度 d_k 必须相等,Value 维度可不同
  • 将 QK^T 除以 sqrt(d_k) 有助于稳定梯度,避免 softmax 饱和
A。GQA 分组查询注意力把 Query 分成几组,每组共享同一组 K、V。
不同组之间是完全可以并行计算的,因为它们互相独立。
B。自注意力就是用 Q 去匹配 K,然后加权求和 V。MHA多头注意力,MQA是多组查询注意力
C。Q和K要做点积,所以维度要求一致,但是V是加权求和,不需要维度一致
D。d_k 大时,QK^T 的值会非常大,除以 sqrt (d_k) 可以把方差变回 1,让数值更稳定,softmax 不那么极端,梯度更健康。
发表于 2026-01-08 20:40:05 回复(0)