1. Transformer 为什么使用多头注意力机制,为什么不只用一个头?多头注意力的核心,不是单纯把一个 attention 做很多遍,而是让模型在不同子空间里同时学习不同类型的关系。一个头可能更关注主语和谓语的关系,另一个头可能更关注长距离依赖,还有的头更容易学到局部词序和语义搭配。如果只用一个头,模型也能做注意力,但它只能在一个投影空间里建模,表达能力会受限。多头的做法是先把输入分别线性映射成多组 (Q,K,V),每组各自做 attention,最后再拼接起来。这样模型就能从多个角度同时看同一句话。公式一般写成:其中:所以多头的本质价值是:增强表示能力,而不是简单重复计算。2. 为什么...