Q:请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列? 难度:⭐⭐ 公司:字节、阿里、腾讯(高频) 算法岗回答要点: 自注意力机制原理 输入序列通过三个线性变换得到 Q(Query)、K(Key)、V(Value) 计算注意力分数:scores = QK^T / √d_k Softmax 归一化得到注意力权重 加权求和:output = softmax(scores) · V 数学推导 Attention(Q,K,V) = softmax(QK^T/√d_k)V 为什么除以√d_k?防止点积过大导致梯度消失 Mult...