首页 > 试题广场 >

Multi-Head Attention 的输出如何计算?

[单选题]
Multi-Head Attention 的输出如何计算?
  • 各头结果拼接后线性投影
  • 各头注意力结果取平均
  • 通过门控机制加权合并
  • 仅保留最大相似度的头
Multi-Head Attention 的正确输出计算方式是:各头结果拼接后线性投影

Multi-Head Attention 计算步骤:

1. 每个头独立计算

	
# 每个头 i 的计算 head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

2. 拼接所有头的输出

	
# 如果有 h 个头,每个头输出维度为 d_k multi_head = Concat(head_1, head_2, ..., head_h) # 拼接后维度:h × d_k

3. 线性投影

	
output = multi_head × W^O # W^O 是投影矩阵,将维度映射回原始维度
发表于 2025-12-04 17:06:04 回复(0)