各头结果拼接后线性投影
各头注意力结果取平均
通过门控机制加权合并
仅保留最大相似度的头
# 每个头 i 的计算 head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)
# 如果有 h 个头,每个头输出维度为 d_k multi_head = Concat(head_1, head_2, ..., head_h) # 拼接后维度:h × d_k
output = multi_head × W^O # W^O 是投影矩阵,将维度映射回原始维度
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题