Attention：面试必备的 Attention 机制总结_牛客网

布朗尼尼尼

门头沟学院深度学习

关注

🐴

@Les1ie： Attention：面试必备的 Attention 机制总结

Attention 知识点总结本文从 Attention 机制的角度，主要对 Attention Is All You Need 中提出的 Transformer 和 Multi Head Attention 模型、其他相关 Attention 机制进行知识点总结。 BERT、GPT、GAT 等相关的上层模型将另行总结。 Additive Attention 基于加权求和实现的注意力机制。对于所有的候选元素集合，计算所有  对目标  的 Attention 分数的主要过程如下：其中  为  的特征；   为基于  和  计算的分数，用于计算归一化后的 Attention 权重。注意：这里主要介绍 Additive Attention 这一思想，所以不对涉及其特定任务与模型的细节做过多介绍。在 [1] 中做的是翻译任务：输入一中语言的词汇序列，输出另一种语言的词汇序列。在 [1] 中， ，为原语言（词汇序列  ） 与翻译后的目标语言用于对齐（已翻译出  个词汇后，并不是所有原语言中的词汇都和待翻译第  个目标语言词汇相关，在  中挑选一部分出用于翻译第  个目标语言词汇的操作就是对齐）后的关联性分数，而  为  （第  个元素 Attention 后的结果）通过 RNN 输出得到，[1] 中计算  的目的便是将其用于计算  。也就是说， 的这种计算方式是特定于 [1] 所研究的任务和所提出的模型的，其作用本身就是在 Additive Attention 这一思想中“用于计算归一化后的 Attention 权重”。    References Neural machine translation by jointly learning to align and translate Scaled Dot-Product Attention 目前最为常用的基础 Attention 模块。通过给定的 Query、Key、Value，计算 Query 对每一个 Key 的注意力分数，并将其与 Key 对应的 Value 相乘（Key 和 Value 一一对应）。模型结构为：    输入输出分别为： 3 个输入： 2 个输出：attention weights （ Softmax 的输出，在Pytorch中为可选输出）、attented value  计算过程先使用  和  点乘，并除以  进行缩放（Scale）；  再使用 Softmax 进行归一化，得到 Attention 权重；可选：Softmax 之前可以传入一个 Mask 矩阵用于遮住不希望和当前元素计算 Attention 的元素。  最后将其与  点乘，得到 Attention 后的输出。   细节 Scale 的作用：矩阵点乘可能会导致数值指数级增加，从而使得 softmax 的梯度非常小，所以使用  进行缩放来避免这个问题 [1][2]。原论文相关描述[1] We suspect that for large values of , the dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients. To counteract this effect, we scale the dot products by . To illustrate why the dot products get large, assume that the components of  and  are independent random variables with mean  and variance . Then their dot product,  , has mean  and variance .   Softmax 的作用：点积的值域是  直接与  相乘后的值域也是 ，Softmax 将其归一化至  区间便于后续与  相乘； 同时也起到以对梯度进行缩放的作用（防负数以及过大的结果导致梯度度问题）。    References Attention Is All You Need - arXiv Transformer Networks: A mathematical explanation why scaling the dot products leads to more stable gradients Illustrated Guide to Transformers- Step by Step Explanation Multi-Head Attention 基于 Scaled Dot-Product Attention 进一步堆叠，结构如下：    通过并行地执行多个 Scaled Dot-Product Attention 模块，并连接其所得结果作为输出。模型的向量输入输出与 Scaled Dot-Product Attention 相同，但是多一个模型结构参数  表示其内部 head 的数量。计算在每一个  内，先分别使用  对  进行线性变换， 再使用 Scaled Dot-Product Attention 进行计算； 再连接所有 head 的输出结果，并使用  进行线性变换得到最终输出。  细节多个 head 的计算互相独立，可以通过并行计算完成；  Multi Head 的意义是：让模型“注意”到更为丰富的特征（从不同角度去学习特征之间的关联， 如 [2] 中的 CaseStudy 所示）；原论文相关描述^[1]^ Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions.   在原文以及一般的实现中（如Pytorch），不会对每一个 head 都使用  维的向量，而是将每一个 head 的维度设置为  以优化计算开销（如此，则计算的总维度是 ，而非  ，是接近 single-head attention 的），因此也限制了  必须为  的整数倍；原论文相关描述[1] In this work we employ  parallel attention layers, or heads. For each of these we use . Due to the reduced dimension of each head, the total computational cost is similar to that of single-head attention with full dimensionality.    References Attention Is All You Need - arXiv Deepinf: Social influence prediction with deep learning Transformer Transformer 可以被认为是Multi-Head Attention、MLP、残差连接、Positionnal Encoding、Encoder-Decoder结构的组合应用。其结构如下：    计算 Positional Encoding 位置编码主要通过三角函数对位置进行编码：其特点是：是非参数的，不可学习；  任意两个位置的编码间具有可转换性，使得编码可表示其位置上的相对关系；原论文相关描述 [1] We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset ,  can be represented as a linear function of  .   奇、偶维度使用的是不用的三角函数，且每一个维度的三角函数的频率和周期都是不同的（与位置、当前维度、总维度相关），确保了每一个位置都能有一个完全独特的编码。   Encoder 编码器 & Decoder 解码器如其结构示意图所示，Encoder 和 Decoder 中负责主要计算的骨架网络（Backbone）都是多层 Attention、MLP、Normalization 的残差叠加。 Encoder 中，每一个位置的元素能对所有位置的元素进行 Attention；  Decoder 中，则对数据进行了 Mask，每一个位置的元素只对在其左边的元素进行 Attention，目的是防止向左的信息流以保证自回归性。   原论文相关描述 [1] We need to prevent leftward information flow in the decoder to preserve the auto-regressive property. We implement this inside of scaled dot-product attention by masking out (setting to ) all values in the input of the softmax which correspond to illegal connections. 自回归性指在时间序列中，第  个元素值只和第  至  个元素相关，可通过前  各元素的回归计算得到，数学表示为  。 为一个回归函数，如加权求和等。细节 Multi-Head Attention 是顺序/位置不敏感的。  中的每一个元素会和  中所有个元素相乘并计算 Attention Score，这个的计算结果和  中元素的顺序/位置是没有关系的，只和元素值的大小有关，因此 Multi-Head Attention 是对顺序/位置不敏感的——无论  和  中元素的排列顺序如何其对应元素计算的结构都是恒定的、其计算的结果也无法反映其顺序/位置关系。  Positional Encoding 的作用是解决 Multi-Head Attention 的顺序/位置不敏感性。通过给不同位置的元素加上一个能表示其顺序/位置值，将位置特征反应到了元素的特征值中，使得最终的计算结果是和元素的顺序/位置相关的——让模型利用到数据顺序/位置上的特征。原论文相关描述 [1] Since our model contains no recurrence and no convolution, in order for the model to make use of the order of the sequence, we must inject some information about the relative or absolute position of the tokens in the sequence.   其他优化细节： Label Smoothing：基本原理是提高了模型学习的不确定性，让模型在每次输出时即使单个词的概率分数再高也能“考虑”输出其他词，最终起到了提高模型学习能力的效果。这也是分类问题中常用的优化技巧。原论文相关描述 [1] This hurts perplexity, as the model learns to be more unsure, but improves accuracy and BLEU score.   Residual Dropout：对于残差连接的当前层输出和上一层输出相加后再正则化这一组操作，对其来自上一层的输出（不包括当前层的输出）和残差连接后的结果均进行 Dropout。     References Attention Is All You Need - arXiv Transformer Architecture: The Positional Encoding BERT BERT 是基于 Transformer 设计一个模型，内部本身并没有针对 Transformer 模型或 Attention 机制进行创新，而是将其作为基本模块进行了进一步的模型构建。细节使用了预训练+微调的训练方案；模型内使用了无监督的优化方案。 References BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - arXiv 总结广义上的 Attention Mechanism 指的是学习数据在特定上下文的不同重要性分布的机制，而 Multi-Head 广义上也可以指代使用多组参数去 Attention 分数的优化技巧。但更多情况下，Multi-Head Attention 指代的是 Attenion Is All You Need 中使用的这一 Attention 模型 （其在PyTorch中有也相关实现torch.nn.MultiHeadAttention）。  Attenion Is All You Need 中使用的 Multi-Head Attention 具有如下性质：要求规则的输入（Batch 中所有元素的 Size 是统一的才能对  进行矩阵操作，如通道和大小一直的多张图片、长度对齐的多段文字等），无法被直接应用到图数据这一不规则拓扑结构中。因此，在 GNN 领域中有代表性的 Attention 模型有 GAT、HAN 等，它们基于图结构设计了专门的 Attention 计算机制，同时也均使用了 Multi-Head 进行优化。  位置/顺序不敏感，需要额外使用位置编码等手段来利用数据位置/顺序上的特征。    

点赞 7

评论 3

全部评论

推荐最新楼层

01-19 10:21

北京邮电大学嵌入式工程师

真有985去做外包吗？为啥老在贩卖焦虑？

外包模式正流行超6成外包岗位薪资不低于正式岗位调查显示，外包等非正式雇佣普遍存在于企业中。受访职场人中，超过一半的外包员工以劳务派遣的形式工作，求职者先与一家劳务派遣单位签订合同，再被派到用工单位工作。其余35%的人通过项目外包的形式受雇，另有15%则是岗位外包。据了解，外包岗位的核心与非核心的边界正在模糊。在一些新兴领域的部分环节，也有外包的存在，例如：IT 开发中的测试工程师、UI 设计师、新媒体的内容审核专员等。前程无忧外包项目专家透露，“某家互联网公司研发团队，将 30%的测试工作外包给专业团队，这种项目制外包逐渐成为趋势。”不论是哪种形式，外包岗位的工作状态和感受体验，一定程度上区别...

点赞评论收藏

分享

01-19 10:15

库洛游戏_HR(准入职员工)

步步高内推，步步高内推码

步步高实验学校 2026届校招启动啦【学校简介】东莞市步步高实验学校于 2023 年投入运营，占地 230 亩，是一所集幼儿园、小学、初中、高中于一体的十五年一贯制非营利性高端民办学校，学校全面实行小班化教学，学校师生比为 1:5；步步高教育专家团队由来自一流大学的国家课标专家、教育学家，来自著名学校的卓越校长，来自一线、有着丰富教学经验的著名特级教师，以及来自国家级教育媒体的教育策划专家共同组成，为步步高的课程、教学、管理奠定了坚实基础。【招聘岗位】• 幼儿园、小学部及初中部各学科类教师 & 国际教师，类别多多，等你pick！ 【福利待遇】• 薪资：幼儿园老师年收入16万起 、中小学...

点赞评论收藏

分享

2025-12-28 19:14

哈尔滨工业大学算法工程师

简历求锐评  

牛至超人：哈工大已经很棒了，不需要加括号了，然后咋没有实习经历呢？火速趁寒假整一段实习，导师不让就狠狠肘击

投了多少份简历才上岸

点赞评论收藏

分享

01-21 21:52

哈尔滨工业大学（威海） Java

扎西拉姆的事业经历（一）

Chap1 事业主线的确定“学弟，采访你一下，你在拿录取通知书的时候，对大学四年的自己有什么期待呢？”大一的石学弟思考良久，回复了我一个猫猫“耄耋”表情包。“加入威软实验室，拿大厂offer，找到女朋友。学长，你呢？”我呢？我高三的时候就知道，大学里有七条路，一保二考三就业，四留五公六创业，再加上一个“混吃等死”，没关系，人生是旷野————开玩笑，学历变不了现，不都是白扯吗？所以，我绝不考研。唐学长是某军工985的19级本科生，他对他压抑的本科生涯恨之入骨。大学前两年，他活在育才高中的回忆中，而后两年，则活在浙大上岸的渴望里。他从大三开始苦苦备战约15个月，动态里将校园比作肖申克，最后以400...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客十周岁生日快乐 #

206905次浏览 1932人参与

# 你觉得什么岗位会被AI替代 #

34962次浏览 232人参与

# 我和mentor的爱恨情仇 #

101750次浏览 922人参与

# 一人一个landing小技巧 #

143210次浏览 1498人参与

# 如果工作一直消耗情绪还要继续做吗 #

18129次浏览 83人参与

# 四大天坑是哪四家？ #

101742次浏览 235人参与

# 互联网公司评价 #

479915次浏览 4091人参与

# 机械人春招想让哪家公司来捞你？ #

377871次浏览 3127人参与

# 聊聊你的被动加班经历 #

4644次浏览 80人参与

# 在国企工作的人，躺平了吗？ #

392215次浏览 3951人参与

# 我的求职精神状态 #

422588次浏览 3075人参与

# 华为工作体验 #

289501次浏览 1376人参与

# 实习吐槽大会 #

405071次浏览 2168人参与

# 工作压力大怎么缓解 #

138999次浏览 1261人参与

# 找工作以来，你最看不惯__ #

17848次浏览 352人参与

# 你的mentor是什么样的人？ #

49318次浏览 705人参与

# 第一次找实习，我建议__ #

69363次浏览 841人参与

# 实习教会我的事 #

52295次浏览 413人参与

# 实习怎么做才有更好的产出 #

14222次浏览 264人参与

# AI coding的好用工具分享 #

22008次浏览 410人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务