互联网大厂算法岗深度学习八股文——Transformer高频考点系列（一）

在互联网大厂算法岗的面试环节中，深度学习相关八股文的重要性早已无需多言。算法岗面试八股文看似是一个大家"背答案，对于记忆力的比拼"，但实际上却是互联网大厂面试官考察候选人知识体系完整性和基础知识掌握扎实程度最直接、有效的方式！因此八股文在面试中的重要性不言而喻。

大家在求职过程中会发现，当下很多大厂算法岗面试八股文资料杂乱无章，不成体系，需要花费大量的时间和精力进行整理，耽误求职复习进度。本深度学习算法岗求职八股文专栏将互联网大厂面试中的高频八股知识点进行了汇总和梳理，并且附带参考答案。助力大家在求职面试前打下扎实的基础功底，面试过程中游刃有余！

本文是《深度学习算法岗求职八股文专栏》中Transformer高频考点系列的第一篇文章，整理了面试过程中Transformer的高频考点，并且附带参考答案。

一、什么是Transformer？

Transformer 网络模型最早来自于《Attention is all you need》论文中，与传统的卷积神经网络或者递归神经网络不同，Transformer的意义体现在它的长距离依赖关系处理和并行计算，而这两点都离不开其提出的自注意力机制。

首先，Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系，相比于以往的递归神经网络，它在处理长序列时的表现更好。而自注意力机制的另一个特点时允许模型并行计算，无需像递归神经网络一样 t 步骤的计算必须依赖 t-1 步骤的结果，因此 Transformer 结构让模型的计算效率更高，加速训练和推理速度。

Transformer 最开始应用于 NLP 领域的机器翻译任务，但是它的通用性很好，除了 NLP领域的其他任务，经过变体，还可以用于视觉领域。

二、Transformer网络结构比卷积神经网络具备哪些优势？

（1） Transformer 具有更好的数据学习能力，卷积神经网络很多模型适用于监督性学习，卷积神经网络对海量数据的适配能力没有想象中的要好；但是 Transformer 对大数据的适配能力很好，可以明显地看到随着数据量的增加，模型的表现越来越好的现象

（2）卷积神经网络中很多学习的参数属于静态参数，再推理的过程中都固定不动。但Transformer 中的参数均是动态的参数；

（3）卷积神经网络由于是局部的特征提取，比较依赖于数据本身。但是 Transformer中的学到的更多是注意力机制学到的特征像素彼此之间的相互关系，普适性更好，不完全依赖于数据本身；关注的不仅仅是局部特征信息。

三、Transformer 与 RNN 架构有什么区别

RNN（循环神经网络）和 Transformer 是两种用于处理序列数据的常见神经网络架构，它们的主要区别在于模型的架构和处理序列数据的方式。

（1）RNN 架构：

RNN 是一种经典的序列模型，它通过循环的方式将序列中的信息逐个输入到网络中，并在网络内部使用循环结构来捕捉序列中的时间依赖关系。

RNN模型的主要问题是输入是序列，只能按照顺序处理数据，无法并行处理，计算成本很高。此外，它也会出现梯度消失的问题。

因此无法处理很长的序列。尽管也有包括 GRU、LSTM这种改进，也无法解决这些根本性的问题。下图是一个典型的 RNN 架构的模型。

（2）Transformer 架构：

Transformer 将输入序列分别传递给编码器和解码器，每个部分由多个层次组成，每个层次由多头自注意力机制和全连接层组成。Transformer 的编码器和解码器可以同时处理多个序列位置，因此可以更高效地处理长序列。

（3）二者的主要区别：

RNN 和 Transformer 的主要区别在于序列处理的方式和性能。RNN通过循环来处理序列，但在处理长序列时可能存在梯度消失或爆炸的问题；而 Transformer使用自注意力机制来处理序列，可以更高效地处理长序列，且不会出现梯度消失或爆炸的问题。

由于 Transformer 在处理序列时更为高效，因此在自然语言处理领域中已经成为主流的模型架构，并在许多任务上取得了显著的性能提升。

四、介绍一下视觉 Transformer 中的 Encoder 模块

Transformer 网络中的 Encoder 模块会将主干网络输出的特征图转换为一维的特征表达，然后结合可学习的位置编码向量（Position Embedding，PE）一起作为 Encoder 模块的输入，每个 Encoder 模块均是由多头自注意力层和 FFN 层组成，用于实现全局特征的提取过程。

五、介绍一下 Transformer 网络中的前馈神经网络（FFN）

前馈神经网络通常包含两个线性变换和一个激活函数，中间通常使用 ReLU激活函数或其他非线性激活函数，其网络结构可以用如下的形式进行表示。此外，前馈神经网络的主要作用是对注意力层的输出进行进一步的处理，以增强模型的表达能力。

其中，公式中的 x 代表前馈神经网络的输入，W和 b 分别代表线性变换层中的权重和偏置项。

六、Transformer 中 FFN 使用的激活函数是什么？有什么优缺点？

在Transformer 中的前馈神经网络中采用的是ReLU激活函数，其优缺点如下：

（1）优点：ReLU函数在大于0的部分梯度为常数，所以不会产生梯度弥散现象；此外，ReLU 函数的导数计算更快，所以使用梯度下降时比Sigmod收敛起来要快很多；

（2）缺点：当输入数据是小于0的时候，那么经过这个神经元的梯度将都变成0；这个时候这个ReLU单元在训练中将死亡（也就是参数无法更新），这也导致了数据多样化的丢失。

七、详细介绍Decoder模块中都包括哪些结构以及对应的功能

（1）输入嵌入（InputEmbedding）：与Transformer网络中的Encoder模块相似，某些算法模型中直接将ObjectQuery初始化为高纬度的特征向量

（2）位置编码（PositionalEncoding）：与 Encoder模块相同，位置编码提供了序列中的位置信息。

（3）解码层（DecoderLayers）：解码层与编码层类似，但有一些关键区别如下：

多头注意力机制（Multi-HeadAttentionMechanism）：ObjectQuery向量与编码器输出的特征计算交叉注意力，结合编码器提供的上下文信息生成当前的输出结果。
前馈神经网络（Feed-ForwardNeuralNetwork，FFN）：与编码器中的前馈神经网络相同，用于进一步处理特征表示。
层归一化和残差连接：与编码器相同，用于稳定和加速训练。

（4）线性层和Softmax激活函数：Decoder模块的最终输出通过一个线性层以及Softmax函数输出最后的模型结果