2023-04-07 17:24 门头沟学院自然语言处理

关注

算法岗常见面试题（八）：Transformer

Transformer常见问题与回答总结

01 Transformer Encoder 有什么子层？（超参数一面）

Encoder由六个相同层构成，每层都有两个子层：多头自注意力层和全连接的前馈神经网络层（Linear+relu+dropout+Linear）。使用残差连接和层归一化连接两个子层。

02 写一下self-attention的公式（超参数一面）

$Attention(Q,K,V) = Softmax(\frac{QK^T}{\sqrt{d_k}})V$

03 Transformer的优缺点

优点：

可并行
独立于卷积和循环，完全依赖于attention处理全局依赖，解决长距离依赖问题
性能强

缺点：

长度固定
局部信息的获取不如RNN和CNN强：Transformer关注的全局关系，而RNN在计算过程中更关注局部，对距离更加敏感。

04 Encoder端和Decoder端是如何进行交互的？

Cross Self-attention，Decoder提供 $Q$ ，Encoder提供 $K，V$ 。

05 Transformer中为什么需要线性变换？

$K、Q、V$ 分别是输入向量经过不同的线性变换矩阵 $W_k、Q_k、V_k$ 计算得到。可以从正反两面分析线性变换的必要性：

线性变换的好处：在 $QK^T$ 部分，线性变换矩阵将KQ投影到了不同的空间，增加了表达能力（这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题），这样计算得到的注意力矩阵的泛化能力更高。

不用线性变换的坏处：在 $QK^T$ 部分，如果不做线性变换，即X=Q=K，则会导致注意力矩阵是对称的，即 $d(x_1,x_2)=d(x_2,x_1)$ ，这样的效果明显是差的，比如“我是一个女孩”这句话，女孩对修饰我的重要性应该要高于我修饰女孩的重要性。

06 Transformer attention的注意力矩阵的计算为什么用乘法而不是加法？

为了计算更快。

加法形式是先加、后tanh、再和V矩阵相乘，相当于一个完整的隐层。

在计算复杂度上，乘法和加法理论上的复杂度相似，但是在实践中，乘法可以利用高度优化的矩阵乘法代码（有成熟的加速实现）使得点乘速度更快，空间利用率更高。（论文P4有解释）

在 $d_k$ 较小的时候，加法和乘法形式效果相近。但是随着 $d_k$ 增大，加法开始显著优于乘法。作者认为， $d_k$ 增大导致乘法性能不佳的原因，是极大的点乘值将整个softmax推向梯度平缓区，使得收敛困难。于是选择scale，除 $\sqrt{d_k}$ 。

07 Transformer attention计算为什么要在softmax这一步之前除以 $\sqrt{d_k}$

(7 封私信 / 80 条消息) transformer中的attention为什么scaled? - 知乎 (zhihu.com)

取决于Softmax的性质，如果softmax内计算的数过大或者过小，可能导致Softmax后的结果为0，导致梯度消失
为什么是 $d_k$ 。假设Q、K中元素的值分布在[0,1]，softmax的计算中，分母涉及了一次对所有位置的求和，整体的分布就会扩大到[0, $d_k$ ]。

08 Transformer attention计算注意力矩阵的时候如何对padding做mask操作的？

padding位置置为-1000，再对注意力矩阵进行相加。

09 Transformer的残差结构及意义

同resnet，解决梯度消失，防止过拟合

10 Transformer为什么使用LN而不是BN？

LN是针对每个样本序列进行归一化，没有样本间依赖，对一个序列的不同特征维度进行归一化。

CV使用BN是因为认为通道维度的信息对cv方面有重要意义，如果对通道维度也归一化会造成不同通道信息一定的损失。NLP认为句子长短不一，且各batch之间的信息没有什么关系，因此只考虑句子内信息的归一化。

11 Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？/ 为什么decoder自注意力需要进行sequence mask？

让输入序列只看到过去的信息，而看不到未来的信息。

12 Transformer的并行化体现在哪里，Decoder可以做并行化嘛？

Encoder的模块是串行的，但模块内的子模块多头注意力和前馈网络内部都是并行的，因为单词之间没有依赖关系。

Decode引入sequence mask就是为了并行化训练，推理过程不并行

13 Transformer计算量最大的部分是哪里（超参数二面、海信一面）

多头注意力部分计算量最大。

假设完成一次推理， $b$ (batch-size)=1, $s$ (seq-length，序列最大长度)=256, $h$ (hidden-size)=768, attention-head=12 经过一个Transformer的多头注意力block，所需要的矩阵乘法的数量：

总计：12 * （256 * 64 * 256 + 256 * 256 * 64）= 1亿次乘法

除了矩阵乘法的运算外，还有除 $\sqrt{d_k}$ 和 $Softmax$ 函数的运算：

除 $\sqrt{d_k}$ ：计算量为 $s^2$ =256*256
$Softmax$ 函数：计算量为 $s*(s+s-1)≈s^2$

两个矩阵相乘的计算量：

假设矩阵A尺寸为(m,n)，矩阵B尺寸为(n,k)，则矩阵M和矩阵N相乘的计算量为m*n*k。

权重矩阵K,Q,V的尺寸：

不考虑多头注意力的情况下均为(s,h)；多头注意力时，默认12个头，故单头的尺寸为(s,1/12h)。

14 Transformer、LSTM和单纯的前馈神经网络比，有哪些提升？

LSTM相比于单纯的前馈神经网络，首先具有理解文本的语序关系的能力（RNN）。除此之外，又解决了RNN在处理长序列时发生的梯度消失和梯度爆炸的问题。

Transformer进一步解决了RNN、LSTM等模型的长距离依赖问题，能够理解更长的上下文语义。可以并行化，所要的训练时间更短。

15 Transformer处理篇章级的长文本的变体

Transformer变体层出不穷，它们都长什么样？ (qq.com)

16 有哪些处理超长文本的方法（超参数二面）

HIERARCHICAL

基于BERT的超长文本分类模型_valleria的博客-CSDN博客_长文本分类

基本思想：对数据进行有重叠的分割，这样分割之后的每句句子直接仍保留了一定的关联信息。

模型由两部分构成，第一部分是fine-tune后的BERT，第二部分是由LSTM+FC层组成的混合模型。即，BERT只用来提取出句子的表示，而真正在做分类的是LSTM+FC部分。

具体流程：首先将长句子分割为多个小句子，如长200，重叠长度为50.将分割后的数据集传入BERT，分别取每个句子的[CLS]表示句子的embedding，将来自相同长句子的embedding拼接，作为长句子的向量表示。最后，将长句子的向量表示传入LSTM+FC部分进行分类。

除此之外，第二部分还可以用Transformer。

由于都是从notion笔记里面复制过来的，所以可能存在公式缺失之类的问题，欢迎指出~

由于是个人笔记，可能有错误之处，欢迎指正~

#算法面经#

全部评论

推荐最新楼层

牛客924108446号

西北农林科技大学机器学习

这个是海信的面试题么？

1 回复分享

发布于 2024-01-02 14:22 北京

期待一个好结果吧

浙江大学附属中学算法工程师

mark

点赞回复分享

发布于 02-04 20:36 北京

合成

南华大学 Java

老哥有整理 bert 的么

点赞回复分享

发布于 2023-04-15 10:40 吉林

06-03 19:25

已编辑

门头沟学院 Java

大模型面经（第二期）

上期写道刚开始面试的时候，这期写一写5月11号时候，这个时候手上就已经有两三家offer了，然后去北京的前一两天又发了三家offer随便选了个离公司近的工资高点的就去了。那么这期还是讲一下怎么去面试。其实面试的东西都一样，就是说你干过什么，回答问题就行了你要考虑的，不是这么去背八股文，而是要去琢磨到底要不要去实习，我个人而言，我最开始是因为电脑配置带不动才去好点的公司有好的卡给我用，然后呢去了也有工资，但是我的自由被限制了，我没法再天天琢磨新玩意我很痛苦，然后学会了怎么摸鱼，人家都是9点半来，我一开始是8点40到，我现在就吃了早饭再去差不多9点能到（就尽力偷懒还是最勤奋的那一批，因为人家都是老...

查看13道真题和解析

点赞评论收藏

06-04 11:08

已编辑

阿里巴巴_数据(实习员工)

美团大模型数据开发实习生实习面经

总体面试体验：7/101.自我介绍2.我听说你拿了字节的offer（这咋知道的？），能说说你对我们和字节会怎么选择吗？答：先看公司实力，差不太多，再看城市，都是上海，再看岗位，美团的更喜欢一点3.项目拷打4.遇到过数据倾斜吗？假设我要对网站url做key，怎么防止数据倾斜？答：做hash、加盐、url逆转5.为什么要有宽表这个东西？他重复这么严重6.算法题：二叉树查找特定值用深度优先做，有几个bug改掉了，面试官：“要注重鲁棒性”7.Java保证线程安全的方法答：synchronized、lock、乐观锁、用线程安全的数据结构，然后就不知道了8.知道内嵌类吗？知道c++的多继承吗？答：都不知道9.反问，说保持联系20min后通过

查看8道真题和解析

点赞评论收藏

05-25 15:57

腾讯_腾讯云_测试开发(实习员工)

测试开发暑期实习的准备心得

前言：结合我自己的测开准备流程，和面试这几场实习后的经验，写一篇文章给想转测试开发岗位的同学一点入坑的指南吧。因为本人非科班出身，是临时转岗，面试的次数也不多，可能很多地方说的不全面不太对，有差错的地方，请各位大佬在评论区指正，大家一起讨论进步。从面试流程来看，我个人觉得测开主要准备的内容可以分为以下几个方面：项目、八股文、测开场景专题、力扣算法一、项目项目这个不用多说，作为研发岗，你的简历上的项目肯定要体现你自身的技术栈和专业性。但是这里可能有些同学会有疑问：1、项目多少个好？是不是我写的越多越好？找实习阶段，项目两三个足够。一个项目应该写上以下几个内容：项目名称、项目时间、你在这个项目负责...

牛客在线求职答疑中心

点赞评论收藏

06-16 12:33

已编辑

中山大学算法工程师

荣耀 NLP大模型工程师

6-16更新一下！十一点接到oc电话啦！！！！太开心了，还以为没希望了，暑期唯一一个offer，感谢荣耀，以后我就是耀孝子！😭😭😭荣耀 NLP大模型工程师深圳有开奖的吗？我从4-28入池到现在都没消息，一直在录用决策，打电话问也是说在流程中

荣耀求职进展汇总

点赞评论收藏

05-29 15:54

门头沟学院测试开发

微财科技测试开发初级工程师面试

前提，主包是三无gap一年的24届毕业生（全程大概50min）1、问了一下毕业之后干了什么2、介绍项目3、根据项目提问4、测试流程5、给了一个电商购物车的场景，设计测试用例，主包讲完之后，让考虑订单流转的状态，再次设计6、测试用例包含什么内容7、bug所需要提交的内容8、bug的生命周期9、三道sql题（选择、删除、联表）10、一道判断回文子串的算法11、作为一个新人，你怎么样快速的融入这个我们的业务12、反问所以面试官人挺好的，问题不是很难，主包紧张回答的有点稀烂，所以华丽的挂了。（网上这家公司的面经少之又少，几乎可以说是没有，故面完留下面经供各位UU参考）

查看11道真题和解析

点赞评论收藏

160

招聘动态

现代汽车前瞻技术研发中心

京东TET

全站热榜

创作者周榜

正在热议

# 现代汽车前瞻技术研发急速编程挑战赛 #

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

111915次浏览 788人参与