首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
期待一个好结果吧
浙江大学附属中学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(八):Transformer
Transformer常见问题与回答总结01 Transformer Encoder 有什么子层?(超参数一面)Encoder由六个相同层构成,每层都有两个子层:多头自注意力层和全连接的前馈神经网络层(Linear+relu+dropout+Linear)。使用残差连接和层归一化连接两个子层。02 写一下self-attention的公式(超参数一面)03 Transformer的优缺点优点:可并行独立于卷积和循环,完全依赖于attention处理全局依赖,解决长距离依赖问题性能强缺点:长度固定局部信息的获取不如RNN和CNN强:Transformer关注的全局关系,而RNN在计算过程中更关注局部,对距离更加敏感。04 Encoder端和Decoder端是如何进行交互的?Cross Self-attention,Decoder提供,Encoder提供。05 Transformer中为什么需要线性变换?分别是输入向量经过不同的线性变换矩阵计算得到。可以从正反两面分析线性变换的必要性:线性变换的好处:在部分,线性变换矩阵将KQ投影到了不同的空间,增加了表达能力(这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题),这样计算得到的注意力矩阵的泛化能力更高。不用线性变换的坏处:在部分,如果不做线性变换,即X=Q=K,则会导致注意力矩阵是对称的,即,这样的效果明显是差的,比如“我是一个女孩”这句话,女孩对修饰我的重要性应该要高于我修饰女孩的重要性。06 Transformer attention的注意力矩阵的计算为什么用乘法而不是加法?为了计算更快。加法形式是先加、后tanh、再和V矩阵相乘,相当于一个完整的隐层。在计算复杂度上,乘法和加法理论上的复杂度相似,但是在实践中,乘法可以利用高度优化的矩阵乘法代码(有成熟的加速实现)使得点乘速度更快,空间利用率更高。(论文P4有解释)在较小的时候,加法和乘法形式效果相近。但是随着增大,加法开始显著优于乘法。作者认为,增大导致乘法性能不佳的原因,是极大的点乘值将整个softmax推向梯度平缓区,使得收敛困难。于是选择scale,除。07 Transformer attention计算为什么要在softmax这一步之前除以(7 封私信 / 80 条消息) transformer中的attention为什么scaled? - 知乎 (zhihu.com)取决于Softmax的性质,如果softmax内计算的数过大或者过小,可能导致Softmax后的结果为0,导致梯度消失为什么是。假设Q、K中元素的值分布在[0,1],softmax的计算中,分母涉及了一次对所有位置的求和,整体的分布就会扩大到[0,]。08 Transformer attention计算注意力矩阵的时候如何对padding做mask操作的?padding位置置为-1000,再对注意力矩阵进行相加。09 Transformer的残差结构及意义同resnet,解决梯度消失,防止过拟合10 Transformer为什么使用LN而不是BN?LN是针对每个样本序列进行归一化,没有样本间依赖,对一个序列的不同特征维度进行归一化。CV使用BN是因为认为通道维度的信息对cv方面有重要意义,如果对通道维度也归一化会造成不同通道信息一定的损失。NLP认为句子长短不一,且各batch之间的信息没有什么关系,因此只考虑句子内信息的归一化。11 Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?/ 为什么decoder自注意力需要进行sequence mask?让输入序列只看到过去的信息,而看不到未来的信息。12 Transformer的并行化体现在哪里,Decoder可以做并行化嘛?Encoder的模块是串行的,但模块内的子模块多头注意力和前馈网络内部都是并行的,因为单词之间没有依赖关系。Decode引入sequence mask就是为了并行化训练,推理过程不并行13 Transformer计算量最大的部分是哪里(超参数二面、海信一面)多头注意力部分计算量最大。假设完成一次推理,(batch-size)=1, (seq-length,序列最大长度)=256, (hidden-size)=768, attention-head=12 经过一个Transformer的多头注意力block,所需要的矩阵乘法的数量:总计:12 * (256 * 64 * 256 + 256 * 256 * 64)= 1亿次乘法除了矩阵乘法的运算外,还有除和函数的运算:除:计算量为=256*256函数:计算量为两个矩阵相乘的计算量: 假设矩阵A尺寸为(m,n),矩阵B尺寸为(n,k),则矩阵M和矩阵N相乘的计算量为m*n*k。权重矩阵K,Q,V的尺寸: 不考虑多头注意力的情况下均为(s,h);多头注意力时,默认12个头,故单头的尺寸为(s,1/12h)。14 Transformer、LSTM和单纯的前馈神经网络比,有哪些提升?LSTM相比于单纯的前馈神经网络,首先具有理解文本的语序关系的能力(RNN)。除此之外,又解决了RNN在处理长序列时发生的梯度消失和梯度爆炸的问题。Transformer进一步解决了RNN、LSTM等模型的长距离依赖问题,能够理解更长的上下文语义。可以并行化,所要的训练时间更短。15 Transformer处理篇章级的长文本的变体Transformer变体层出不穷,它们都长什么样? (qq.com)16 有哪些处理超长文本的方法(超参数二面)HIERARCHICAL基于BERT的超长文本分类模型_valleria的博客-CSDN博客_长文本分类基本思想:对数据进行有重叠的分割,这样分割之后的每句句子直接仍保留了一定的关联信息。模型由两部分构成,第一部分是fine-tune后的BERT,第二部分是由LSTM+FC层组成的混合模型。即,BERT只用来提取出句子的表示,而真正在做分类的是LSTM+FC部分。具体流程:首先将长句子分割为多个小句子,如长200,重叠长度为50.将分割后的数据集传入BERT,分别取每个句子的[CLS]表示句子的embedding,将来自相同长句子的embedding拼接,作为长句子的向量表示。最后,将长句子的向量表示传入LSTM+FC部分进行分类。除此之外,第二部分还可以用Transformer。由于都是从notion笔记里面复制过来的,所以可能存在公式缺失之类的问题,欢迎指出~由于是个人笔记,可能有错误之处,欢迎指正~
点赞 30
评论 3
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
07-28 17:09
西安电子科技大学 Java
如果面试被问到单点登录,你会怎么回答?
如果面试被问到单点登录,你会怎么回答?作者:一位 Java 老猿,写代码第八年,头发还剩三根半前言:这题我熟,我头发少不代表我不会!在经历无数次面试之后,我总结出一个规律:只要你简历上写了“参与系统架构设计”,面试官就一定会在某个时刻扶了扶眼镜,问你一句:“那你说说,咱们系统的单点登录(SSO)是怎么做的?”这时候,年轻的程序员可能一脸懵逼,脑海里浮现的是“登录一次能多次免密登录?”,而经验老辣的 Java 开发(比如我)早已微微一笑,默默打开脑海里的架构图工具,开始输出!一、什么是单点登录,别装不认识先别急着讲实现,定义要先讲清楚,不然面试官会觉得你是在背八股。SSO 是什么?Single ...
牛客创作赏金赛
点赞
评论
收藏
分享
昨天 14:15
门头沟学院 Java
速腾聚创简历挂
天呐,这究竟是什么bg才能过初筛呀,本2硕9都不行吗
投递速腾聚创等公司10个岗位
点赞
评论
收藏
分享
07-20 12:08
已编辑
江南大学 图像识别
大学玩了三年,这种简历怎么找工作啊,都不知道应该投什么岗位的实习😭😭😭
机械牛马勇闯秋招:
把校园经历里面做过的项目,大作业,课设,毕设啥的,扩写,写成具体的项目经历,自我评价缩写别占篇幅,不然这简历真没东西,初筛都过不了
点赞
评论
收藏
分享
06-05 17:59
已编辑
武汉理工大学 算法工程师
27届求拷打
本人目前大二,这学期结束后想找一份长期实习(4-6个月),上个月投了百度、快手、拼多多、美团等公司,有一部分投递记录的简历初筛都已通过,但是后续的面试都没有收到信息。之前也有快手的员工加我微信想要内推我。发这篇帖子想得到大佬的指导,提供一些简历修改的意见、投递技巧和日后学习路线建议。
要发财的coder很...:
快手内推是诈骗,骗钱你改简历呢
投递快手等公司10个岗位
点赞
评论
收藏
分享
07-28 15:19
叠纸游戏_UI美术设计(准入职员工)
叠纸游戏内推
叠纸游戏测试一面#叠纸游戏校招# 之前找面经很少,我来贡献一份(不过感觉参考价值也不大)总体感觉:我这次遇到的叠纸面试官是一位男士,给人感觉非常和善,答得稀烂也没有一点不耐烦和轻视,最后甚至开始给我讲题感觉很好,春招还来自我介绍最近一份实习经历有测开,问了关于实习的内容1. 如何优化测试样例2.如何设计测试样例(我答了等价类划分,边界值,追问:这是输入方面的,其他方面有没有思路)3.介绍常用数据结构(有点忘了,最后我答的队列和栈)4.堆和栈区别5.双链表去重(我答的用哈希表,问有无其他方法,最后提示双指针,双重循环)叠纸游戏2026校招启动叠纸游戏成立于2013年8月,是一家专注于内容创作的游...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
百度提前批,三面被推迟一周,喜提秋招第一凉
4465
2
...
虾皮秋招一面
3440
3
...
QQ提前批一面凉经
3041
4
...
他拿大厂SSP Offer打牌是什么概念啊?25届双非之光
2652
5
...
百度提前批 三面
2628
6
...
7.30滴滴提前批一面凉经
2550
7
...
7.30百度提前批一面
1948
8
...
上班一周,工资还没拿,先欠公司两千
1700
9
...
百度7.30二面
1501
10
...
小鹏offer
1457
创作者周榜
更多
正在热议
更多
#
简历上的经历如何包装
#
26603次浏览
759人参与
#
秋招被确诊为……
#
162535次浏览
731人参与
#
中兴秋招
#
204595次浏览
2287人参与
#
工作中哪个瞬间让你想离职
#
61832次浏览
555人参与
#
你最希望上岸的公司是?
#
134605次浏览
700人参与
#
和同事相处最忌讳的是__
#
22683次浏览
232人参与
#
你最近一次加班是什么时候?
#
70933次浏览
350人参与
#
26届的你,投了哪些公司?
#
40293次浏览
456人参与
#
你遇到最难的面试题目是_
#
15953次浏览
195人参与
#
我对___祛魅了
#
45339次浏览
417人参与
#
研究所VS国企,该如何选
#
194704次浏览
1819人参与
#
地平线求职进展汇总
#
52571次浏览
369人参与
#
如果校招重来我最想改变的是
#
271652次浏览
2849人参与
#
你跟室友的关系怎么样?
#
6581次浏览
104人参与
#
你最讨厌面试问你什么?
#
26863次浏览
302人参与
#
如果可以选,你最想从事什么工作
#
565673次浏览
4699人参与
#
海康威视求职进展汇总
#
493924次浏览
3625人参与
#
什么样的背景能拿SSP?
#
34337次浏览
210人参与
#
秋招前后对offer的期望对比
#
302948次浏览
2229人参与
#
柠檬微趣工作体验
#
6608次浏览
40人参与
#
如何快速融入团队?
#
15686次浏览
194人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务