首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
追赶太阳的卷王很勇敢
同济大学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(八):Transformer
Transformer常见问题与回答总结01 Transformer Encoder 有什么子层?(超参数一面)Encoder由六个相同层构成,每层都有两个子层:多头自注意力层和全连接的前馈神经网络层(Linear+relu+dropout+Linear)。使用残差连接和层归一化连接两个子层。02 写一下self-attention的公式(超参数一面)03 Transformer的优缺点优点:可并行独立于卷积和循环,完全依赖于attention处理全局依赖,解决长距离依赖问题性能强缺点:长度固定局部信息的获取不如RNN和CNN强:Transformer关注的全局关系,而RNN在计算过程中更关注局部,对距离更加敏感。04 Encoder端和Decoder端是如何进行交互的?Cross Self-attention,Decoder提供,Encoder提供。05 Transformer中为什么需要线性变换?分别是输入向量经过不同的线性变换矩阵计算得到。可以从正反两面分析线性变换的必要性:线性变换的好处:在部分,线性变换矩阵将KQ投影到了不同的空间,增加了表达能力(这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题),这样计算得到的注意力矩阵的泛化能力更高。不用线性变换的坏处:在部分,如果不做线性变换,即X=Q=K,则会导致注意力矩阵是对称的,即,这样的效果明显是差的,比如“我是一个女孩”这句话,女孩对修饰我的重要性应该要高于我修饰女孩的重要性。06 Transformer attention的注意力矩阵的计算为什么用乘法而不是加法?为了计算更快。加法形式是先加、后tanh、再和V矩阵相乘,相当于一个完整的隐层。在计算复杂度上,乘法和加法理论上的复杂度相似,但是在实践中,乘法可以利用高度优化的矩阵乘法代码(有成熟的加速实现)使得点乘速度更快,空间利用率更高。(论文P4有解释)在较小的时候,加法和乘法形式效果相近。但是随着增大,加法开始显著优于乘法。作者认为,增大导致乘法性能不佳的原因,是极大的点乘值将整个softmax推向梯度平缓区,使得收敛困难。于是选择scale,除。07 Transformer attention计算为什么要在softmax这一步之前除以(7 封私信 / 80 条消息) transformer中的attention为什么scaled? - 知乎 (zhihu.com)取决于Softmax的性质,如果softmax内计算的数过大或者过小,可能导致Softmax后的结果为0,导致梯度消失为什么是。假设Q、K中元素的值分布在[0,1],softmax的计算中,分母涉及了一次对所有位置的求和,整体的分布就会扩大到[0,]。08 Transformer attention计算注意力矩阵的时候如何对padding做mask操作的?padding位置置为-1000,再对注意力矩阵进行相加。09 Transformer的残差结构及意义同resnet,解决梯度消失,防止过拟合10 Transformer为什么使用LN而不是BN?LN是针对每个样本序列进行归一化,没有样本间依赖,对一个序列的不同特征维度进行归一化。CV使用BN是因为认为通道维度的信息对cv方面有重要意义,如果对通道维度也归一化会造成不同通道信息一定的损失。NLP认为句子长短不一,且各batch之间的信息没有什么关系,因此只考虑句子内信息的归一化。11 Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?/ 为什么decoder自注意力需要进行sequence mask?让输入序列只看到过去的信息,而看不到未来的信息。12 Transformer的并行化体现在哪里,Decoder可以做并行化嘛?Encoder的模块是串行的,但模块内的子模块多头注意力和前馈网络内部都是并行的,因为单词之间没有依赖关系。Decode引入sequence mask就是为了并行化训练,推理过程不并行13 Transformer计算量最大的部分是哪里(超参数二面、海信一面)多头注意力部分计算量最大。假设完成一次推理,(batch-size)=1, (seq-length,序列最大长度)=256, (hidden-size)=768, attention-head=12 经过一个Transformer的多头注意力block,所需要的矩阵乘法的数量:总计:12 * (256 * 64 * 256 + 256 * 256 * 64)= 1亿次乘法除了矩阵乘法的运算外,还有除和函数的运算:除:计算量为=256*256函数:计算量为两个矩阵相乘的计算量: 假设矩阵A尺寸为(m,n),矩阵B尺寸为(n,k),则矩阵M和矩阵N相乘的计算量为m*n*k。权重矩阵K,Q,V的尺寸: 不考虑多头注意力的情况下均为(s,h);多头注意力时,默认12个头,故单头的尺寸为(s,1/12h)。14 Transformer、LSTM和单纯的前馈神经网络比,有哪些提升?LSTM相比于单纯的前馈神经网络,首先具有理解文本的语序关系的能力(RNN)。除此之外,又解决了RNN在处理长序列时发生的梯度消失和梯度爆炸的问题。Transformer进一步解决了RNN、LSTM等模型的长距离依赖问题,能够理解更长的上下文语义。可以并行化,所要的训练时间更短。15 Transformer处理篇章级的长文本的变体Transformer变体层出不穷,它们都长什么样? (qq.com)16 有哪些处理超长文本的方法(超参数二面)HIERARCHICAL基于BERT的超长文本分类模型_valleria的博客-CSDN博客_长文本分类基本思想:对数据进行有重叠的分割,这样分割之后的每句句子直接仍保留了一定的关联信息。模型由两部分构成,第一部分是fine-tune后的BERT,第二部分是由LSTM+FC层组成的混合模型。即,BERT只用来提取出句子的表示,而真正在做分类的是LSTM+FC部分。具体流程:首先将长句子分割为多个小句子,如长200,重叠长度为50.将分割后的数据集传入BERT,分别取每个句子的[CLS]表示句子的embedding,将来自相同长句子的embedding拼接,作为长句子的向量表示。最后,将长句子的向量表示传入LSTM+FC部分进行分类。除此之外,第二部分还可以用Transformer。由于都是从notion笔记里面复制过来的,所以可能存在公式缺失之类的问题,欢迎指出~由于是个人笔记,可能有错误之处,欢迎指正~
点赞 29
评论 3
全部评论
推荐
最新
楼层
还没有回复哦~
相关推荐
03-19 17:00
北京航空航天大学 深度学习
简历求拷打,使劲说
去年因为忙实习和学校的事情没咋投,今年春招得好好冲刺了,准备投递元戎的这个感知算法工程师,但是我没有什么竞赛奖励也没有paper,不知道有没有希望,这个是岗位JD:职位描述:参与行泊量产研发,负责计算机视觉关键算法研发,包括不限于BEV感知,目标检测/分割/分类,车道线识别,场景语义理解,Occupancy等算法研发和优化。在AI领域前沿展开创新性的研究,通过数据闭环持续迭代端到端模型能力。职位要求:熟悉计算机视觉、机器学习、深度学习相关算法。具备扎实的C++/python编程能力;掌握pytorch、tensorflow、caffe等至少一种主流的深度学习框架。具有自动驾驶端到端和大视觉语言...
智能驾驶:
感知组在职来说一句:你的车道线检测和BEV经验挺对口的,现在团队一直在扩招,项目需求多,我可以直接内推
投递元戎启行等公司10个岗位 >
点赞
评论
收藏
分享
03-20 16:03
已编辑
深圳中学 销售
美的大客户经理暑期实习面经
时间线:3.11官网投递——3.11筛选通过——3.14AI面试——3.16AI面试通过——3.19邀约面试——3.20面试AI面试内容一共8道题,前4题是根据简历中的项目和实习经历进行提问,回答完一个问题后会根据前一个问题进行追问。5和6两个问题是英文题,看图说话。第7个问题是数字推理,单题没有时间限制,有总时间限制。另一个是性格测评,性格测评就是选其中最符合和最不符合的。大家可以提前准备稿子,然后再录制,不难但是比较费时间。(不知道是不是BUG,有一道题我还没开始点录制,就计时了?后面我刚想回答问题录制的时候系统显示时间到了给我跳过去了???!!!)AI面试通过后,3.19发邮件的时候可以...
查看5道真题和解析
非技术面试记录
点赞
评论
收藏
分享
02-21 15:44
重庆大学 Java
投实习没收到过面试,请问怎么改一下好
#实习# #研究生就业# 心态很炸,准备了很久,投了腾讯实习基地提前批和字节都没有收到过面试邀请,我是该改改简历上的项目继续冲这俩还是换投中小厂呢。。
数开小菜鸡:
双9✌🏻乱杀啊,学历干掉95+%以上的人了
投递字节跳动等公司10个岗位
点赞
评论
收藏
分享
02-09 15:05
已编辑
广西工商职业技术学院 行政专员/助理
求一份工作😿
剑桥断刀:
找啥工作,牛客找个比如大厂软开或者随便啥的高薪牛马,大把没碰过妹子的技术仔,狠狠拿捏爆金币
点赞
评论
收藏
分享
不愿透露姓名的神秘牛友
03-19 11:47
在牛客写的帖被mentor发现了
我没想到这个事还能有后续……我也没想到这个帖子在牛客热榜上挂了好几天……我也没想到这个帖子会被人搬运到xhs……我也没想到我都匿名了,还是被mentor发现了……她给我发微信:没想到你还挺有文采哈哈真的社死🥲这个故事就到这里吧,感谢大家的关注,以后应该也没有后续了(如果有的话我会第一时间告诉大家)话说在牛客发匿名帖子为啥不能匿名回评论啊!
恋爱不是温馨的请客吃饭:
牛客开屏广告都是
牛友故事会
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
美团后端一面凉经
1.7W
2
...
我时常消极但又觉得生活很美好
1.4W
3
...
一紧张脑子就一片空白一片混乱,感觉自己好没用(深夜emo版)
1.1W
4
...
26届大三暑期实习美团后端开发OC!
6148
5
...
凡王之血,必以剑终
5876
6
...
我偏要在一手烂牌里大将一军
5422
7
...
10天速通腾讯音乐OC!
4936
8
...
0实习两周速通腾讯暑期
4936
9
...
我在云智的实习经历
4828
10
...
我放弃了暑期实习
4641
创作者周榜
更多
正在热议
更多
#
腾讯音乐求职进展汇总
#
65404次浏览
361人参与
#
腾讯云智研发工作体验
#
15023次浏览
121人参与
#
招行数字金融训练营
#
52047次浏览
241人参与
#
牛友故事会
#
355376次浏览
9118人参与
#
如何看待应届生身份?
#
8714次浏览
137人参与
#
面试之前应该如何准备?
#
4733次浏览
132人参与
#
总结:哪家公司面试体验感最好
#
39975次浏览
286人参与
#
烟草笔面经互助
#
12567次浏览
170人参与
#
通信和硬件还有转码的必要吗
#
47574次浏览
490人参与
#
投递几十家公司,到现在0offer,大家都一样吗
#
178335次浏览
1281人参与
#
双非本科的出路是什么?
#
110663次浏览
1072人参与
#
总结:offer选择,我是怎么选的
#
101222次浏览
728人参与
#
工作一周年分享
#
12821次浏览
94人参与
#
0offer互助地
#
299983次浏览
2475人参与
#
选了这个offer,你有没有后悔?
#
498513次浏览
3592人参与
#
今年秋招哪家公司给的薪资最良心?
#
188629次浏览
1107人参与
#
lastday知无不言
#
42475次浏览
400人参与
#
你最满意的offer薪资是哪家公司?
#
14153次浏览
115人参与
#
假如你的老板掉河里,你的工作能为他做什么
#
24350次浏览
358人参与
#
工作中,努力重要还是选择重要?
#
87930次浏览
1188人参与
#
京东方求职进展汇总
#
56518次浏览
384人参与
牛客网
牛客企业服务