大佬们， -tansformer中相似度和注意力有什么区别吗？感觉本质上都是一样_牛客网

2023-08-05 22:14 浙江大学算法工程师

关注

大佬们，
-tansformer中相似度和注意力有什么区别吗？感觉本质上都是一样的。
-“the tiger ate the sheep because it was hungry.” transformer的注意力机制是怎么知道it指的是tiger而不是sheep？

#阿里#字节跳动 #transfomer#算法

全部评论

推荐最新楼层

蚌埠坦克学院算法工程师

直观理解it可以指tiger或sheep，人依靠语意可以理解到应该指的是tiger，transformer多头注意力会出现有的头it会attend tiger有的attend sheep，这是为什么要用多头，全连接层和多头何冰后乘的输出矩阵会有筛选效果。最终到底指什么还是根据你的语料库或者训练任务来的，仅仅只给出这一句话理论上学不出

6 回复分享

发布于 2023-08-07 11:48 新加坡

牛客586382495号

蚌埠坦克学院 C++

额，我谈一下我的理解哈，不一定对，相似度计算就是做乘法，所谓注意力机制是通过做乘法来实现的，具体那个变换形式得到qkv的过程就很灵活了。然后这个句子的话，语言模型是用来实现给不同token编码的，理论上来说是关系越接近他们的embedding计算相似度越高或者所谓注意力会越集中，通过大量文本的训练，会发现在这个某些固定长度的句子下，前边的主语会和随之而来的这种代词产生比较多的注意力，至于那个训练方式最基本的就是bert里的那两种，训练后再去预测的话，你提出的it这个词就会被拿过去计算相似度，结果会在tiger上更高，大概这么个意思吧

6 回复分享

发布于 2023-08-06 00:36 山西

牛客981931804号

门头沟学院算法工程师

没区别，注意力就是相似度

2 回复分享

发布于 2023-08-07 15:46 上海

牛客351594340号

University of Pennsylvania Java

很简单注意力结果是由于KQV生成三个矩阵的参数权重决定的，参数权重是训练出来的，训练过程中发现it跟tiger相关性高的时候表现好，跟sheep相关性高的时候表现不好，学习出来的。再说相似度和注意力，相似度指的是KQ之间的相似度，但是注意力还需要考虑V，一般的attention是做点乘求出来kq相似度然后用softmax转成V的权重。当然这里的相似度不一定用点乘，可以用其他的核函数，具体可以看linear attention.

点赞回复分享

发布于 2023-09-30 01:49 美国

注意力是相似度加了softmax之后的结果，注意力可以加mask只比较你想要关注的区域

点赞回复分享

发布于 2023-08-30 12:12 北京

门头沟学院算法工程师

实验科学没有为什么🐶

点赞回复分享

发布于 2023-08-06 00:25 北京

01-20 10:48

蚌埠坦克学院嵌入式软件开发

在马路上面试的经历

那天我出门在外，刚结束一段外地的事情，匆忙赶去面试。到达地点时发现时间紧迫，周围又没有合适的咖啡馆或休息处，只能站在马路边等候。面试官打电话确认后，我就在路边站着，周围是来来往往的车辆和行人。风一阵一阵吹过，手机信号也忽好忽坏。尽管环境嘈杂，但我还是尽量调整状态：深呼吸、整理思路、把自己当成正常的面试场景。电话那头的面试官声音很专业，我也尽量用清晰的语言回答问题。中间有几次被路过的车声打断，但我都稳住情绪，继续把问题讲完。那一刻我才意识到，真正的面试不是看你在哪，而是看你能不能在任何环境下保持冷静、把事情做完。面试结束后，我站在路边松了一口气，也更明白：出门在外，真正能靠的，是自己的准备和心态...

你都在哪些场所面过试？

点赞评论收藏

分享

01-22 17:50

曲阜师范大学产品经理

实习生怎么快速融入团队

实习生怎么快速融入团队，主要概括为两点：第一是懂业务，第二是让自己的言行更像团队成员。1.懂业务懂业务这件事，最重要的不是搞懂某个具体的事情怎么做，而是要把整体的业务方向给搞清楚。如果公司有一定规模，通常都会有年度或季度规划类文档，这些文档能帮你理解业务的大方向，而你每天做的具体事情，本质上都是在为这个方向服务。第二是尽早和mentor进行一次一对一沟通，了解公司的整体规划、他负责的事情、你负责的边界，以及你日常需要重点对接哪些人、他们的沟通风格是什么。第三是我个人非常推荐的一点，就是每天记录自己做了什么、学到了什么，或者犯了什么错误，这不仅能帮助你快速成长，后续如果实习转正，甚至还能作为一个...

实习教会我的事

点赞评论收藏

分享

01-06 09:44

深圳职业技术学院护士

双非老鼠的悲惨秋招

老粉都知道小猪猪我很久没更新了，因为秋招非常非常不顺利，emo了三个月了，接下来说一下我的情况吧本人是双非本 专业是完全不着计算机边的非科班，比较有优势的是有两段大厂实习，美团和字节。秋招面了50+场泡池子泡死的：滴滴 快手 去哪儿 小鹏汽车 不知名的一两个小厂其中字节13场 两次3面挂 两次2面挂 一次一面挂其中有2场面试题没写出来，其他的都是全a，但该挂还是挂，第三次三面才面进去字节，秋招加暑期总共面了22次字节，在字节的面评可以出成书了快手面了8场，2次实习的，通过了但没去，一次2面挂 最后一次到录用评估 至今无消息滴滴三面完 没几天挂了 所有技术面找不出2个问题是我回答不上来的，三面还来说我去过字节，应该不会考虑滴滴吧，直接给我干傻了去哪儿一天速通 至今无消息小鹏汽车hr 至今无消息美团2面挂 然后不捞我了，三个志愿全部结束，估计被卡学历了虾皮二面挂 这个是我菜，面试官太牛逼了拼多多二面挂 3道题也全写了 也没问题是回答不出来的 泡一周后挂腾讯面了5次 一次2面挂 三次一面挂，我宣布腾讯是世界上最难进的互联网公司然后还有一些零零散散的中小厂，但是数量比较少，约面大多数都是大厂。整体的战况非常惨烈，面试机会少，就算面过了也需要和各路神仙横向对比，很多次我都是那个被比下去的人，不过这也正常，毕竟谁会放着一个985的硕士不招，反而去招一个双非读化学的小子感觉现在互联网对学历的要求越来越高了，不仅仅要985还要硕士了，双非几乎没啥生存空间了，我感觉未来几年双非想要进大厂开发的难度应该直线上升了，唯一的打法还是从大二刷实习，然后苟个转正，不然要是去秋招大概率是炮灰。而且就我面字节这么多次，已经开始问很多ai的东西了，你一破本科生要是没实习没科研懂什么ai啊，纯纯白给了

不知名牛友_：爸爸

秋招你被哪家公司挂了?

点赞评论收藏

分享

01-12 20:04

天津师范大学 Web前端

大四想找份前端开发实习

请问简历怎么改啊，投了好多但是没有回应，感觉是简历出问题了

听劝，我这个简历该怎么改...

点赞评论收藏

分享

01-22 14:26

卓驭科技_HR(准入职员工)

卓驭（大疆车载）内推

自我介绍随后对项目经历的真实性进行了核实，包括项目背景、团队构成及个人分工；面试官询问是否亲自编写过IIC和SPI的底层驱动代码（回答为是）；对比IIC与SPI通信的区别（主要涉及速率方面IIC较低而SPI较高、IIC为半双工而SPI为全双工、通信结构上IIC支持多主多从而SPI一般为单主多从点对点模式）；介绍BootLoader进行固件升级的整体流程；解释static关键字的用途（可用于修饰变量和函数）；阐述函数指针的概念及其实际应用场景（例如在BootLoader中实现向应用程序的跳转）；说明结构体变量的几种初始化方式（包括定义后逐成员赋值、定义时按声明顺序初始化、以及定义时通过指定成员名...

点赞评论收藏

分享

评论

15

39

招聘动态

牛客网申助</br>备战春招大杀器

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 哪些公司开春招了？ #

9621次浏览 115人参与

# 工作压力大怎么缓解 #

137367次浏览 1228人参与

# 上班以后，你还有哪些坚持的爱好？ #

6818次浏览 168人参与

# 找工作以来，你最看不惯__ #

13377次浏览 289人参与

# 你都在哪些场所面过试？ #

18953次浏览 218人参与

# AI coding的好用工具分享 #

17339次浏览 359人参与

# 互联网公司评价 #

478236次浏览 4053人参与

# 实习怎么做才有更好的产出 #

11441次浏览 209人参与

# 实习教会我的事 #

51490次浏览 399人参与

# 你最近因为什么迷茫？ #

33049次浏览 471人参与

# 实习离职怎么跟领导说 #

75773次浏览 420人参与

# 实习生工资多少才算正常？ #

12133次浏览 190人参与

# 四大天坑是哪四家？ #

100143次浏览 234人参与

# 拼多多工作体验 #

44248次浏览 283人参与

# 机械制造面试记录 #

307821次浏览 3152人参与

# 你给AI提过哪些离谱的需求？ #

5673次浏览 161人参与

# 领导做过最不靠谱的事 #

12559次浏览 207人参与

# 工作一周年分享 #

49919次浏览 256人参与

# 为了实习逃课值吗？ #

61946次浏览 517人参与

# 聊聊你的被动加班经历 #

2079次浏览 45人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务