关注
额,我谈一下我的理解哈,不一定对,相似度计算就是做乘法,所谓注意力机制是通过做乘法来实现的,具体那个变换形式得到qkv的过程就很灵活了。然后这个句子的话,语言模型是用来实现给不同token编码的,理论上来说是关系越接近他们的embedding计算相似度越高或者所谓注意力会越集中,通过大量文本的训练,会发现在这个某些固定长度的句子下,前边的主语会和随之而来的这种代词产生比较多的注意力,至于那个训练方式最基本的就是bert里的那两种,训练后再去预测的话,你提出的it这个词就会被拿过去计算相似度,结果会在tiger上更高,大概这么个意思吧
查看原帖
6 3
相关推荐
![](https://static.nowcoder.com/fe/file/oss/icon_job.png)
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客热帖
正在热议
# 牛客帮帮团来啦!有问必答 #
1298458次浏览 18378人参与
# 来聊聊你目前的求职进展 #
226687次浏览 2860人参与
# 极具前瞻性,现代汽车编程题 #
5515次浏览 141人参与
# 和牛牛一起刷题打卡 #
40425次浏览 3250人参与
# 实习好累,可以辞职全力准备秋招吗 #
6838次浏览 157人参与
# 晒一晒我的offer #
3993865次浏览 60155人参与
# 不去互联网可以去金融科技 #
45618次浏览 485人参与
# 参加过提前批的机械人,你们还参加秋招么 #
16111次浏览 378人参与
# 谈薪时HR压价该怎么应对 #
42939次浏览 319人参与
# 机械制造笔面经 #
6658次浏览 215人参与
# 如何确定求职岗位 #
157387次浏览 3002人参与
# 你觉得今年秋招难吗 #
347353次浏览 6127人参与
# 如果可以选,你最想从事什么工作 #
216841次浏览 3351人参与
# 学历对求职的影响 #
170954次浏览 1883人参与
# 滴!实习打卡 #
287663次浏览 4267人参与
# 0offer是寒冬太冷还是我太菜 #
470120次浏览 5229人参与
# 2023届毁约公司名单 #
104484次浏览 463人参与
# 硬件人的简历怎么写 #
84494次浏览 889人参与
# 秋招提前批启动你开冲了吗 #
32487次浏览 806人参与
# 2022届毕业生现状 #
357548次浏览 4772人参与
# 非技术岗薪资爆料 #
50553次浏览 710人参与
# 运营人求职交流聚集地 #
41117次浏览 660人参与