很简单 注意力结果是由于KQV生成三个矩阵的参数权重决定的,参数权重是训练出来的,训练过程中发现it跟tiger相关性高的时候表现好,跟sheep相关性高的时候表现不好,学习出来的。 再说相似度和注意力,相似度指的是KQ之间的相似度,但是注意力还需要考虑V,一般的attention是做点乘求出来kq相似度然后用softmax转成V的权重。当然这里的相似度不一定用点乘,可以用其他的核函数,具体可以看linear attention.
点赞 评论

相关推荐

祈求顺利毕业😁:简历很好了,多投吧牛油😂。主要是环境不好,大家也卷
点赞 评论 收藏
转发
牛客网
牛客企业服务