论文笔记 Synthesizer

论文题目:Synthesizer: Rethinking Self-Attention in Transformer Models

动机:
Transformer模型的成功很大程度上归因于self-attention机制,由于它使用key-query的点积来表示token之间的相关性。但是self-attention中的点乘真的有那么重要吗?可不可以采取其它方式来代替它?作者针对这个疑问实现了若干种Synthesizer Attention来验证其重要性。

全部评论

相关推荐

炫哥_:哥们项目描述里面vector和mysql之类的都要写吗,直接开头技术栈巴拉巴拉就行了,完全不是技术点啊
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务