论文笔记 Synthesizer

论文题目:Synthesizer: Rethinking Self-Attention in Transformer Models

动机:
Transformer模型的成功很大程度上归因于self-attention机制,由于它使用key-query的点积来表示token之间的相关性。但是self-attention中的点乘真的有那么重要吗?可不可以采取其它方式来代替它?作者针对这个疑问实现了若干种Synthesizer Attention来验证其重要性。

全部评论

相关推荐

04-28 10:14
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务