你好,Transformer的并行性这里是不是有点问题呢? Transformer的一个核心特性:输入序列中每个位置的单词都有自己独特的路径流经编码器。在自注意力层中,这些路径之间存在依赖关系。而前馈层没有这些依赖关系。因此在前馈层时可以并行执行各种路径。
点赞 2

相关推荐

头像
不愿透露姓名的神秘牛友
03-13 10:56
点赞 评论 收藏
转发
牛客网
牛客企业服务