关注
你好,Transformer的并行性这里是不是有点问题呢?
Transformer的一个核心特性:输入序列中每个位置的单词都有自己独特的路径流经编码器。在自注意力层中,这些路径之间存在依赖关系。而前馈层没有这些依赖关系。因此在前馈层时可以并行执行各种路径。
查看原帖
点赞 2
相关推荐
点赞 评论 收藏
转发
牛客热帖
正在热议
# 牛客帮帮团来啦!有问必答 #
374700次浏览 7529人参与
# 在国企工作的人,躺平了吗? #
71017次浏览 858人参与
# 简历中的项目经历要怎么写 #
377005次浏览 6347人参与
# 应届生初入职场,求建议 #
21596次浏览 534人参与
# 晒一晒我的offer #
2788692次浏览 49648人参与
# 非技术岗薪资爆料 #
6423次浏览 131人参与
# 你更愿意参加线上面试还是线下面试? #
6198次浏览 90人参与
# 华为求职进展汇总 #
437252次浏览 4399人参与
# 租房前辈的忠告 #
20457次浏览 1616人参与
# 第一次面试 #
15167次浏览 235人参与
# 应届生应该先就业还是先择业 #
11819次浏览 113人参与
# 安利/避雷我的岗位 #
121851次浏览 2746人参与
# 机械人怎么评价今年的华为 #
53347次浏览 436人参与
# 谈薪时HR压价该怎么应对 #
32784次浏览 202人参与
# 通信硬件薪资爆料 #
143600次浏览 1057人参与
# 毕业租房也有小确幸 #
19649次浏览 1239人参与
# 除了offer,现在你还缺点啥? #
2470次浏览 50人参与
# 找工作,你会甘心进小厂还是猛冲大厂 #
22565次浏览 216人参与
# 来聊聊机械薪资天花板是哪家 #
20050次浏览 160人参与
# 如何确定求职岗位 #
101898次浏览 2416人参与