第6点就写错了,transformer 训练的时候 decoder端也是并行的,采用teacher forcing的方式,然后有个 shift label,每次只预测当前位置的下个位置,通过mask的方式进行了并行。inference的时候 才是跟传统的seq2seq一样,一个接一个的解码。

相关推荐

2025-12-25 16:26
已编辑
河北科技学院 Java
勇敢的牛油不服输:2800-300那不等于2500一个月吗兄弟们
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务