非要找个理由的话:decoder-only采用的是因果注意力机制,causal attention mask保证了attention score一定是满秩的,而bi-direction attention mask,也就是encoder里所用的不能保证满秩。显而易见,参数矩阵的秩和它的学习能力是相关的。所以decoder-only架构潜力更大,因此也需要更多的数据才训练,模型做大的时候,它的capability是随着尺寸变大有着一个稳定增长。 实际情况:海量数据+更强的训练工程。
8 2

相关推荐

只有一个苍穹外卖外加正在看黑马点评,可以找小厂实习吗,还有我的简历有什么大问题吗
Java抽象小篮子:感觉有点熟悉,问题1是学历,2是没实习经历,3是专业技能写得太少太少了(怎么写可以看我置顶帖),4是仅这一个项目找实习不够看。拷打完毕,简历怎么写可以看我置顶帖子
点赞 评论 收藏
分享
05-24 14:12
门头沟学院 Java
点赞 评论 收藏
分享
04-27 08:59
常州大学 Java
牛客139242382号:《两门以上汇编语言》
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务