因为transformer输入的序列长度不固定,bn是算每一个特征的均值和方差,序列长度不一样,计算的时候有的地方有值有的地方没有,不好计算。ln是对每一个样本单独计算,即使每个样本长度不一样也不影响计算
17 4

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务