BN的作用 1 )改善流过网络的坡度 2 )允许更大的学习率,大幅提高训练速度: 可以选择比较大的初始学习率来加快训练速度。 以前,需要逐渐调整学习率。 甚至在网络培训减半的时候,我也需要考虑选择多少学习率更低的比例是合适的。 现在,可以采用初期的大学习率。 而且,学习率的衰减速度也变大。 因为这个算法收敛很快。 当然这个算法比以前的收敛速度快,即使你选择了小的学习率。 要说为什么,那是因为它具有快速训练收敛的特性; 3 )减少对初始化的强烈依赖 4 )改进正则化策略:作为正则化的一种形式,稍微减少了对dropout的需求
2

相关推荐

ResourceUtilization:四六级不愧是大学最有用的证之一
点赞 评论 收藏
分享
牛客网
牛客企业服务