首页 > 试题广场 >

在Transformer的训练中,以下哪些技术用于稳定训练或

[不定项选择题]
在Transformer的训练中,以下哪些技术用于稳定训练或加速收敛?
  • 学习率预热
  • 梯度裁剪
  • 残差连接
  • 层归一化

这道题你会答吗?花几分钟告诉大家答案吧!