learning rate 调整策略
lr含义
参数更新时乘的学习率(步长)
特点
lr大,学习速度快,一般在刚开始训练时使用,易震荡和损失函数值爆炸
lr小,学习速度慢,一般在训练中后期使用,易过拟合和收敛速度慢
一般设置
- 刚开始训练时:学习率以 0.01 ~ 0.001 为宜
- 一定轮数过后:逐渐减缓
- 接近训练结束:学习速率的衰减应该在100倍以上
- 如果是迁移学习,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4) 在新数据上进行微调
调整策略
- 指数型衰减
- 阶梯式衰减
- 分段常数下降
- 多项式衰减
- cosine衰减
- cosine_decay_restarts:lr先从较大值以cosine形式衰减,然后restar到较大lr值,有利于找到更优的最小值

