learning rate 调整策略

lr含义

参数更新时乘的学习率(步长)

特点

lr大,学习速度快,一般在刚开始训练时使用,易震荡和损失函数值爆炸
lr小,学习速度慢,一般在训练中后期使用,易过拟合和收敛速度慢

一般设置

  • 刚开始训练时:学习率以 0.01 ~ 0.001 为宜
  • 一定轮数过后:逐渐减缓
  • 接近训练结束:学习速率的衰减应该在100倍以上
  • 如果是迁移学习,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4) 在新数据上进行微调

调整策略

  • 指数型衰减
  • 阶梯式衰减
  • 分段常数下降
  • 多项式衰减
  • cosine衰减
  • cosine_decay_restarts:lr先从较大值以cosine形式衰减,然后restar到较大lr值,有利于找到更优的最小值

链接:https://blog.csdn.net/zongza/article/details/88930693

全部评论

相关推荐

10-22 12:03
山东大学 Java
程序员小白条:26届一般都得有实习,项目可以随便写的,如果不是开源社区的项目,随便包装,技术栈也是一样,所以本质应该找学历厂,多投投央国企和银行,技术要求稍微低一点的,或者国企控股那种,纯互联网一般都得要干活
应届生简历当中,HR最关...
点赞 评论 收藏
分享
陌夏微秋:一线城市25w左右吧,17×15=255
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务