(没准备还是不行啊哈哈哈)一、基础知识梯度 优化器 一阶动量 二阶动量 是啥梯度:梯度的反方向就是参数的更新方向一阶动量:梯度的指数加权平均公式:作用:平滑梯度,减少更新方向的抖动二阶动量:梯度平方的指数加权平均公式: 作用:自适应调整学习率大小adam 总体公式:模型初始化方法有哪些?全零初始化ReLU的激活函数,梯度是0sigmoid的激活函数,每层的神经元的输出相同,梯度相同(不为0),那么更新后的参数也相同,模型学不到任何特征随机初始化 (Random Initialization)目的: 打破对称性,确保不同神经元学习到不同的特征。缺点: 随机数过大或过小都可能导致梯度消失或梯度爆炸...