Deep Learning Note2
logistic Regression(逻辑回归)
二元分类用0,1表示识别对象是否为目标对象,因此预测值取值范围为[0 ,1]
因此使用sigmoid函数转变线性预测结果
$$
当z越大时,sigmoid的值越接近1;当z越小时,sigmoid的值越接近0
sigmoid函数的导数和自身有关.令
$$
梯度最大的时候时,z=0时:
$$
注意sigmoid函数只是一个约束数值范围的函数
Loss function(损失函数)
当实际值等于 1 时:
如果预测值越接近1,损失值L会越接近0 ,表示预测效果越好;如果预测值越接近0, 损失值L会越接近无穷大 ,表示预测效果越差;
当实际值等于 0 时:
如果预测值越接近0, 损失值L会越接近0,表示预测效果越好;如果预测值越接近1, 损失值L会越接近无穷大,表示预测效果越差
我们目的是求出损失值最小的w,b的值,因此要明确w,b是要不断更新的变量
Gradient Descent(梯度下降)
首先明确
,
即为
因此:
$da_n
dz_n
$
求
同理,以此类推:
求
$$
求
$$
求
归纳:
$a_0=x
$
因此每次loop需要缓存z
m个样本的梯度下降
向量化的梯度计算要注意维度的变换
$$
激活函数的选择
$$
ReLU(修正线性单元):
Leaky ReLU:
比较:
- tanh函数在隐藏层表现要好于sigmoid函数 因为tanh取值范围为[ −1 , +1 ],输出分布在0值的附近,均值为0,从隐藏层到输出层数据起到了归一化(均值为0)的效果。
- 输出层:对于二分类任务的输出取值为{ 0 , 1 },故一般会选择sigmoid函数
随机初始化
首先要明确每一层w,b的维度
W = np.random.rand((n,m))* 0.01 m为上一层神经节点个数,n为当前层的神经节点个数 b = np.zero((n,1)) n为当前隐藏层的神经节点个数
维度为(
,
),输入值
维度为
,
$$
