2021-06-09 16:48 已编辑上海电力大学 Java

关注

Deep Learning Note2

logistic Regression（逻辑回归）

二元分类用0，1表示识别对象是否为目标对象，因此预测值取值范围为[0 ,1]

因此使用sigmoid函数转变线性预测结果
$ $z = w*x+b$ $sigmoid(z) = \frac{1}{1+e^{-z}}$ $

当z越大时，sigmoid的值越接近1；当z越小时，sigmoid的值越接近0

sigmoid函数的导数和自身有关.令 $sigmoid(x)=σ(x)$
$ $d(σ(x))=σ(x)*(1-σ(x))$ $

梯度最大的时候时，z=0时：
$ $d(σ(z=0))=0.25$ $

注意sigmoid函数只是一个约束数值范围的函数

Loss function（损失函数）

$L(y_{pre},y_{act})=-({y_{act}*logy_{pre}}+(1-y_{act})*log(1-y_{pre}))$

当实际值等于 1 时：

$L=-logy_{pre}$

如果预测值越接近1，损失值L会越接近0 ，表示预测效果越好；如果预测值越接近0，损失值L会越接近无穷大，表示预测效果越差；

当实际值等于 0 时：

$L=-log(1-y_{pre})$

如果预测值越接近0，损失值L会越接近0，表示预测效果越好；如果预测值越接近1，损失值L会越接近无穷大，表示预测效果越差

$J(w,b)=-\frac{1}{m}*({y_{act}^{(i)}*logy_{pre}^{(i)}}+(1-y_{act}^{(i)})*log(1-y_{pre}^{(i)}))$

我们目的是求出损失值最小的w，b的值，因此要明确w,b是要不断更新的变量

Gradient Descent（梯度下降）

首先明确

$x_n=a_{n-1}$ ， $z_n=w_n*x_n+b_n$ 即为 $z_n=w_n*a_{n-1}+b_n$

因此：
$ $L=-(y*loga+(1-y)*log(1-a))$ $求$ da_n $da_n=\frac{∂L}{∂a_n} = -\frac{y}{a_n}+\frac{1-y}{1-a_n}$ $求$ dz_n $dz_n=\frac{∂L}{∂z_n}=\frac{∂L}{∂a_n}*\frac{∂a_n}{∂z_n}=da_n*a_n*(1-a_n)$ $

$dz_n=-y+a_ny+a_n-a_ny=a_n-y$

求 $dw_n$

$dw_n=\frac{∂L}{∂w_n}=\frac{∂L}{∂a_n}*\frac{∂a_n}{∂z_n}*\frac{∂z_n}{∂w_n}=dz_n*a_{n-1}$

同理,以此类推：

求 $da_{n-1}$
$ $da_{n-1}=\frac{∂L}{∂a_{n-1}} = \frac{∂L}{∂a_n}*\frac{∂a_n}{∂z_n}*\frac{∂z_n}{∂a_{n-1}}=dz_n*w_n$ $

求 $dz_{n-1}$
$ $dz_{n-1}=\frac{∂L}{∂z_{n-1}}=\frac{∂L}{∂a_n}*\frac{∂a_n}{∂z_n}*\frac{∂z_n}{∂a_{n-1}}*\frac{∂a_{n-1}}{∂z_{n-1}}$ $

$dz_{n-1}=da_{n-1}*a_{n-1}*(1-a_{n-1})$

求 $dw_{n-1}$

$dw_{n-1}=\frac{∂L}{∂w_{n-1}}=\frac{∂L}{∂a_n}*\frac{∂a_n}{∂z_n}*\frac{∂z_n}{∂a_{n-1}}*\frac{∂a_{n-1}}{∂z_{n-1}}*\frac{∂z_{n-1}}{∂w_{n-1}}=$ $dw_{n-1}=dz_{n-1}*a_{n-2}$

归纳：
$ $da_{n-1}=dz_n*w_n$ $dz_n=da_n*a_n*(1-a_n)\tag{这里是对sigmoid函数的求导}$ $dw_n=dz_n*a_{n-1}\tag{$ a_0=x $,即为原始数据}$ $db_n=dz_n$ $
因此每次loop需要缓存z

m个样本的梯度下降

向量化的梯度计算要注意维度的变换
$ $dw = \frac{1}{m}X*dZ^T$ $

$db = \frac{1}{m}sum(dZ)$

激活函数的选择

$sigmoid(z) = \frac{1}{1+e^{-z}}$ $a'=a(1-a)$

$ $tanh(z) = \frac{e^z-e^{-z}}{e^z+e^{-z}}$ $a'=1-a^2$ $

ReLU（修正线性单元）： $a = max⁡(0,z)$

Leaky ReLU： $a = max( 0.01z,z)$

比较：

tanh函数在隐藏层表现要好于sigmoid函数因为tanh取值范围为[ −1 , +1 ]，输出分布在0值的附近，均值为0，从隐藏层到输出层数据起到了归一化（均值为0）的效果。
输出层：对于二分类任务的输出取值为{ 0 , 1 }，故一般会选择sigmoid函数

随机初始化

首先要明确每一层w,b的维度

W = np.random.rand((n,m))* 0.01 m为上一层神经节点个数，n为当前层的神经节点个数
b = np.zero((n,1))   n为当前隐藏层的神经节点个数

$W_l$ 维度为（ $n_{l}$ , $n_{l-1}$ ）,输入值 $a_{l-1}$ 维度为 $n_{l-1}$ ,
$ $W_l*a_{l-1} = (n_l,n_{l-1})*(n_{l-1},x)=(n_l,x)\tag{x为样本个数}$ $

全部评论

推荐最新楼层

04-01 12:28

武汉大学移动产品经理

Claude Code 源码泄露事件始末：51万行代码是如何"被开源"的？

2026年3月31日凌晨，Anthropic 旗下 AI 编程工具 Claude Code 的完整源码通过 npm 包意外泄露。51.2 万行 TypeScript 代码在数小时内被全球开发者镜像、分析、甚至用 Rust 重写。这是 Anthropic 一周内的第二次泄露事故，也可能是 AI 行业迄今最大规模的非故意代码曝光事件。  一、为什么会泄露？ 1.1 直接原因：一个被遗忘的 source map 文件 2026年3月31日，Anthropic 将 @anthropic-ai/claude-code 的 2.1.88 版本发布到 npm 公共仓库。问题在于——这个包里附带了一个 59....

Claude Code泄...

点赞评论收藏

03-30 22:41

Blessed John XXIII National Seminary (Weston) Java

90后大龄程序员失业4个月，终于上岸了

嘿，兄弟们好，昨天下午，我从新公司大楼签完字出来，阳光晃得我有点睁不开眼。我坐在路边花坛上，默默点了一根烟，坐了很久。整整 4 个月，120 天。作为一个 90 后、没赶上名校快车、又刚好撞上 30 多岁尴尬年纪的 Java 佬，这 120 天我经历的不仅仅是积蓄缩水的焦虑，更多的是一种职业信仰的崩塌。今天给大家聊聊这 4 个月我到底是怎么熬过来的，以及现在的外面市场到底变成了什么样。那些失眠的夜：从自信到自我怀疑刚失业那会儿，我心里其实挺稳的。干了 10 年 Java，在行业里扛过大流量，找工作还不是简简单单。但现实很快把我教训了。第一个月，我还在挑拣薪资；第二个月，开始觉得不对劲，投出去的...

大家都开始春招面试了吗

点赞评论收藏

03-19 17:53

武汉大学算法工程师

唉每每看到这张截图总是意难平

为什么面了八次次次都是一面挂，次次都不说原因，问了面试官就是插科打诨，为什么别人一面就过呢，真的没有缘分呀。不考编程就是脑筋急转弯的概率题，考了编程a了也不过没a也不过 总之就是不过，没一次二面，深深的怨念。觉得我不够资格就直接拉黑简历呗，每次都捞起来重新拷打一顿什么意思呢。

暴杀流调参工作者：春招又试了一些岗位，现在投递很有意思，不仅要精心准备简历，投递官网还得把自己写的东西一条一条复制上去，阿里更是各个bu都有自己的官网，重复操作无数次，投完简历卡完学历了，又该写性格测评、能力测评，写完了又要写专业笔试，最近还有些公司搞了AI辅助编程笔试，有些还有AI面试，对着机器人话也听不明白录屏硬说，终于到了人工面试又要一二三四面，小组成员面主管面部门主管面hr面，次次都没出错机会，稍有不慎就是挂。卡学历卡项目卡论文卡实习什么都卡，没有不卡的😂

点赞评论收藏