2023-06-18 10:42 知乎_产品

关注

Day58：反向传播与优化算法

alt

在上一节中，我们介绍了全连接神经网络，也完成了搭建任务。但是这样的矩阵参数并不能达到我们的要求，因此这一节中我们就讲一讲优化算法。在深度神经网络中，反向传播算法是一种用于优化网络参数的关键算法。它通过计算损失函数对每个参数的梯度，然后使用梯度下降或其他优化算法来更新参数，以最小化损失函数。

1. 数学推导

反向传播算法的数学推导涉及到链式法则和梯度计算。下面是反向传播算法的算法步骤：

步骤1：前向传播计算每一层的输出。
步骤2：计算输出层的损失函数关于输出的梯度。
步骤3：使用链式法则逐层计算每个参数的梯度。
步骤4：使用梯度下降或其他优化算法更新参数。

详细的推导过程如下：

假设我们有一个具有L层的神经网络，每一层的输出为 $a^{[l]}$ ，参数为 $W^{[l]}$ 和 $b^{[l]}$ ，损失函数为 $L$ 。

在前向传播中，我们根据当前的参数计算每一层的输出： $Z^{[l]} = W^{[l]} \cdot A^{[l-1]} + b^{[l]}A^{[l]} = g^{[l]}(Z^{[l]})$

其中， $g^{[l]} ()$ 表示第l层的激活函数。

在反向传播中，我们首先计算输出层的梯度： $dZ^{[L]} = \frac{\partial L}{\partial A^{[L]}} \cdot g'^{[L]}(Z^{[L]})$

然后，使用链式法则逐层计算每个参数的梯度： $dW^{[l]} = \frac{1}{m} dZ^{[l]} \cdot A^{[l-1]T}db^{[l]} = \frac{1}{m} \sum_{i=1}^{m} dZ^{[l]}dA^{[l-1]} = W^{[l]T} \cdot dZ^{[l]}$

其中，m表示训练样本的数量。

最后，使用梯度下降或其他优化算法更新参数：

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大模型-AI小册文章被收录于专栏

1. AI爱好者，爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生，给实验室搬砖的uu，强烈建议你花时间学完这个，后续搬砖比较猛 4. 任何对编程感兴趣的，且愿意掌握一门技能的人

全部评论

推荐最新楼层

07-04 14:18

广东工业大学 Java

实习期间女mt这么说我该怎么回...

zhiyog：哈哈哈哈哈哈哈哈哈哈哈哈哈

点赞评论收藏

07-02 13:52

武汉大学 golang

露头就秒

骗你的不露头也秒

牛客87776816...：😃

查看图片

点赞评论收藏

06-25 09:33

厦门大学 Java

27届求拷打简历

是不是简历的问题啊，找个日常实习，小米，小红书，快手，米哈游秒挂，其他一直在泡着，投了一个多星期还是0面试

程序员饺子：现在日常估计没啥hc了，等到八月多估计就慢慢有了。双九✌🏻不用焦虑的

投递快手等公司8个岗位

点赞评论收藏

05-14 16:35

武汉纺织大学嵌入式软件开发

连牛客官方都在笑我，呜呜呜

晗江雪：

其实我只是觉得你们导员说的很好笑

点赞评论收藏

07-03 10:57

门头沟学院 Java

诶？骗人的吧？我不是笨蛋来着吗？

挑战最晚暑期实习offerTimelin：6.23 一面 1h简历深挖➕二分查找数组peak➕闲聊6.24 通知一面过了，约二面6.25 二面 1h简历深挖➕手绘Transformer结构lc编辑距离➕情景题（读表格找最大行）6.26 下午不同hr打电话通知二面过了，约hr面6.27 hr面 30mins简历深挖，之前实习做了什么，难度在哪里比赛含金量和工作（压力面，会一直追问）告知2-3个工作日给结果6.30 周一火速追问hr进展，整个下午没有回复，以为已经挂了，结果是hr离职了7.1 千辛万苦找到了另一个hr的联系方式主动联系，得知hr面的面试官请假了7.2 得知面试都通过了，进行offe...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 现代汽车前瞻技术研发急速编程挑战赛 #