08-24 21:51 已编辑门头沟学院人工智能发布于山东

关注

机器学习入门（一）：神经网络是什么？有哪些？（上）

这一篇会比较长了，我要把东西全讲完，大伙耐心点看，喜欢的点点赞。

这一篇不会太细致，因为东西很多，我会给你讲清楚，但是不会涉及到特定场景怎么用（后面出书了会细致的去讲）

最后啰嗦一下搞算法和大模型的最好都看看，感兴趣的也来看看。

先把所有的神经网络模型过一遍：

有很多名词，然后讲一下每个是拿来干什么的，怎么调试，然后结构是什么。

我前面一直在铺垫，现在差不多是时候讲讲机器学习和深度学习了，

神经网络是什么？

这个有点像仿人类神经元，不过是通过大量数据和标准答案来进行训练获取规则，

其中带有权重比和激活函数，不断迭代的过程。

所以说强化学习是后生仔。

神经网络模型是什么？有哪些？

那么我们知道神经网络是什么了，这个模型就很简单了，

有输入和输出再配个函数，达成某种效果的数学计算框架或者结构。

这个图不错。

从上述图表可以知道神经网络模型有好多种，不用记住这个图，我们知道有这些东西就行了，实际上你在学习这个，只需要知道核心意思就行了就是说这个名词是什么，有什么用，那么大部分的东西都由名词组成，咱们可以学到大部分的东西，剩下的要么是冷门要么是使用少，后面慢慢补上就行。

我们从模型使用场景。任务来细分：

最基础：

FNN/FF：前馈神经网络，1960年代发明（已找到代替品，但未被弃用），有输入层-隐藏层-输出层组成，（等于老祖宗级别）

深度：隐藏层可以有多个，且隐藏层越多，深度越深，

梯度：函数变化最剧烈的方向和速度，它告诉机器学习模型如何降低loss。

感知机：简单的线性模型也是1层的神经元，类似于一元函数之类的，复杂一点点就搞不定了。

MLP（多层感知机）：多层神经元，由输入层、隐藏层、输出层组成，通过激活函数（如 ReLU）引入非线性。

激活函数：

常用的有几种：

1：sigmoid（S函数）：f(x) = 1 / (1 + e^(-x))

一般用于分类问题的输出层，说白了就是表示概率，万一遇到问你激活函数的公式的，自认倒霉吧。

2： Tanh（双曲正切函数）公式：f(x) = (e^x - e^(-x)) / (e^x + e^(-x))

一般就RNN里面用，基本上快弃用了。

3：ReLU（Rectified Linear Unit，修正线性单元）公式：f(x) = max(0, x)

跟高中的max函数一样，就是取最大值，是最常用的之一。

4：扩展

sigmoid的plus版本：softmax：用于多分类输出层

RELU的plus版本：Leaky ReLU：部分条件下解决ReLU的问题：神经元死亡问题（权重不再更新）。

图像任务：

CNN（卷积神经网络）：核心思想是模拟动物视觉系统处理图像。

标准的CNN分为五个部分：（你完全可以在里面加或者删点东西）

1：卷积层（特征提取器，也就是最核心的部分）

由多个滤波器。卷积核构成，下面通称卷积核。

我用3乘以3的图像举例，在图像上面可以滑动，当该x轴滑完时候，向下移动接着滑动。

同时进行点乘求和（点乘求和问问ai吧，做两个题就知道了）生成特征图（字面意思，一张黑白照片有亮有暗的）。

在多种不同的特征图能完整实现原来照片的特征（眼睛啊，纹理之类的）

2：激活层（引入非线性）

内置激活函数，常用：ReLU。

能够解决梯度消失问题。

梯度消失：在反向传播过程中，越靠近输入层（即越深的层）的权重，其梯度值变得越来越小，趋近于零

梯度爆炸：在反向传播过程中，越靠近输入层（即越深的层）的权重，其梯度值变得越来越大，最终导致数值溢出（NaN）或模型发散。

反向传播算法：反向传播是训练神经网络的核心算法，其目的是利用链式法则（求导）计算损失函数（Loss）相对于网络中每一个权重（Weight）和偏置（Bias）的梯度。

前向传播：输入层到隐藏层到输出层得到预测值，且预测值-真实值=loss。

反向传播：反着来，倒推回去，加了个链式法则罢了

3：池化层

降噪且保证特征不变

4：全连接层（分类器）

5:输出层

ResNet（残差网络）：本质上是CNN改，可以说算里程碑了，提出了一个新的观点。

有其他的CNN,然后这个比较典型。出自何恺明之手，明神。

引入残差网络解决了梯度消失和爆炸问题，同时搞定了退化问题（也就是56层反倒不如20层的效果），

这里我要讲深度学习了，

你看我的文章又学深度学习又学搜广推，还不快关注关注？

映射：类似函数给一个输入得到理想输出，

所以模型的学习其实就是映射的过程，

残差：F（X）=H（X）-X，因为出现退化问题，也就是求不出来F（X）所以提出了这个思路，

残差学习：也就是H（X）=F（X）+X，比如问题是5*5=25，现在直接求25-5=20；

序列任务：

RNN（循环神经网络，也算老东西，被transformer替代了都）:

CNN和MLP都无法处理数据的连贯性问题，

然后提出了RNN的概念，实际上RNN提出了循环的概念，本身是一个循环单元，

我个人理解就是记忆功能，记忆上述内容，输出下面的，

同时可以多个输入多个输出。

然后还是有梯度消失和爆炸问题。

然后出现了LSTM（长短期记忆网络，现在常用于时间序列预测）。

LSTM：有个叫细胞状态的东西，实际上就是了长时间携带记忆的功能。

还有遗忘门：可以丢东西，

和输入门和输出门：可以存东西和输出东西。所以基本上可以认为LSTM是RNN的plus版。

GRU（门控循环单元，LSTM的轻量级实现，类似RL和DPO的关系）：

他只有更新和重置两个说白了还是在时间序列预测。

（这里博主已经写了2个半小时了才写了一半，哭泣。。给个赞吧）

#聊聊我眼中的AI##牛客创作赏金赛#

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

08-29 14:01

快手|来来回回投了好几次都没过

快手你好狠的心啊

投递快手等公司10个岗位

点赞评论收藏

09-10 11:32

门头沟学院嵌入式软件开发

问面试官对我的印象怎么样，问问有没有什么可以进步的地方或者问一些，去公司应该负责些什么问问有没有对新员工的一些帮助加班，薪资这时候还是不方便问 如果面试过了这个可以慢慢聊

面试反问你会问什么

点赞评论收藏

08-28 13:51

南方科技大学运营

蚂蚁秒挂

蚂蚁的测评笔试沿用，之前投过蚂蚁的暑期测评挂了，现在秋招投蚂蚁直接秒挂了

投递蚂蚁集团等公司10个岗位

点赞评论收藏

09-03 13:32

门头沟学院算法工程师

面试超高频题目：归并 + 快排

这个基本是手撕代码的最经典的题目了（就个人经历而言），最倒霉的一次是，某次面试前一天刚看了归并，结果就被问到了，但是没有撕出来，也是直接挂掉

联贝贝：同学，瞅瞅我司，医疗独角兽，校招刚开，名额有限，先到先得，我的主页最新动态，绿灯直达，免笔试～

一人一道大厂面试题

点赞评论收藏

09-09 23:06

泰山学院 C++

面试反问你会问什么

我会问一下面试官团队使用的技术栈是什么，了解一下团队使用的编程语言和数据库。再问一下团队目前面临的问题，提前对这方面做准备。如果面试官比较和善我最后会问问食堂饭菜咋样，毕竟人是铁饭是钢😂。

面试反问你会问什么

点赞评论收藏

招聘动态

平安产险科技中心

2026届校园招聘

招商银行上海分行

2026校园招聘

字节跳动火山引擎

2026校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

字节跳动

2026校园招聘

联想

26届AI专项｜内推码NK2026

快手

2026届校园招聘

联想

2026届校园招聘

全站热榜

创作者周榜

正在热议

# 大学四年该怎么过，才不算浪费时间？ #

12548次浏览 76人参与

# 我的租房踩坑经历 #

171659次浏览 1128人参与

# 通信硬件人社招/春招/实习投递现状 #

# 五一假期，你打算“躺”还是“卷”？ #