08-25 20:49 已编辑门头沟学院人工智能发布于山东

关注

机器学习入门（一）：神经网络是什么？有哪些？（下）

接着上回讲，这几篇秋招的朋友们可以看看，现在假如面试问到你可以吹吹牛。

机器学习属于计算机或人工智能研究生的必修课，有些学校也开这个课，

不过本科教育大伙懂的都懂，我明确可以说我自己学校教的没我自己教的好，我自己学的比他讲的细致多了，

NLP任务：

这里是重头戏了，已经有transformer架构了能替代RNN了。

Transformer架构：

现在NLP风头最盛，最好用的就算transformer了。

这个东西也是后面出来的，为什么替代RNN，原因是提出了自注意力机制。

然后比RNN快的多（解决了并行计算问题，这也是为什么现在能看到多卡并行计算的原因，10年前根本难以实现。）

这个东西我要讲的细致些，

这个架构是编码器-解码器。

但是里面东西很多，里面有个输入层：负责token转换向量和位置编码（就告诉他在哪里）

自注意力机制（最重要的部分，能把每一个词彼此进行交互）

核心公式：Attention(Q, K, V) = softmax(QK^T / √d_k) V（去问问ai吧，有点难讲明白）

Q (查询)：代表现在的词，查询最相关的词

K (键)：代表所有词的特征，去比对现在的词。

V (值)：代表“所有词”的实际信息内容。

过程就是：用Q和所有K计算相似度得分 -> 用softmax归一化为权重 -> 用权重对所有V进行加权求和，得到当前词的新表示。

多头注意力：

将多个自注意力层（头）并联起来。允许模型同时关注不同方面的信息。

就像你用不同的视角（主语、谓语、宾语、定语...）同时分析一个句子，最后把分析结果综合起来，得到更全面的理解。

残差连接与层归一化：

残差连接：在每个子层（自注意力层、前馈网络）周围都有一个跳跃连接，即将子层的输入直接加到其输出上。这能有效缓解梯度消失问题，让模型可以变得非常深。（详细见上期）

层归一化：对样本特征进行标准化（把数据均值为0，方差为1），使训练过程更加稳定和快速。

前馈神经网络：（详细见上期）

线性层与Softmax（解码器输出）

解码器最后的输出会送入一个线性层，将向量投影到整个词表大小的维度。

然后通过Softmax函数，将输出转换为概率分布。概率最高的那个词，就是当前时间步生成的词。（softmax函数详细见上期）

BERT：

这个相当于transformer的青春版，可以说是双向的transformer。

只有编码器部分，实现了双向理解（一个字左右两边都看得到），和下一句预测（这个下一句预测就是GPT/大模型的前身）

GPT：

这个相当于transformer的mini版，可以说是生成式模型，

只有解码器部分，只有解码器所以是单向模型（从左到右），实现了大规模训练和少样本学习。

同时使用sft+奖励模型+强化学习进行训练。

现在的大模型都是这么个流程来的。

生成任务：

GAN（生成对抗网络）：

这个文章也算非常重要的。

由生成器和对抗判断器组成，类似造假币和警察，

在极大极小博弈（保证最小化损失做出避免最坏的结果）中让生成器和对抗判断器越来越强。

然后现在大多用于输出图像，大部分的图像生成都能看到GAN的地方。

Diffusion Models（扩散模型）：

前向扩散过程（把没有噪声的图像变成纯噪声图像）+反向扩散过程（去掉噪声需要用到模型）。

不断预测原来的部分，直到恢复图像，

这里用了一个VAE（变分自编码器）压缩图像在解码还原，降低了显存和计算的耗能。

同时需要多步骤迭代，虽然效果好但是太慢了。

强化学习：

DQN（深度 Q 网络）：

用神经网络来近似Q函数，

Q函数（动作值函数）：Q^π（s，a）

从s开始执行a动作，按照π行动保证获得期望累计的回报，而强化学习的最终效果就是拿到最优Q函数。

在DQN中用神经网络格式表示：Q(s,a;θ)≈Q∗(s,a)

PPO（近端策略优化，近来最流行的强化学习算法）:

目前属于 Actor-Critic 架构

同时存在裁剪机制保证策略稳定不崩溃，现在常用于机器人领域，量化还有RLHF领域。

#秋招笔面试记录##机械人还在等华为开奖吗？##拼多多工作体验##牛客创作赏金赛#

全部评论

推荐最新楼层

08-24 21:38

杭州电子科技大学大数据开发工程师

Mysql数据以什么样的形式存放？

在InnoDB引擎中，表空间由段（segment），区（extent），页（page），行（row）组成，他们之间的关系是：一个段由多个区组成，一个区由多个页组成，一个页由多个行组成行：数据库表中的记录都是按照行来存储的，根据不同的引擎，有不同的存储结构页：在读取数据的时候，是按照页为单位进行读取的，并不以行读取；一个页默认大小是16kb，也就是最多能保证16kb的连续存储；当我们客户端读取数据的时候，并不是把行数据读取，而是把该行所在的页全部读取到内存中；在这里，我们只需要知道数据读取的最小单位是页即可；区：在B+数中，每一层都是通过双向链表进行链接；在页的定义中，我们知道，一个页里面的数据...

【猜你想看】大数据面经

点赞评论收藏

08-29 18:06

华南理工大学算法工程师

有没有数分大佬指导一下双非数学真的找不到数分岗了吗（投了好多都不回）

点赞评论收藏

09-01 10:58

韶关学院运营

混合数据集成服务行业前景分析及项目可行性研究报告2025

2025年9月1日，全球行业报告出版商Global info Research(环洋市场咨询)发布了《2025年全球市场混合数据集成服务总体规模、主要企业、主要地区、产品和应用细分研究报告》。报告主要研究全球混合数据集成服务总体规模、主要地区规模、主要企业/生产商排名、份额和市场占有率、主要产品类型、下游主要应用分布等。全面分析混合数据集成服务全球范围内主要企业/厂商（品牌）竞争情况分析，包括企业分布区域、主要特征、产品规格、收入、毛利率等。数据包含2020-2031，其中2020至2024年为历史数据，2025至2031年为行业预测数据。出版商：广州环洋市场信息咨询有限公司据GIR (Glo...

点赞评论收藏

08-30 10:20

已编辑

门头沟学院

快手秋招数开二面

1. 自我介绍2. 深挖项目3. 你的 dwd 层，dwm 层，ads 层是怎么确定的4. 你说你对离线整个链路的建设很了解，那你说说你如何开发整个离线链路5. spark 内存模型了解吗6. 抢占内存是个什么机制？7. spark 内存方面的调优说一下8. 你说 CPU executor 内存比例是 144，为什么是这个比例？9. spark 的 join 方式有哪些？10. spark 1 个 CPU 核心只处理一个 task 吗？11. soft merge join 的机制是什么？12. spark 大表关联小表的时候，小表，是怎么广播表到内存中的？13. spark 广播的小表储存在哪里？14. 广播的小表又是怎么取出计算的？15. 两道 sql，topN 和连续登录反问：1.组织架构2.喜欢什么样的人才3.工作强度如何大约45min感觉要凉，特意在面前看了spark的内存模型，以为自己基本上懂了，结果被狂问到不会

查看18道真题和解析

点赞评论收藏

08-30 11:18

快手_机器学习算法部_机器学习算法工程师(准入职员工)

快手内推，快手内推码

快手数据研发一面（40min➕，比较简单，面试官和善） 1.深挖项目，项目架构选型，不同数据为什么存储在不同位置等之类的问题 2.MR工作流程 3.Hive和Spark的区别 4.细挖简历，比如说说简历中复杂SQL的难点在哪里，如何解决 5.认识什么告警类型，都如何处理 6.数据倾斜如何定位，如何解决 7.数仓分层以及分层作用 8.DWS层和DWM层的区别 9.spark的driver,task,job,stage之间的联系 场景题，对直播中的金额数据如何进行数据质量的一个检测 手撕算法:最大子数组和 SQL:最大连续问题 二面（50min➕，主要难在项目拷打，八股很简单） 1.深挖项目非常细...

点赞评论收藏

招聘动态

海信集团

2026届校园招聘

红杉中国

2026届联合校招

携程集团

2026届校园招聘

哔哩哔哩

2026届秋季校园招聘

理想汽车

2026届校园招聘

基恩士

2026秋季校园招聘

正浩创新EcoFlow

2026届秋季校园招聘

电科金仓

2026校园招聘

贝壳找房

2026届校园招聘

招商银行上海分行

2026校园招聘

全站热榜

创作者周榜

正在热议

# 工作后，谈恋爱还和学生时代一样吗？ #