2025-12-01 21:28 上海交通大学算法工程师发布于上海

关注

Transformer如何解决梯度爆炸和消失问题？

面试题简述

训练大模型经常会遇到梯度爆炸和消失，你知道有哪些改善方法吗？softmax会不会导致梯度爆炸或消失？transformer的设计里有哪些方法用于解决这个问题？

面试官想听的

1、L2 clipping、梯度缩放、初始化模块；

2、softmax为什么会导致梯度爆炸；

3、了解 DeepNet init、RMSNorm 等提升稳定性的方法。

面试回答举例

梯度爆炸一般用梯度剪裁解决，梯度消失可以通过残差连接 + 合理初始化 + LayerNorm 减轻。

softmax 本质上确实会带来梯度集中到一个token上，从而导致梯度消失，尤其是 logits 非常大时。

详细内容可跳转该链接查看详情：http://xhslink.com/o/7UZDFwez5tJ

由浅入深分析

1、梯度爆炸的来源

（1）残差过大

（2）softmax logits 打得太狠

（3）残差未缩放

解决办法：

（1）grad clipping

（2）初始化调优

（3）attention scaling

2、梯度消失的来源

（1）sigmoid、softmax 激活压缩

（2）深度网络梯度逐层减弱

解决办法：

（1）residual connection

（2）LayerNorm/RMSNorm

（3）更合理的初始化

3、Transformer的处理方式

（1）残差（最关键）

（2）LayerNorm 稳定激活

（3）Attention缩放

（4）正交初始化、DeepNet init

面试加分点

1、softmax 引起的梯度饱和是关键点

2、提到 DeepNet init或uP

3、提到Transformer本质上是为了解决梯度传递问题而设计的。

#春招##面经##面试##实习#

技术必备题库文章被收录于专栏

带你复盘大厂后端和算法面试，拆解面试官到底想听啥

全部评论

推荐最新楼层

楼主

上海交通大学算法工程师

hi，小伙伴们～ 3月15日（本周日）20:00–21:00，我们会在小红书做一场直播，聊一聊： 1、大模型方向目前的就业机会 2、互联网大厂今年的 HC 情况 3、结合阿里大模型春招面试面经做一次详细拆解想了解大模型求职和面试准备的小伙伴可以来直播间一起交流～小红书账号：Offer面试官感兴趣的小伙伴不要错过哦～

点赞回复分享

发布于 03-11 10:18 上海

03-24 09:30

广西大学算法工程师

大模型常考面试题100道(第1～25道)

这份题不是随便凑出来的 100 道，而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题，又结合公开平台上反复出现的问题，把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢，最后形成这套 大模型常考面试题100道1. Transformer 的整体结构是什么？答：Transformer 最早是 Encoder-Decoder 结构。Encoder 每层主要是多头自注意力和前馈网络，Decoder 每层除了 masked self-attention 和前馈网络，还多了一个 cross-attention，用来关注 Encoder 的输出。不过...

AI-Agent面试实战...

点赞评论收藏

分享

03-19 13:42

已编辑

东南大学算法工程师

蚂蚁暑期算法岗机考

各位大佬，蚂蚁暑期算法岗机考的题型是单选+多选+3道编程题吗？

蚂蚁集团笔试

点赞评论收藏

分享

03-22 14:55

广西大学算法工程师

拼多多 AI Agent 开发二面

1、项目里负责的边界是什么？哪些内容是亲手实现和验证的？2、如果要做一套可落地的 Agent 评测体系，整体怎么设计？评测一般要分离线和线上两层。离线评测解决“改动前后谁更好”，线上评测解决“真实用户下效果是否稳定”。离线侧我会先把样本按场景拆开，比如知识问答、工具调用、多轮追问、拒答场景、多语言场景、长文本场景，然后分别看回答正确率、工具调用成功率、检索命中率、拒答准确率和格式稳定性。线上侧看用户行为指标，比如首轮解决率、转人工率、二次追问率、平均耗时、token 成本和异常率。Agent 不能只看最终答案，通常要拆成三层指标：检索层、决策层、生成层。检索层看有没有召回正确证据，决策层看有没...

拼多多集团-PDD二面350人在聊

点赞评论收藏

分享

03-25 12:12

山东大学算法工程师

字节暑期大模型开发一面 50min

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.实习拷打2.项目拷打3.论文拷打4.了解RAG，微调，推理这些吗5.介绍一下微调，有没有做过微调，如果让你做能做吗6.选一个项目介绍一下（rpc），为什么选择做rpc项目7. 介绍一下主流的rpc框架的特点8.序列化是什么，主要作用是什么（压缩），为什么不用主流的序列化方式9.对比一下http和tcp，为什么这个rpc底层用tcp协议，不用http10.实习是在公司还是实验室，实习有什么收获11.介绍一下你的本地生活项目，滑动窗口限流，乐观锁，MQ

查看11道真题和解析

点赞评论收藏

分享

03-28 18:37

四川龙泉求介绍工作，谢谢

点赞评论收藏

分享

评论

点赞

1

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

62994次浏览 536人参与

# 第一份工作应该选择高薪还是大平台 #

220372次浏览 1035人参与

# 华泰星战营，提前锁定校招offer #

1934次浏览 182人参与

# 考公VS就业，你怎么选？ #

99814次浏览 521人参与

# 卷__卷不过你们，只能卷__了 #

59758次浏览 755人参与

# 小红书求职进展汇总 #

238373次浏览 1397人参与

# 校招第一份工作你干了多久？ #

150009次浏览 630人参与

# 商战，最累的是我们 #

31590次浏览 98人参与

# 大疆求职进展汇总 #

699656次浏览 4351人参与

# AI时代还有必要刷leetcode吗？ #

48106次浏览 567人参与

# 字节7000实习来了，你投了吗？ #

43340次浏览 334人参与

# 想从事Agent应该学习哪些技术？ #

13963次浏览 388人参与

# 大学生该如何认清当下的就业环境？ #

165911次浏览 908人参与

# 海康威视求职进展 #

134559次浏览 555人参与

# 26届春招投递记录 #

4842次浏览 49人参与

# 工作中，努力重要还是选择重要？ #

285858次浏览 2586人参与

# HR面都在聊什么？ #

21529次浏览 236人参与

# 有哪些公司在面试时考察AICoding？ #

27114次浏览 435人参与

# 正在春招的你，也参与了去年秋招吗？ #

394610次浏览 2712人参与

# 校招生月薪1W算什么水平 #

144020次浏览 496人参与

# 从投递到OC，你用了多久 #

37000次浏览 381人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务