第 20 题:SwiGLU 激活函数相比 ReLU / GELU 的优势
第 20 题:SwiGLU 激活函数相比 ReLU / GELU 的优势
题目
解释 SwiGLU 激活函数相比 ReLU 和 GELU 的优势。
一、ReLU 与 GELU 简述
- ReLU:
;简单、稀疏,但死神经元、非零处恒为 1 的梯度。
- GELU:
(与正态 CDF 相关);平滑、在负半轴非零,被 BERT、GPT-2 等采用。
二、门控与 GLU 族
GLU(Gated Linear Unit) 形式:,即一路做门控(sigmoid),一路做线性变换,再逐元素乘。门控可让模型学会“选通”信息,提升表达能力。
SwiGLU:把门控的 sigmoid 换成 Swish(即 ,又称 SiLU),即:
在 FFN 中常用:,即先对
做两个线性得到两路,一路 Swish、一路恒等,相乘后再乘
。
三、相比 ReLU / GELU 的优势
- 门控:SwiGLU 是门控结构,能学习“让多少信息通过”,比单一非线性(ReLU/GELU)更灵活。
- Swish:Swish 平滑、非单调,在负半轴有小幅非零值,梯度更友好,常比 ReLU 表达力更强。
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

