第 20 题:SwiGLU 激活函数相比 ReLU / GELU 的优势 题目 解释 SwiGLU 激活函数相比 ReLU 和 GELU 的优势。 一、ReLU 与 GELU 简述 ReLU:;简单、稀疏,但死神经元、非零处恒为 1 的梯度。 GELU:(与正态 CDF 相关);平滑、在负半轴非零,被 BERT、GPT-2 等采用。 二、门控与 GLU 族 GLU(Gated Linear Unit) 形式:,即一路做门控(sigmoid),一路做线性变换,再逐元素乘。门控可让模型学会“选通”信息,提升表达能力。 SwiGLU:把门控的 sigmoid 换成 Swish(即 ,又称 SiL...