1.说一下 Transformer 的底层结构吧Transformer 的核心是用自注意力代替传统序列模型里的递归结构。一个标准模块通常包含多头自注意力、前馈网络、残差连接和 LayerNorm。自注意力负责让每个 token 和其他 token 直接交互,前馈网络负责做非线性变换,残差和归一化负责保证深层训练稳定。它真正厉害的地方不是结构复杂,而是信息传播路径短,长距离依赖更容易建模,并且天然适合并行训练。2. Transformer 为什么用了 LayerNorm 呢因为 BatchNorm 依赖 batch 维度上的统计量,但 NLP 任务里句子长度不一致,线上推理时 batch 也经常...