第 13 题:混合精度训练(Mixed Precision Training) 题目 解释混合精度训练(Mixed Precision Training)的原理和优势。 一、在做什么? 混合精度训练指在训练中部分使用 FP16(半精度),部分保留 FP32(全精度),在保证数值稳定性的前提下,用 FP16 加速计算、节省显存和带宽。 典型做法:前向和大部分反向用 FP16,权重和优化器状态用 FP32 维护,梯度在 FP32 下累加/更新后再转回 FP16 参与下一轮;对易溢出层(如 softmax、LayerNorm)保留 FP32 或做 loss scaling。 二、原理要点 FP16...