首页 > 试题广场 >

梯度检查点 (Gradient Checkpointing)

[不定项选择题]
梯度检查点 (Gradient Checkpointing) 与 ZeRO-Offload 的主要区别体现在
  • 两者可叠加以进一步扩大可训练模型规模
  • 前者通过丢弃中间激活再正向重算,减少显存;后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
  • 两者都会增加前向推理时延
  • 前者仅影响前向计算图;后者改动优化器加载激活值的方式(例如 CPU)

这道题你会答吗?花几分钟告诉大家答案吧!