首页 > 试题广场 >

在大模型训练中,ZeRO(Zero Redundancy O

[单选题]
在大模型训练中,ZeRO(Zero Redundancy Optimizer)的三个阶段分别优化了什么?
  • ZeRO-1切分数据,ZeRO-2切分模型,ZeRO-3切分梯度
  • ZeRO-1切分优化器状态,ZeRO-2加上切分梯度,ZeRO-3加上切分模型参数
  • 三个阶段分别对应小、中、大模型的优化策略
  • ZeRO-1用于单机,ZeRO-2用于多机,ZeRO-3用于超大集群
ZeRO是分布式训练中一种关键的显存优化技术,它通过将模型状态(优化器状态、梯度和参数)在数据并行(DP)的多个GPU间分片存储,而非每个GPU保留完整副本,从根本上消除了DP中的内存冗余
发表于 2026-05-02 22:34:21 回复(0)