ZeRO-1切分数据,ZeRO-2切分模型,ZeRO-3切分梯度
ZeRO-1切分优化器状态,ZeRO-2加上切分梯度,ZeRO-3加上切分模型参数
三个阶段分别对应小、中、大模型的优化策略
ZeRO-1用于单机,ZeRO-2用于多机,ZeRO-3用于超大集群
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题