两者可叠加以进一步扩大可训练模型规模
前者通过丢弃中间激活再正向重算,减少显存;后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
两者都会增加前向推理时延
前者仅影响前向计算图;后者改动优化器加载激活值的方式(例如 CPU)
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题