首页 > 试题广场 >

在分布式训练大型模型时，模型并行的关键应用优势体现在何处？

[单选题]

当模型规模过大无法在单个GPU中完整加载时

当训练数据集过大需要分片处理时

当优化器计算资源不足时减少通信延迟

当推理过程需要实时响应时简化部署

查看答案及解析

郑锦凡

大模型训练显存被三大块撑爆：参数 + 梯度 + 优化器状态（ZeRO 分片） + 激活值（前向传播每一层算出来的中间结果、特征值最吃显存） + 批次输入数据（Token 编码、词嵌入 Embedding、掩码矩阵）

发表于今天 11:55:25 回复(0)

提交观点

问题信息

大模型概念

难度：

1条回答 24收藏 39浏览

扫一扫，把题目装进口袋