首页 > 试题广场 >

在分布式训练大型模型时,模型并行的关键应用优势体现在何处?

[单选题]
在分布式训练大型模型时,模型并行的关键应用优势体现在何处?
  • 当模型规模过大无法在单个GPU中完整加载时
  • 当训练数据集过大需要分片处理时
  • 当优化器计算资源不足时减少通信延迟
  • 当推理过程需要实时响应时简化部署
大模型训练显存被三大块撑爆:参数 + 梯度 + 优化器状态(ZeRO 分片) + 激活值(前向传播每一层算出来的中间结果、特征值最吃显存) + 批次输入数据(Token 编码、词嵌入 Embedding、掩码矩阵)
发表于 今天 11:55:25 回复(0)