第 12 题:模型并行、数据并行、流水线并行 题目 什么是模型并行、数据并行、流水线并行?分别在什么场景下使用? 一、数据并行(Data Parallelism, DP) 做法:同一份模型复制到多张卡,每张卡用不同 batch 的数据前向+反向,再对梯度做** AllReduce 同步**,得到全局梯度后各卡用相同更新。 场景:单卡能放下整个模型、主要瓶颈是 batch 不够大或算力不够时;最常用,实现简单(如 PyTorch DDP)。 限制:单模型必须能放进单卡;batch 过大时通信和每卡 batch 也会变大。 二、模型并行(Model Parallelism, MP) 做法:把...