第 12 题:模型并行、数据并行、流水线并行
第 12 题:模型并行、数据并行、流水线并行
题目
什么是模型并行、数据并行、流水线并行?分别在什么场景下使用?
一、数据并行(Data Parallelism, DP)
- 做法:同一份模型复制到多张卡,每张卡用不同 batch 的数据前向+反向,再对梯度做** AllReduce 同步**,得到全局梯度后各卡用相同更新。
- 场景:单卡能放下整个模型、主要瓶颈是 batch 不够大或算力不够时;最常用,实现简单(如 PyTorch DDP)。
- 限制:单模型必须能放进单卡;batch 过大时通信和每卡 batch 也会变大。
二、模型并行(Model Parallelism, MP)
- 做法:把同一层或不同层切到不同设备上,单次前向/反向时数据在设备间流动(如某一层的输出作为下一层所在设备的输入)。
- 典型:张量并行(Tensor Parallel, TP)——把一层内的矩阵按行/列切分到多卡,减少单卡显存。
- 场景:单卡放不下单层或整个模型时(如超大 FFN、大注意力头),必须拆层或拆张量。
- 代价:设备间通信频繁,通信量和拓扑设计影响效率。
三、流水线并行(Pipeline Parallelism, PP)
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

