首页 > 试题广场 >

分布式训练大型语言模型时,单GPU内存无法容纳整个模型时,哪

[单选题]
分布式训练大型语言模型时,单GPU内存无法容纳整个模型时,哪种并行策略能有效划分模型参数以解决内存限制问题?
  • 数据并行
  • 模型并行
  • 梯度裁剪
  • 减小批量尺寸
单个 GPU 的显存无法容纳整个大模型时,核心问题在于模型参数本身太大,这时需要将模型结构或参数切分到多个 GPU 上,这正是模型并行的设计目标。
发表于 2025-12-03 14:49:47 回复(0)