首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
分布式训练大型语言模型时,单GPU内存无法容纳整个模型时,哪
[单选题]
分布式训练大型语言模型时,单GPU内存无法容纳整个模型时,哪种并行策略能有效划分模型参数以解决内存限制问题?
数据并行
模型并行
梯度裁剪
减小批量尺寸
查看正确选项
添加笔记
求解答(0)
邀请回答
收藏(1)
分享
纠错
1个回答
添加回答
0
活跃的芝士在被拷
当
单个 GPU 的显存无法容纳整个大模型
时,核心问题在于
模型参数本身太大
,这时需要将
模型结构或参数切分到多个 GPU 上
,这正是
模型并行
的设计目标。
发表于 2025-12-03 14:49:47
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
大模型开发
难度:
1条回答
1收藏
9浏览
热门推荐
相关试题
在图像处理中,数据增强是一种常用的...
深度学习
大模型开发
评论
(0)
你计划使用大模型进行预训练,以提高...
深度学习
大模型开发
评论
(1)
假设我们正在研究一种新型的语言大模...
深度学习
大模型开发
评论
(1)
来自
2024年秋招-蚂蚁集团...
在Java语言中,关于集合框架类的...
Java
评论
(1)
评估大型语言模型生成文本质量时,R...
大模型概念
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题