首页 > 试题广场 >

在日常深度学习模型训练的过程中,有时会出现机器GPU利用率较

[问答题]
在日常深度学习模型训练的过程中,有时会出现机器GPU利用率较低的现象,请问出现这种现象时可以排查哪些可能的原因?在数据规模较大的情况下,通过哪些方法可能可以提升机器训练效率(可利用相关工具)?
GPU利用率低可能出现的原因有几点:
1.数据加载导致:GPU绝大部分时间在等待CPU加载数据
2.数据预处理:数据预处理逻辑复杂
3.模型保存过于频繁(可能性低)
4.Loss计算复杂导致 CPU 计算时间太长从而阻塞 GPU

主要排除数据加载和处理的部分,数据规模较大的情况下可以尝试数据并行的方式训练模型
发表于 2021-10-10 15:39:36 回复(0)