求实习内推
点赞 评论

相关推荐

DeepSpeed v0.18.9 正式发布!AutoTP 全面增强、ZeRO 与 SuperOffload 深度优化,大模型训练再升级DeepSpeed v0.18.9针对环境变量适配、GPU硬件检测逻辑进行了多项优化,解决了不同硬件平台、自定义环境路径下的适配问题,提升了框架的环境兼容性与部署灵活性。1. 支持$TRITON_HOME环境变量本次更新新增对环境变量的适配,框架会自动识别该环境变量配置的路径,解决了相关组件在自定义安装路径下无法被正确加载的问题。在过往版本中,仅默认读取系统默认路径下的相关文件,当用户通过自定义路径安装时,会出现路径查找失败、组件调用异常等问题,而通过适配TRITON_HOME环境变量,允许用户自由指定Triton的安装目录,大幅提升了框架在自定义部署环境下的适配能力,尤其适用于多版本Triton共存、离线部署等复杂场景。2. ROCm GPU架构检测移除不必要的shell=True针对AMD ROCm平台的GPU架构检测逻辑,本次更新移除了代码中不必要的shell=True参数。在Python的subprocess调用中,shell=True会带来潜在的安全风险与执行效率问题,同时可能引发命令解析异常。DeepSpeed v0.18.9优化了ROCm GPU架构检测的代码实现,采用无shell模式执行硬件检测命令,既提升了检测逻辑的安全性,又避免了因shell环境差异导致的GPU架构识别失败问题,保障了AMD GPU平台上DeepSpeed的稳定运行。3. 支持$DS_IGNORE_CUDA_DETECTION环境变量跳过本地GPU检测新增$DS_IGNORE_CUDA_DETECTION环境变量控制逻辑,当用户设置该环境变量时,DeepSpeed会跳过本地CUDA GPU的检测流程。该优化主要针对无GPU环境、远程训练节点、容器化部署等场景,在这些场景下,本地GPU检测不仅无意义,还可能因检测失败导致框架初始化异常。通过该环境变量,开发者可以灵活控制GPU检测行为,避免非必要的硬件检测流程,提升框架在纯CPU环境、云服务器远程调度场景下的初始化效率。4. 修复Triton自动调优缓存的NFS路径判断问题修复了Triton自动调优缓存模块中,is_nfs_path函数对不存在路径的处理异常问题。在过往版本中,当判断的NFS路径不存在时,该函数会抛出异常,导致Triton自动调优流程中断,影响模型训练的性能调优。v0.18.9优化了路径存在性校验逻辑,当目标路径不存在时,函数会返回合理的默认值,不会中断调优流程,保障了Triton自动调优功能在任意路径配置下的稳定运行,提升了大模型训练的性能调优可靠性。
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务