DeepSpeed v0.18.4 发布:优化稳定性与兼容性,全面支持 Python 3.12 与

DeepSpeed v0.18.4 发布:优化稳定性与兼容性,全面支持 Python 3.12 与 AMD ROCm

✅ 1. 版本管理与测试体系优化
• 更新版本号并同步测试框架。
• 在编译测试中禁用 deterministic 选项,以提升测试灵活性与速度。
• 在持续集成(CI)层面新增 AWS 测试工作流,使测试环境更加多样化和稳定。
• 启用对 Python 3.11 与 3.12 的自动化测试支持,进一步拓宽兼容边界。
✅ 2. 性能优化与引擎可靠性提升
• 修复 SuperOffloadOptimizer_Stage3 崩溃问题(由缺失 param_names 参数引起)。
• 改进 Engine 模块,仅在 scale_wrt_gas 为 True 时才对梯度进行缩放,从而提升计算效率。
• 修复 Nebula Checkpoint Engine 的 commit() API 不匹配问题,完善接口一致性。
• 修复 DecoupledCheckpointEngine 潜在死锁问题,并增强整体可靠性。
• 优化 DeepSpeed Async I/O 机制,通过释放 Python GIL 解决罕见的异步等待卡死问题。
• 修复 OnebitLamb 在空参数情况下出现的 NaN 传播问题,提升分布式优化器稳定性。
• 修复 BF16_Optimizer 在 DummyOptim 模式下的 IndexError 异常,保障兼容性。
✅ 3. 深度学习框架与功能兼容
• 改进 DeepCompile 模块,以确保与 PyTorch 2.8 / 2.9 的高度兼容。
• 替换 torch.sqrt 为 math.sqrt,解决因不同实现导致的学习率缩放误差问题。
• 更正 MOE 检查点中的分布式尺寸定义,将 dp_world_size 替换为 seq_dp_world_size。
• 修复 UlyssesSPAttentionHF 与 PEFT 模型在注册时的兼容性错误。
• 针对部分依赖 Triton 的测试用例进行修复,确保多平台一致性。
#大模型# #福大大架构师每日一题#
全部评论

相关推荐

牛至超人:您好,京东物流岗了解一下吗?负责精加工食品的端到端传输
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务