DeepSpeed v0.18.3 发布：优化性能与稳定性，增强兼容性与调试体验 DeepSpee

DeepSpeed v0.18.3 发布：优化性能与稳定性，增强兼容性与调试体验

DeepSpeed 正式发布了 v0.18.3 版本，本次更新重点围绕性能优化、调试工具增强、兼容性改进以及优化器与硬件支持拓展展开。该版本包含多个细节更新，进一步提升了分布式训练的稳定性与可扩展性。以下为本次版本的主要更新内容。

一、系统与构建改进
• 更新 version.txt 文件，确保版本管理一致性。
• 更新模态持续集成逻辑（modal CI），修复并改进相关流程。
• 解释并完善 leaf 模块说明，便于用户理解模块功能。
• 禁用部分 nv-lightning 配置项，优化持续集成测试过程。
• 使用 PyTorch 工具检测 ninja 构建工具，提高编译检测的可靠性。
• 信任 Intel 服务器以进行 XPU 测试，增强跨硬件平台的测试安全性。
• PyTorch 兼容的 backward API，进一步提升与 PyTorch 的接口一致性。
• 启用 compiled autograd 进行反向传播，提升反向计算性能。
二、优化器与学习率改进
• Muon 优化器支持独立学习率参数：允许分别设置 “muon_lr” 和 “adam_lr”，以便更灵活地控制优化器的学习率。
• Muon 优化器动量缓存在 GPU 上，减少主机与设备之间的数据传输，提高训练效率。
• 低精度主参数/梯度/优化器状态支持，增强在 FP8、FP16 与 BF16 等低精度训练场景下的性能与稳定性。
三、内存与性能优化
• see_mem_usage 工具改进：确保无论何种情况下都能正确输出内存使用信息。
• 使调试工具更加健壮，在异常和边界情况下保证运行稳定。
• Zero Stage 1-2 优化：在未配置时不再固定内存，从而减少不必要的内存占用。
• 修复在加载模型或 Zero 检查点时 ds_secondary_tensor 可能出现的数据污染问题，提高模型加载与恢复的正确性。
• 在交换张量为空时跳过 aio wait 操作，进一步提升性能与资源利用效率。
四、测试与数值稳定性改进
• 改进 ROCm FP8 单元测试：对 FP16 和 BF16 情况放宽容差，以适应更多硬件环境。
• 放宽低精度计算的限制，增强在 AMD GPU 等环境下的稳定性。
五、功能拓展与社区支持
• 新增 Qwen2.5 模型至 AutoTP 模型列表，支持更多自动并行模型配置。
• 更新安全文档（SECURITY.md）指向 GitHub 官方报告渠道，统一安全报告流程。
• 新增关于 Ray 与 DeepSpeed 联合技术交流会的资讯，促进社区合作与技术传播。
六、监控与性能分析
• 新增 Wall Clock Timers API，为用户提供更精确的时间统计和性能分析接口，方便评估训练过程中的时间分布与瓶颈。
总结：
DeepSpeed v0.18.3 版本在保持高性能的同时，进一步提升了系统的稳定性、灵活性和兼容性。此次更新特别加强了优化器配置能力、内存管理与调试工具的可靠性，对于使用分布式训练的研究团队和开发者而言，将提供更高效、更可控的深度学习训练体验。
#大模型# #福大大架构师每日一题#

DeepSpeed v0.18.3 发布：优化性能与稳定性，增强兼容性与调试体验 DeepSpee

全站热榜

创作者周榜