DeepSpeed v0.19.1 版本更新:性能优化、稳定性修复与关键功能增强全解析 1. 性能
DeepSpeed v0.19.1 版本更新:性能优化、稳定性修复与关键功能增强全解析
1. 性能优化
包括:
• 优化 singleton MoE collectives
• zero3: SDMA allgather via mori
• 支持 flash-attn 2.7.0 in FPDT attention
这些变化说明 DeepSpeed 在分布式训练和 attention 加速方面继续发力。
2. 稳定性修复
包括:
• 修复 FastFileWriter aio_fd 泄漏
• 修复 ZeRO-3 forward crash
• 修复 test_zf.py hang
• 修复 gemma4 attention head bug
这些修复对于实际训练任务非常关键,因为它们直接影响长时间运行任务的稳定性。
3. 兼容性增强
包括:
• 自动检测 CUTLASS for EvoformerAttention
• support bf16 optimizer states with CPU offload
• add setup_context for torch.func compatibility
• enable vmap on LinearFunctionForZeroStage3
• Fix DeepCompile AOT kwargs patching for PyTorch >= v2.11
这部分更新特别适合正在跟进 PyTorch 新版本、函数式 API、向量化以及混合精度训练的用户。
#大模型# #福大大架构师每日一题#
1. 性能优化
包括:
• 优化 singleton MoE collectives
• zero3: SDMA allgather via mori
• 支持 flash-attn 2.7.0 in FPDT attention
这些变化说明 DeepSpeed 在分布式训练和 attention 加速方面继续发力。
2. 稳定性修复
包括:
• 修复 FastFileWriter aio_fd 泄漏
• 修复 ZeRO-3 forward crash
• 修复 test_zf.py hang
• 修复 gemma4 attention head bug
这些修复对于实际训练任务非常关键,因为它们直接影响长时间运行任务的稳定性。
3. 兼容性增强
包括:
• 自动检测 CUTLASS for EvoformerAttention
• support bf16 optimizer states with CPU offload
• add setup_context for torch.func compatibility
• enable vmap on LinearFunctionForZeroStage3
• Fix DeepCompile AOT kwargs patching for PyTorch >= v2.11
这部分更新特别适合正在跟进 PyTorch 新版本、函数式 API、向量化以及混合精度训练的用户。
#大模型# #福大大架构师每日一题#
全部评论
相关推荐
查看3道真题和解析