Qwen3-4B-Instruct-2507 megatron sft4卡A100 rank 32 accuracy: 89.51% (132087/147565) rank 64 accuracy: 90.06% (132904/147565) 项目 值 模型 Qwen3-4B-Instruct-2507 (LoRA rank=32, alpha=64) 总步数 3834 steps 训练时长 ~1h 42min 训练速度 ~1.60 s/it 显存占用 20.52 GiB 最终 loss ~0.04 (0.038 ~ 0.05 区间) 最终 learning_rate 1e-05 数据集 all-data-modelApi_swift.jsonl Total failed count 4387 Golden data failed count 931