分布式训练嵌入式工程师(大模型/扩散模型方向)-2026届校招
30-50K * 14薪
算法工程师 杭州 本科 2026届

岗位关键词
毕业要求:2026届
投递时间:2026年4月2日-2026年6月30日
岗位职责
1、设计和实现适用于大规模扩散模型/大语言模型的高性能分布式训练方案,包括数据并行、张量并行、流水线并行、序列并行及混合专家(MoE)负载的调度优化;
2、深入分析并优化大规模集群的训练效率,提升MFU,通过profiling工具定位并解决计算、通信、存储I/O等瓶颈;
3、应用并改进ZeRO系列技术、激活重计算、CPU offloading等策略,突破单卡显存限制,支持更大规模模型或更高分辨率输入的训练;
4、紧跟硬件发展,协同硬件团队或云厂商,挖掘新硬件特性(如FP8精度)的性能潜力,通过自研算子或编译优化实现软件定义硬件;
5、构建高稳定性的训练平台,实现故障自愈、异步检查点、慢节点处理等机制,确保长周期训练任务的持续运行;
6、跨团队协作:与数据科学家、算法工程协作,了解需求并提供满足其需求的基础设施解决方案。
岗位要求
1、扎实的编程能力,精通 Python 和 C++;
2、熟悉其分布式(DDP/FSDP)及性能分析工具。有使用DeepSpeed、Megatron-LM等分布式组件进行大规模训练的实际经验;
3、深入理解 PyTorch 框架的内部机制和性能调优,熟悉分布式训练原理(集合通信、AllReduce、NCCL)和常见并行策略;
4、优秀的系统性问题分析和故障排查能力,能从系统日志、性能profiling工具中定位根因。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报