分布式训练嵌入式工程师(大模型/扩散模型方向)-2026届校招

30-50K * 14薪
算法工程师
杭州
本科
2026届
岗位关键词

毕业要求:2026届

投递时间:2026年4月2日-2026年6月30日

岗位职责
1、设计和实现适用于大规模扩散模型/大语言模型的高性能分布式训练方案,包括数据并行、张量并行、流水线并行、序列并行及混合专家(MoE)负载的调度优化; 2、深入分析并优化大规模集群的训练效率,提升MFU,通过profiling工具定位并解决计算、通信、存储I/O等瓶颈; 3、应用并改进ZeRO系列技术、激活重计算、CPU offloading等策略,突破单卡显存限制,支持更大规模模型或更高分辨率输入的训练; 4、紧跟硬件发展,协同硬件团队或云厂商,挖掘新硬件特性(如FP8精度)的性能潜力,通过自研算子或编译优化实现软件定义硬件; 5、构建高稳定性的训练平台,实现故障自愈、异步检查点、慢节点处理等机制,确保长周期训练任务的持续运行; 6、跨团队协作:与数据科学家、算法工程协作,了解需求并提供满足其需求的基础设施解决方案。
岗位要求
1、扎实的编程能力,精通 Python 和 C++; 2、熟悉其分布式(DDP/FSDP)及性能分析工具。有使用DeepSpeed、Megatron-LM等分布式组件进行大规模训练的实际经验; 3、深入理解 PyTorch 框架的内部机制和性能调优,熟悉分布式训练原理(集合通信、AllReduce、NCCL)和常见并行策略; 4、优秀的系统性问题分析和故障排查能力,能从系统日志、性能profiling工具中定位根因。
拱墅区莱茵矩阵国际1号楼11层
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
群核科技
工具
D轮及以上
杭州,上海,成都,北京
查看其他 7 个职位