AI 院--MOE 训练/推理Infra工程师(A51327)
40-70K * 16薪
算法工程师 北京 硕士 1年以内

岗位关键词
岗位职责
我们正在寻找一位经验丰富的 MOE 训练/推理 Infra 开发工程师,负责设计、实现并优化我们的 MOE(Mixture of Experts)训练和推理框架。该职位需要您具备扎实的分布式系统、高性能计算、深度学习框架以及硬件加速优化的相关知识,能够解决 MOE 训练和推理过程中的各种技术难题,并与算法团队紧密合作,确保算法的顺利实现。
主要职责:
设计并实现高效的 MOE 训练/推理框架:
设计并开发支持大规模分布式训练和推理的 MOE 框架,确保其在各种硬件配置下的高效运行
优化训练和推理性能,通过算法优化、并行计算、缓存策略等方式,缩短训练和推理时间,提高效率
解决 MOE 训练/推理过程中的技术难题:
•针对专家网络的选择问题,研究和实现有效的专家选择算法,确保模型在训练和推理过程中的稳定性和准确性;
• 解决负载均衡问题,通过动态调整专家网络的负载分配,提高系统资源的利用率,避免过载或空闲状态;
• 优化通信过程,减少分布式训练和推理中的通信开销,提高数据传输效率,缩短训练和推理时间
与算法团队密切合作:
•与算法团队保持密切沟通,了解算法需求,根据需求调整和优化训练和推理基础设施,确保算法的顺利实现;
跟踪业界最新技术动态,引入适合项目需求的新技术、新方法,提升团队整体技术•水平
岗位要求
关键技能:
分布式训练技术:
•掌握分布式训练框架(如 Horovod、PyTorch Distributed)的使用和优化。
•具备设计和实现高效分布式训练系统的能力。
硬件加速优化:
•熟悉 GPU、TPU 等硬件架构,能够进行硬件级性能调优。
•了解 CUDA、cuDNN 等相关技术,能够利用硬件加速提升训练和推理效率。
模型优化技术:
•了解量化、剪枝、压缩等模型优化方法,以提升推理效率
•能够在实际项目中应用这些技术,优化模型大小和推理速度
•负载均衡与通信优化
•能够设计高效的负载均衡策略和通信机制,以应对 MOE 模型的稀疏性挑战
•优化分布式系统中的通信开销,提高数据传输效率。
系统设计能力:
•具备分布式系统设计经验,能够解决大规模模型训练和推理中的工程问题。
•能够设计和实现高可用、高扩展性的系统架构。
其他:
•计算机科学、软件工程、人工智能或相关领域的本科及以上学历
•熟悉至少一种深度学习框架,如 TensorFlow、PyTorch 等
•具备扎实的分布式系统和高性能计算的相关知识,熟悉 MPI、NCCL 等通信库
•熟悉 Linux 操作系统及常用命令,具备良好的脚本编写能力(如 Bash、Python 等)
•具备良好的问题解决能力和团队协作精神,能够承受工作压力,保证项目按时完成
•良好的英语阅读和写作能力,能够阅读和理解英文技术文档
优先考虑:
•具有 MOE 或相关领域(如分布式训练、模型并行等)的开发经验;
•在相关领域发表过高质量论文或拥有相关专利
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报