AI 院--MOE 训练/推理Infra工程师(A51327)

40-70K * 16薪
算法工程师
北京
硕士
1年以内
岗位关键词
岗位职责
我们正在寻找一位经验丰富的 MOE 训练/推理 Infra 开发工程师,负责设计、实现并优化我们的 MOE(Mixture of Experts)训练和推理框架。该职位需要您具备扎实的分布式系统、高性能计算、深度学习框架以及硬件加速优化的相关知识,能够解决 MOE 训练和推理过程中的各种技术难题,并与算法团队紧密合作,确保算法的顺利实现。 主要职责: 设计并实现高效的 MOE 训练/推理框架: 设计并开发支持大规模分布式训练和推理的 MOE 框架,确保其在各种硬件配置下的高效运行 优化训练和推理性能,通过算法优化、并行计算、缓存策略等方式,缩短训练和推理时间,提高效率 解决 MOE 训练/推理过程中的技术难题: •针对专家网络的选择问题,研究和实现有效的专家选择算法,确保模型在训练和推理过程中的稳定性和准确性; • 解决负载均衡问题,通过动态调整专家网络的负载分配,提高系统资源的利用率,避免过载或空闲状态; • 优化通信过程,减少分布式训练和推理中的通信开销,提高数据传输效率,缩短训练和推理时间 与算法团队密切合作: •与算法团队保持密切沟通,了解算法需求,根据需求调整和优化训练和推理基础设施,确保算法的顺利实现; 跟踪业界最新技术动态,引入适合项目需求的新技术、新方法,提升团队整体技术•水平
岗位要求
关键技能: 分布式训练技术: •掌握分布式训练框架(如 Horovod、PyTorch Distributed)的使用和优化。 •具备设计和实现高效分布式训练系统的能力。 硬件加速优化: •熟悉 GPU、TPU 等硬件架构,能够进行硬件级性能调优。 •了解 CUDA、cuDNN 等相关技术,能够利用硬件加速提升训练和推理效率。 模型优化技术: •了解量化、剪枝、压缩等模型优化方法,以提升推理效率 •能够在实际项目中应用这些技术,优化模型大小和推理速度 •负载均衡与通信优化 •能够设计高效的负载均衡策略和通信机制,以应对 MOE 模型的稀疏性挑战 •优化分布式系统中的通信开销,提高数据传输效率。 系统设计能力: •具备分布式系统设计经验,能够解决大规模模型训练和推理中的工程问题。 •能够设计和实现高可用、高扩展性的系统架构。 其他: •计算机科学、软件工程、人工智能或相关领域的本科及以上学历 •熟悉至少一种深度学习框架,如 TensorFlow、PyTorch 等 •具备扎实的分布式系统和高性能计算的相关知识,熟悉 MPI、NCCL 等通信库 •熟悉 Linux 操作系统及常用命令,具备良好的脚本编写能力(如 Bash、Python 等) •具备良好的问题解决能力和团队协作精神,能够承受工作压力,保证项目按时完成 •良好的英语阅读和写作能力,能够阅读和理解英文技术文档 优先考虑: •具有 MOE 或相关领域(如分布式训练、模型并行等)的开发经验; •在相关领域发表过高质量论文或拥有相关专利
北京市海淀区中关村东路1号院9号搜狐网络大厦11层
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
北京智谱华章科技
互联网
B轮
北京市
查看其他 0 个职位