分布式训练开发工程师(J10478)

薪资面议
广东省·深圳市
2025-02-25
 什么是官网闪投?
简历直投官网 无需重复填写简历 投后必反馈 进度实时更新 安全可靠官网可查 海量岗位5w+ 移动端投递方便
岗位职责
欢迎优秀的人工智能研究员和工程师,加入摩尔线程AI-分布式训练团队。我们专注于推动GPU加速的分布式训练,打造高效稳定的基础设施,支持各类AI模型创新。我们的应用场景包括超大稠密模型、混合专家模型、多模态模型和强化学习模型,在万卡大规模集群上进行优化训练。团队致力于提升训练效率、优化资源调度,为公司和客户提供高性能的分布式训练解决方案。
1. 参与分布式训练开发,支援万卡集群训练,提高集群训练性能,对集群性能进行理论分析
2. 参与机器学习单GPU以及分布式训练技术的研究与实现,如各种并行与异构计算技术的设计、开发以及与性能优化
3. 结合分布式训练技术进行前沿的语言/多模态大模型优化算法/分布式算法探索和模型/算法适配

岗位要求
1 对新算力设备/国产算力设备和 AI 领域研究抱有兴趣
2 对深度学习和分布式优化方向的基本算法有较好的理解
3 具备扎实的编程、代码阅读及调试能力
4 熟悉 PyTorch;了解大模型框架,如 megatron、deepspeed、colossalai、fsdp 等
加分项:
1. 熟悉分布式优化方法,具有大规模集群训练经验
2. 具有较强的科研能力,曾在顶级会议发表论文
3. 有竞赛刷榜经历或 ACM 竞赛获奖经历