分布式训练开发工程师(J10478)

薪资面议

广东省·深圳市

2025-02-25

什么是官网闪投?

简历直投官网

无需重复填写简历

投后必反馈

进度实时更新

安全可靠官网可查

海量岗位5w+

移动端投递方便

岗位职责

欢迎优秀的人工智能研究员和工程师，加入摩尔线程AI-分布式训练团队。我们专注于推动GPU加速的分布式训练，打造高效稳定的基础设施，支持各类AI模型创新。我们的应用场景包括超大稠密模型、混合专家模型、多模态模型和强化学习模型，在万卡大规模集群上进行优化训练。团队致力于提升训练效率、优化资源调度，为公司和客户提供高性能的分布式训练解决方案。
1. 参与分布式训练开发，支援万卡集群训练，提高集群训练性能，对集群性能进行理论分析
2. 参与机器学习单GPU以及分布式训练技术的研究与实现，如各种并行与异构计算技术的设计、开发以及与性能优化
3. 结合分布式训练技术进行前沿的语言/多模态大模型优化算法/分布式算法探索和模型/算法适配

岗位要求

1 对新算力设备/国产算力设备和 AI 领域研究抱有兴趣
2 对深度学习和分布式优化方向的基本算法有较好的理解
3 具备扎实的编程、代码阅读及调试能力
4 熟悉 PyTorch；了解大模型框架，如 megatron、deepspeed、colossalai、fsdp 等
加分项：
1. 熟悉分布式优化方法，具有大规模集群训练经验
2. 具有较强的科研能力，曾在顶级会议发表论文
3. 有竞赛刷榜经历或 ACM 竞赛获奖经历

摩尔线程

人工智能

A轮

北京

查看其他 9 个职位

0 笔试题目 0 面试经验 0 面试短评