大模型分布式训练优化工程师

35-55K * 16薪
深度学习
北京
硕士
1-3年
岗位关键词
岗位职责
1. 负责大规模机器学习模型的分布式训练优化,提升训练效率和模型性能。 2. 设计和实现高效的分布式训练算法和策略,包括但不限于异步训练、同步训练等。 3. 针对特定硬件和网络环境,优化模型训练过程中的数据传输和计算资源利用。 4. 与数据科学家和算法工程师紧密合作,理解模型训练需求,提供定制化的优化方案。 5. 分析训练过程中的性能瓶颈,提出解决方案并实施优化。 6. 跟踪最新的分布式训练技术和研究成果,评估其在公司项目中的应用潜力。
岗位要求
职位要求 职位要求 1. 精通至少一种编程语言,如Python、C++、Java等,具有良好的编程习惯。 2. 熟悉计算机体系结构以及并行计算基本技术,有 GPU 通用计算研发经验; 3. 有Pytorch、TensorFlow或任意一种大模型训练、微调平台的研发,优化或者模型训练经验; 4. 熟悉深度学习分布式训练和微调优化方案,了解以太网或者 infiniband 等高性能网络。 5. 有实际的分布式训练系统开发和优化经验,熟悉分布式训练中的常见问题和解决方案。 加分项: 1. 熟悉 Colossal-AI,Ray,Deepspeed 或 Megatron-LM 等大模型分布式训练框架的优先; 2. 熟悉大模型压缩,如剪枝或蒸馏等技术的优先;熟悉卷积和 transfomer 类模型低比特定点量化等技术的优先; 3. 有开发运营过开源软件或者为知名开源软件贡献过代码的优先。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
金华希睿企业管理咨询
企业服务
未融资
金华市
查看其他 59 个职位