大模型训练招人了
#大模型训练##WLB#
组内直招,坐标联想研究院ICI lab,薪资满意和WLB都能满足,欢迎大佬投递。简历可发邮箱liaodc5@lenovo.com
岗位职责:
 
1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练
 
2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能
 
3. 负责大模型弹性训练框架的研发
 
岗位要求:
 
1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;
 
2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;
 
3. 熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验;
 
4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试;
 
5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN 等有一定了解;
 
6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。
 
7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案;
 
8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。
 
加分项:
 
1. 有大模型研发和分布式训练经验
 
2. 熟悉Kubernetes架构以及大模型训练容错系统
 
3. 在AI或者HPC领域发表过高水平论文
        组内直招,坐标联想研究院ICI lab,薪资满意和WLB都能满足,欢迎大佬投递。简历可发邮箱liaodc5@lenovo.com
岗位职责:
1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练
2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能
3. 负责大模型弹性训练框架的研发
岗位要求:
1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;
2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;
3. 熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验;
4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试;
5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN 等有一定了解;
6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。
7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案;
8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。
加分项:
1. 有大模型研发和分布式训练经验
2. 熟悉Kubernetes架构以及大模型训练容错系统
3. 在AI或者HPC领域发表过高水平论文
全部评论 
 这个是社招岗位,大佬们请注意
相关推荐
10-22 12:03
  山东大学 Java   程序员小白条:26届一般都得有实习,项目可以随便写的,如果不是开源社区的项目,随便包装,技术栈也是一样,所以本质应该找学历厂,多投投央国企和银行,技术要求稍微低一点的,或者国企控股那种,纯互联网一般都得要干活
程序员小白条:26届一般都得有实习,项目可以随便写的,如果不是开源社区的项目,随便包装,技术栈也是一样,所以本质应该找学历厂,多投投央国企和银行,技术要求稍微低一点的,或者国企控股那种,纯互联网一般都得要干活 点赞 评论 收藏   
分享
 10-17 20:23
  广东南华工商职业学院 Web前端   点赞 评论 收藏   
分享
 