【27届留用实习生】-大模型训练系统-系统技术前沿研究组

薪资面议
系统工程师
上海
不限
4天/周
最少3个月
有转正
我公司正在参加 27届暑期实习2期专场 活动,更多适合你的职位内容,点击前往 活动大厅 查看->
岗位职责
1. 负责开发和优化大模型训练系统,使用混合并行、自动并行和通信优化等技术,提高内部模型训练的速度和效率。 2. 设计并实现高效的大模型训练工具,紧跟模型架构的演进,不断优化并行训练策略,以满足公司业务发展的需求。 3. 深入进行大模型训练的性能分析,精准识别并解决训练过程中的性能瓶颈,确保训练效率最大化,充分挖掘硬件资源的潜力。
岗位要求
1. 拥有计算机科学或相关领域硕/博士学历,对分布式系统、机器学习系统有深入的理解和实践经验。 2. 熟悉至少一种编程语言,熟悉PyTorch FSDP、DeepSpeed或Megatron-LM等任一分布式训练框架,有大规模预训练模系统优化经验。 3. 良好的数据分析和问题解决能力,良好的业务理解能力。 4. 在计算机系统领域的顶级会议和期刊发表过发表过论文(优先考虑)。
龙文路129号(国际传媒港L1大楼)
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
上海人工智能实验室
未融资
上海
查看其他 64 个职位