【27届留用实习生】-大模型训练系统-系统技术前沿研究组
薪资面议
系统工程师 上海 不限 4天/周 最少3个月 有转正

岗位职责
1. 负责开发和优化大模型训练系统,使用混合并行、自动并行和通信优化等技术,提高内部模型训练的速度和效率。
2. 设计并实现高效的大模型训练工具,紧跟模型架构的演进,不断优化并行训练策略,以满足公司业务发展的需求。
3. 深入进行大模型训练的性能分析,精准识别并解决训练过程中的性能瓶颈,确保训练效率最大化,充分挖掘硬件资源的潜力。
岗位要求
1. 拥有计算机科学或相关领域硕/博士学历,对分布式系统、机器学习系统有深入的理解和实践经验。
2. 熟悉至少一种编程语言,熟悉PyTorch FSDP、DeepSpeed或Megatron-LM等任一分布式训练框架,有大规模预训练模系统优化经验。
3. 良好的数据分析和问题解决能力,良好的业务理解能力。
4. 在计算机系统领域的顶级会议和期刊发表过发表过论文(优先考虑)。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报