分布式训练框架开发工程师

25-55K * 14薪
深度学习
上海
硕士
3-5年
1 个工作日内
岗位关键词
岗位职责
岗位职责: 1、负责深度学习模型训练优化,包括计算/存储/通信系统优化、软硬件系统优化、分布式训练等,提升训练速度、加快算法迭代速度、降低训练资源成本; 2、负责深度学习模型推理优化,包括模型压缩、加速等,减低推理延迟; 3、负责推理服务框架研究,实现模型服务高效部署; 4、负责开源能力集成框架设计和开发,实现开源社区优秀开源能力高效集成到平台; 5、跟踪深度学习框架和工程前沿技术和趋势,持续推进平台创新。
岗位要求
任职要求: 1、计算机及相关专业本科及以上学历,3年以上系统开发经验; 2、熟悉 Python和 C++,具备优秀的开发和优化能力; 3、精通至少一种主流深度学习框架(如 PyTorch/TensorFlow等),了解其底层原理和优化策略; 4、熟悉分布式深度学习训练方法和工具,如 DeepSpeed、Megatron、Horovod、PyTorch DDP 等; 5、有高性能计算的优化经验,了解 CUDA、cuDNN、TensorRT 或 TVM 等加速库的使用和优化; 6、熟悉主流深度学习模型,如Transformer、StableDiffusion等。 【加分项】 1、有模型加速和压缩技术的实际项目经验,包括量化、剪枝、知识蒸馏等; 2、参与过深度学习框架的开发或优化,能够在开源框架上做二次开发或定制优化。
岗位亮点
work life balance 超多假期 base南京东路
南京东路恒基名人大厦
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报