分布式训练框架开发工程师
25-55K * 14薪
深度学习 上海 硕士 3-5年 1 个工作日内

岗位关键词
岗位职责
岗位职责:
1、负责深度学习模型训练优化,包括计算/存储/通信系统优化、软硬件系统优化、分布式训练等,提升训练速度、加快算法迭代速度、降低训练资源成本;
2、负责深度学习模型推理优化,包括模型压缩、加速等,减低推理延迟;
3、负责推理服务框架研究,实现模型服务高效部署;
4、负责开源能力集成框架设计和开发,实现开源社区优秀开源能力高效集成到平台;
5、跟踪深度学习框架和工程前沿技术和趋势,持续推进平台创新。
岗位要求
任职要求:
1、计算机及相关专业本科及以上学历,3年以上系统开发经验;
2、熟悉 Python和 C++,具备优秀的开发和优化能力;
3、精通至少一种主流深度学习框架(如 PyTorch/TensorFlow等),了解其底层原理和优化策略;
4、熟悉分布式深度学习训练方法和工具,如 DeepSpeed、Megatron、Horovod、PyTorch DDP 等;
5、有高性能计算的优化经验,了解 CUDA、cuDNN、TensorRT 或 TVM 等加速库的使用和优化;
6、熟悉主流深度学习模型,如Transformer、StableDiffusion等。
【加分项】
1、有模型加速和压缩技术的实际项目经验,包括量化、剪枝、知识蒸馏等;
2、参与过深度学习框架的开发或优化,能够在开源框架上做二次开发或定制优化。
岗位亮点
work life balance
超多假期
base南京东路
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报