深度学习训练框架研发工程师(AI金融)

280-450元/天
算法工程师
深圳
硕士
5天/周
最少6个月
有转正
岗位关键词
岗位职责
1. 设计开发分布式训练框架: 负责公司内部深度学习训练框架的研发,重点解决单机多卡与多机多卡场景下的分布式训练问题。 2. 性能极致优化: 针对GPU/NPU集群,进行通信(NCCL, MPI)、计算、内存等方面的 profiling 和优化,提升训练吞吐和硬件利用率。 3. 训练链路稳定性建设: 开发和完善训练管线的关键组件,包括断点续训、动态容错、混合精度训练、梯度裁剪、训练过程监控与告警等。 4. 技术支持与工具建设: 为算法和模型研发团队提供分布式训练的技术支持、最佳实践指导和内部工具链,降低使用门槛。
岗位要求
必备条件: 1. 熟练掌握 PyTorch 框架及其分布式训练接口(如 DistributedDataParallel, FSDP 等)。 2. 深入理解深度学习分布式训练原理,熟悉 ZeRO、模型并行、流水线并行 等策略中的至少一种。 3. 拥有扎实的Python/C++ 编程能力,具备良好的数据结构和算法基础。 4. 有实际使用 Slurm 进行任务提交和管理的项目经验。 5. 熟悉Linux开发环境,掌握基本的性能分析工具。 · 优先考虑: 1. 有在大型GPU集群上进行超大规模模型训练的实战经验。 2. 熟悉PyTorch 2.0的编译栈,如 TorchDynamo/TorchInductor,或有 Triton 开发经验。 3. 熟悉NVIDIA GPU架构和CUDA编程,或有NPU相关开发经验。 4. 对计算机体系结构、操作系统、计算机网络有深入理解。 5. 具备优秀的沟通协作能力和主动解决问题的能力。
深圳市福田区市花路5号长富金茂大厦1号楼39楼
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
粤港澳大湾区数字经济研究院
研究所
不需要融资
深圳
查看其他 25 个职位