深度学习训练框架研发工程师（AI金融）

280-450元/天

算法工程师

硕士

5天/周

最少6个月

有转正

杨女士昨日在线

粤港澳大湾区数字经济研究院（福田）·招聘助理

反馈率：86% | 反馈时长：12天

岗位关键词

岗位职责

1. 设计开发分布式训练框架：负责公司内部深度学习训练框架的研发，重点解决单机多卡与多机多卡场景下的分布式训练问题。 2. 性能极致优化：针对GPU/NPU集群，进行通信（NCCL, MPI）、计算、内存等方面的 profiling 和优化，提升训练吞吐和硬件利用率。 3. 训练链路稳定性建设：开发和完善训练管线的关键组件，包括断点续训、动态容错、混合精度训练、梯度裁剪、训练过程监控与告警等。 4. 技术支持与工具建设：为算法和模型研发团队提供分布式训练的技术支持、最佳实践指导和内部工具链，降低使用门槛。

岗位要求

必备条件： 1. 熟练掌握 PyTorch 框架及其分布式训练接口（如 DistributedDataParallel, FSDP 等）。 2. 深入理解深度学习分布式训练原理，熟悉 ZeRO、模型并行、流水线并行等策略中的至少一种。 3. 拥有扎实的Python/C++ 编程能力，具备良好的数据结构和算法基础。 4. 有实际使用 Slurm 进行任务提交和管理的项目经验。 5. 熟悉Linux开发环境，掌握基本的性能分析工具。 · 优先考虑： 1. 有在大型GPU集群上进行超大规模模型训练的实战经验。 2. 熟悉PyTorch 2.0的编译栈，如 TorchDynamo/TorchInductor，或有 Triton 开发经验。 3. 熟悉NVIDIA GPU架构和CUDA编程，或有NPU相关开发经验。 4. 对计算机体系结构、操作系统、计算机网络有深入理解。 5. 具备优秀的沟通协作能力和主动解决问题的能力。

深圳市福田区市花路5号长富金茂大厦1号楼39楼

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

粤港澳大湾区数字经济研究院

研究所

不需要融资

深圳

查看其他 23 个职位

0 笔试题目 0 面试经验 0 面试短评