职位描述 深度优化训练流程主导模型训练全链路性能分析与优化,设计GPU资源弹性调度策略开发自动化训练加速工具链,构建可扩展的云端训练框架研发混合精度训练、梯度压缩等前沿技术,突破训练吞吐瓶颈构建训练优化体系制定标准化训练效能评估体系,建立成本-效率量化模型设计可复用的训练加速组件库,沉淀最佳实践方法论开发训练过程性能分析平台,实现性能问题智能诊断赋能业务研发优化多任务资源调度策略,提升GPU集群整体利用率为算法团队提供训练加速解决方案,缩短模型迭代周期职位要求1.精通深度学习训练加速技术,熟悉分布式训练框架设计2.掌握CUDA编程及GPU性能分析工具(nsys/torch profiler)3.熟练使用PyTorch框架,具备训练流程优化实战经验4.熟悉常见模型压缩技术(量化/剪枝/蒸馏)及落地应用5.具备大规模集群资源调度系统开发经验者优先【技术加分项】1.有mmcv//deepspeed/megatron/ray等训练框架开发经验2.算子优化经验,triton/cuda等开发经验.3.熟悉MPI/NCCL等分布式通信协议4.在MLSys/ICLR等顶会发表过训练优化相关论文小米科技校招内推码: 1ZKSZUE投递链接: https://xiaomi.jobs.f.mioffice.cn/s/ig0XgB1AK8E地点:北京小米科技园联系邮箱:libin37@xiaomi.com