AI Infra高性能网络研发工程师-阿里巴巴2027届实习生

薪资面议
C++
杭州/北京
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
1. 智算网络架构设计与演进: 负责千卡/万卡级AI训练集群的网络架构规划与设计,主导基于RoCE v2、Solar/Stellar等高性能网络技术的落地,确保低延迟、高吞吐的网络环境以支撑大模型训练效率; 2. 高性能网络优化: 深入分析分布式训练中的网络瓶颈,通过拥塞控制算法调优、流量调度策略优化、网卡参数微调等手段,极致提升集群线性加速比; 3. 自动化运维体系构建: 设计并实施网络自动化、智能化运维方案,利用AI Agent驱动实现配置管理、故障自愈及性能监控,构建可观测性极强的智能网络运维平台; 4. 前沿技术探索与落地: 跟踪业界最新网络硬件(如1.6Tbps RDMA网卡和DPU)及协议标准(RDMA、PCIe、NVLINK、ETH+等),推动新技术在现网中的验证与规模化部署; 5. 跨部门协同与故障攻坚: 与算法、系统、存储团队紧密协作,解决复杂场景下的网络疑难杂症,保障核心业务99.99%的高可用性。
岗位要求
专业领域: 1. 计算机、通信、电子工程等相关专业; 2. 专业能力: 有ACM/NOI/IOI等编程大赛获奖经历者优先,有主导开源项目(star > 1K)经验者优先,有CCF-A类会议和期刊论文者优先; 3. 专业经验: 有大型数据中心网络建设运维经验,有RDMA协议设计经验,或有NCCL/DeepEP/MPI等通信库研发经验者优先; 4. 技术深度: 精通集合通信原理,精通CUDA编程,有AllReduce、All2All、Allgather等集合通信算子开发经验; 精通TCP/IP协议栈,深刻理解RDMA (RoCE v2)、PFC、ECN、DCQCN等流控与拥塞控制机制; 熟悉主流网络设备(如NVIDIA/Mellanox, Broadcom等)的架构与配置; 具备扎实的编程能力(Python/Go/C++),有网络自动化开发或内核网络栈修改经验者极佳。 5. 问题解决: 具备极强的逻辑分析能力,善于使用抓包工具、遥测数据定位深层次网络问题,能在高压下快速恢复业务; 6. 综合素质: 对技术充满热情,具备良好的沟通协作能力和文档撰写习惯,拥有严谨的工程思维。 AI能力: 1. 拥抱AI思维:对AI带来的技术变革保持敏锐好奇心,对试用AI提升平台研发、网络Infra运维效率与优化有学习热情,愿意探索“AI+网络”的无限可能; 2. 探索AI协同(人机协同):能快速学习并运用AI编程助手提升研发效率,具备开放的技术视野,并乐于探索人机协同解决复杂工程问题的新模式; 3. 基础知识:了解大模型/AIOps/机器学习/深度学习的基本原理,对AI模型训练、推理、Agentic-AI等核心概念有基本认知,不局限于特定领域应用; 4. 实践意愿:对AI技术在网络Infra中的应用有浓厚兴趣,无论是“AI+运维”、“AI+数据分析”、“AI+Coding”,还是其他创新方向,都愿意通过代码实践去验证想法,从0到1探索技术边界。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 506 个职位