AI Infra高性能网络研发工程师-阿里巴巴2027届实习生
薪资面议
C++ 杭州/北京 本科

投递时间:2026年4月24日-2027年4月24日
岗位职责
1. 智算网络架构设计与演进: 负责千卡/万卡级AI训练集群的网络架构规划与设计,主导基于RoCE v2、Solar/Stellar等高性能网络技术的落地,确保低延迟、高吞吐的网络环境以支撑大模型训练效率;
2. 高性能网络优化: 深入分析分布式训练中的网络瓶颈,通过拥塞控制算法调优、流量调度策略优化、网卡参数微调等手段,极致提升集群线性加速比;
3. 自动化运维体系构建: 设计并实施网络自动化、智能化运维方案,利用AI Agent驱动实现配置管理、故障自愈及性能监控,构建可观测性极强的智能网络运维平台;
4. 前沿技术探索与落地: 跟踪业界最新网络硬件(如1.6Tbps RDMA网卡和DPU)及协议标准(RDMA、PCIe、NVLINK、ETH+等),推动新技术在现网中的验证与规模化部署;
5. 跨部门协同与故障攻坚: 与算法、系统、存储团队紧密协作,解决复杂场景下的网络疑难杂症,保障核心业务99.99%的高可用性。
岗位要求
专业领域:
1. 计算机、通信、电子工程等相关专业;
2. 专业能力: 有ACM/NOI/IOI等编程大赛获奖经历者优先,有主导开源项目(star > 1K)经验者优先,有CCF-A类会议和期刊论文者优先;
3. 专业经验: 有大型数据中心网络建设运维经验,有RDMA协议设计经验,或有NCCL/DeepEP/MPI等通信库研发经验者优先;
4. 技术深度:
精通集合通信原理,精通CUDA编程,有AllReduce、All2All、Allgather等集合通信算子开发经验;
精通TCP/IP协议栈,深刻理解RDMA (RoCE v2)、PFC、ECN、DCQCN等流控与拥塞控制机制;
熟悉主流网络设备(如NVIDIA/Mellanox, Broadcom等)的架构与配置;
具备扎实的编程能力(Python/Go/C++),有网络自动化开发或内核网络栈修改经验者极佳。
5. 问题解决: 具备极强的逻辑分析能力,善于使用抓包工具、遥测数据定位深层次网络问题,能在高压下快速恢复业务;
6. 综合素质: 对技术充满热情,具备良好的沟通协作能力和文档撰写习惯,拥有严谨的工程思维。
AI能力:
1. 拥抱AI思维:对AI带来的技术变革保持敏锐好奇心,对试用AI提升平台研发、网络Infra运维效率与优化有学习热情,愿意探索“AI+网络”的无限可能;
2. 探索AI协同(人机协同):能快速学习并运用AI编程助手提升研发效率,具备开放的技术视野,并乐于探索人机协同解决复杂工程问题的新模式;
3. 基础知识:了解大模型/AIOps/机器学习/深度学习的基本原理,对AI模型训练、推理、Agentic-AI等核心概念有基本认知,不局限于特定领域应用;
4. 实践意愿:对AI技术在网络Infra中的应用有浓厚兴趣,无论是“AI+运维”、“AI+数据分析”、“AI+Coding”,还是其他创新方向,都愿意通过代码实践去验证想法,从0到1探索技术边界。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报