AI Infra网络研发工程师

薪资面议

人工智能

不限

5天/周

最少3个月

有转正

谢先生本周在线

阿里云计算有限公司·基础平台开发

反馈率：99% | 反馈时长：2天

岗位关键词

岗位职责

1.AI推理网络性能优化 ● 负责设计和优化大规模推理系统中GPU集群的高性能网络架构，支持GPU间通信、KV Cache远端访问、分布式存储数据读写等场景，提供极致的网络通信性能。 ● 深入研究和应用RDMA、GPUDirect等技术，优化集体通信（AllReduce、All-to-All）及点对点通信性能，解决大规模并发下的网络拥塞与丢包问题。 ● 开发与调优网络协议栈（如TCP/IP、RDMA、自定义传输协议），结合AI框架（PyTorch/TensorFlow）和集合通信库（NCCL），实现通信与计算的深度融合与流水线并行。 2.Agentic网络基础设施构建 ● 构建高可用、低延迟的AI Agent接入网关，支持海量用户访问AI应用时的负载均衡、流量调度、ingress/egress连接管理，保障服务SLA。 ● 设计与优化接入层协议（如HTTP/3、WebSocket、gRPC），处理Agent交互中的长连接保持、消息路由、安全认证及限流熔断等机制。 ● 协同上层业务团队，针对强化学习（RL）后训练以及AI Agent动态交互特性（如容器/Sandbox资源构建、工具调用、多轮对话等）进行端到端网络性能分析与瓶颈突破，包括网络管控链路和数据转发链路。

岗位要求

1. AI通用能力: ● 系统思维：具备独立思考分析与系统化解决问题能力，喜欢从底层视角拆解问题，能够从 0 到 1 推进复杂项目落地 ● 沟通协作：有良好的沟通协作与跨团队推动能力，能够与产品、业务、硬件、算法等多方高效协同 ● 探索热情：对网络系统和 AI 技术持续保持好奇心和创新精神，对于技术突破充满热情，自驱力和学习力强，有意愿在该领域长期深耕 ● 乐观抗压：喜欢挑战性的技术研发工作，善于攻坚克难，积极乐观，坚韧抗压，结果导向 2. AI技能: ● AI基础设施与框架理解：深入理解主流AI框架（PyTorch/TensorFlow）的底层通信机制，熟悉集合通信库（NCCL）的工作原理，能够针对AI训练和推理场景进行网络层面的适配与调优。 ● 大模型推理系统优化：掌握大模型推理的核心技术，理解分布式推理中的张量并行、流水线并行对网络带宽和延迟的具体需求，熟悉KV Cache远端访问等显存优化技术对网络I/O的影响。 ● Agentic应用支持能力：理解AI Agent的运行逻辑，包括工具调用、沙箱环境构建及多轮对话状态管理，能够针对Agent的动态交互特性设计相应的网络接入与流量调度策略。 ● AI网络性能分析：熟练使用各类性能分析工具，能够对AI工作负载下的网络流量进行抓包分析与建模，识别计算与通信重叠（Overlap）中的瓶颈。 3. 专业领域: ● 高性能网络架构设计：精通TCP/IP协议栈，具备深厚的网络编程功底，有开发自定义传输协议或优化现有协议栈（如内核旁路、零拷贝）的实战经验。 ● RDMA与GPU通信技术：专家级掌握RDMA（RoCE v2/InfiniBand）技术，熟悉GPUDirect RDMA/TCP等硬件加速技术，有大规模GPU集群下AllReduce、All-to-All等集合通信优化的成功案例。 ● 云原生与流量网关技术：精通Kubernetes网络模型，熟悉Ingress/Egress流量管理，有高并发场景下负载均衡、限流熔断、安全认证网关的设计与开发经验。 ● NFV/SDN与智能网络：熟悉网络功能虚拟化（NFV）和软件定义网络（SDN）架构，能够利用智能网卡（SmartNIC/DPU）进行硬件卸载，实现网络功能的加速与灵活编排。加分项: ● 有顶级开源社区（Linux Kernel、PyTorch、vLLM、LM cache、Envoy AI Gateway等）的实质性贡献经验。 ● 发表过系统优化、并行计算或AI相关的学术论文（CCF A/B类以上）。 ● 有大规模分布式系统的设计与实现经验，理解分布式系统的核心问题。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里云

企业服务

已上市

杭州

查看其他 224 个职位

8 笔试题目 310 面试经验 8 面试短评