AI Infra网络研发工程师

薪资面议
人工智能
杭州
不限
5天/周
最少3个月
有转正
岗位关键词
岗位职责
1.AI推理网络性能优化 ● 负责设计和优化大规模推理系统中GPU集群的高性能网络架构,支持GPU间通信、KV Cache远端访问、分布式存储数据读写等场景,提供极致的网络通信性能。 ● 深入研究和应用RDMA、GPUDirect等技术,优化集体通信(AllReduce、All-to-All)及点对点通信性能,解决大规模并发下的网络拥塞与丢包问题。 ● 开发与调优网络协议栈(如TCP/IP、RDMA、自定义传输协议),结合AI框架(PyTorch/TensorFlow)和集合通信库(NCCL),实现通信与计算的深度融合与流水线并行。 2.Agentic网络基础设施构建 ● 构建高可用、低延迟的AI Agent接入网关,支持海量用户访问AI应用时的负载均衡、流量调度、ingress/egress连接管理,保障服务SLA。 ● 设计与优化接入层协议(如HTTP/3、WebSocket、gRPC),处理Agent交互中的长连接保持、消息路由、安全认证及限流熔断等机制。 ● 协同上层业务团队,针对强化学习(RL)后训练以及AI Agent动态交互特性(如容器/Sandbox资源构建、工具调用、多轮对话等)进行端到端网络性能分析与瓶颈突破,包括网络管控链路和数据转发链路。
岗位要求
1. AI通用能力: ● 系统思维:具备独立思考分析与系统化解决问题能力,喜欢从底层视角拆解问题,能够从 0 到 1 推进复杂项目落地 ● 沟通协作:有良好的沟通协作与跨团队推动能力,能够与产品、业务、硬件、算法等多方高效协同 ● 探索热情:对网络系统和 AI 技术持续保持好奇心和创新精神,对于技术突破充满热情,自驱力和学习力强,有意愿在该领域长期深耕 ● 乐观抗压:喜欢挑战性的技术研发工作,善于攻坚克难,积极乐观,坚韧抗压,结果导向 2. AI技能: ● AI基础设施与框架理解:深入理解主流AI框架(PyTorch/TensorFlow)的底层通信机制,熟悉集合通信库(NCCL)的工作原理,能够针对AI训练和推理场景进行网络层面的适配与调优。 ● 大模型推理系统优化:掌握大模型推理的核心技术,理解分布式推理中的张量并行、流水线并行对网络带宽和延迟的具体需求,熟悉KV Cache远端访问等显存优化技术对网络I/O的影响。 ● Agentic应用支持能力:理解AI Agent的运行逻辑,包括工具调用、沙箱环境构建及多轮对话状态管理,能够针对Agent的动态交互特性设计相应的网络接入与流量调度策略。 ● AI网络性能分析:熟练使用各类性能分析工具,能够对AI工作负载下的网络流量进行抓包分析与建模,识别计算与通信重叠(Overlap)中的瓶颈。 3. 专业领域: ● 高性能网络架构设计:精通TCP/IP协议栈,具备深厚的网络编程功底,有开发自定义传输协议或优化现有协议栈(如内核旁路、零拷贝)的实战经验。 ● RDMA与GPU通信技术:专家级掌握RDMA(RoCE v2/InfiniBand)技术,熟悉GPUDirect RDMA/TCP等硬件加速技术,有大规模GPU集群下AllReduce、All-to-All等集合通信优化的成功案例。 ● 云原生与流量网关技术:精通Kubernetes网络模型,熟悉Ingress/Egress流量管理,有高并发场景下负载均衡、限流熔断、安全认证网关的设计与开发经验。 ● NFV/SDN与智能网络:熟悉网络功能虚拟化(NFV)和软件定义网络(SDN)架构,能够利用智能网卡(SmartNIC/DPU)进行硬件卸载,实现网络功能的加速与灵活编排。 加分项: ● 有顶级开源社区(Linux Kernel、PyTorch、vLLM、LM cache、Envoy AI Gateway等)的实质性贡献经验。 ● 发表过系统优化、并行计算或AI相关的学术论文(CCF A/B类以上)。 ● 有大规模分布式系统的设计与实现经验,理解分布式系统的核心问题。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报