AI Infra工程师-计算方向-阿里巴巴2027届实习生

薪资面议

C++

本科

卢先生 4分钟前在线

阿里巴巴集团·高级招聘经理

投递时间：2026年4月24日-2027年4月24日

岗位职责

AI 时代的到来为云计算的进一步发展提供了前所未有的广阔舞台，为云计算基础设施带来全新的机遇和挑战。加入我们一起打造 AI 时代持续领先的计算基础设施，依托阿里自研神龙虚拟化架构、CIPU处理器、灵骏智算、以及业界领先的云计算调度能力和容器化管理能力等，你将参与构建支撑亿级计算核心、十万卡级 GPU 集群的规模的 AI 计算基础设施。我们致力于通过软硬件协同优化、虚拟化与容器化技术创新，解决模型训练、模型推理，Agent、超大规模资源调度全链路中的极致工程挑战。你的代码将直接运行在阿里核心的计算产品中——决定大模型分布式训练的通信效率、推理引擎的响应延迟、GPU 集群的资源利用率，以及百万级服务器的弹性调度与智能运维。加入我们，全球顶尖 AI 模型注入最强劲的算力引擎！具体的职责包括以下相关方向的一项或多项： 1. 算力基建与分布式训练加速： ● 深入分布式训练架构，优化集合通信（AllReduce/AllGather）与底层算子性能，解决大规模集群通信瓶颈，提升模型训练的吞吐量与计算效率；参与研究新的训练框架和并行模式（DP/TP/PP/EP）。 ● 针对大规模推理场景，研发高性能推理引擎，通过 Kernel 优化、KV Cache 管理、框架改进与算法协同优化等手段，实现极致的低延迟与高并发。 2. 高性能网络与通信基础设施： ● 研发面向 AI 超算的大规模高性能网络（200G/400G/800G）及通信基础设施, 优化降低分布式训练与推理的网络传输延迟。 ● 负责 AI/高性能计算所需的高性能分布式通信框架研发，优化容器网络性能，保障海量任务的极致通信效率。 3. 加速计算与 GPU 集群管理： ● 持续探索前沿 GPU 架构设计与技术，结合业务需求构建高可用、高可靠、可扩展的加速计算技术体系。 ● 构建加算计算算力统一管理系统，实现智算集群中 GPU 资源的全面监控、质量巡检、故障预测与性能水平标定（SLO），保障算力资源的稳定一致性。 4. 虚拟化与系统软件研发： ● 在 Intel/AMD/ARM 等新硬件平台进行 Hypervisor 关键特性研发，使能硬件加速能力（VT-x/EPT/SR-IOV），基于 DPU/CIPU 的加速与卸载方案研发，降低虚拟化性能开销。 ● 负责云平台 CPU 调度器/内存管理系统/IO 资源虚拟化的设计研发与优化，提升资源利用效率与运维弹性，为Agentic AI提供可靠、高效、低成本的执行环境。 ● 基于 TDX/SEV 等硬件安全能力，打造面向 AI 场景的机密计算解决方案，保护云上租户的模型与数据安全。 5. 容器化调度与编排优化： ● 深度优化 Kubernetes 调度器，实现面向 GPU 拓扑感知的算力分配，解决大规模分布式训练任务的资源碎片化问题。 ● 研发面向 AI 推理与 Agent 运行的轻量化沙箱算力，实现计算资源的极致弹性与高密部署。 ● 设计并实现面向 AI 工作负载的弹性调度策略，通过多级缓存、预加载等手段，实现 AI 任务与 Agent 的秒级快速拉起与自动伸缩。 6. 智能化集群管理与 AIOps： ● 构建超大规模基础设施的智能化集群管理系统，涵盖资源调度、监控报警、自动化运维等核心能力，实现算力资源的弹性分配与自动化运维闭环。 ● 设计研发自主智能运维 Agent，通过自动故障感知、根因定位与自愈决策闭环，提升大规模集群的运维效率与稳定性。 7. AI 工程平台与效率提升： ● 打造一体化的 AI 研发平台，覆盖大模型训练、推理、调度的全流程，降低模型迭代门槛，提升研发效能。 ● 探索 Serverless 等新场景下面向 AI 计算的解决方案，设计研发基于 AI 的智能应用弹性及资源弹性产品能力，推动端到端弹性伸缩优化。"

岗位要求

1. 基础条件： ● 计算机、软件工程、人工智能等相关专业优先。 ● 热衷于数据结构和算法，在 ACM/ICPC 等竞赛中成绩优异者优先。 ● 在系统、体系结构或 AI 领域顶会（如 OSDI, SOSP, ASPLOS, ISCA, MICRO, MLSys, SIGCOMM, NSDI 等）发表过论文，或在核心开源项目中有重大贡献（Maintainer/Committer）者优先考虑。 2. 专业能力（系统工程与计算底座）： ● 系统编程功底：精通 C/C++、Go、Python 或 Rust 中至少一门语言，具备扎实的系统级编程能力。熟悉 Linux 内核（调度器、内存管理、网络栈、文件系统、cgroups）及高性能网络开发（Socket, RDMA, DPDK/SPDK），具备极强的底层工程实现与缺陷排查能力。 ● 分布式系统与云原生：深刻理解分布式系统基本原理（如一致性、容错、扩展性等）；对 Kubernetes 架构有一定理解，熟悉容器 Runtime（Docker/containerd/CRI）原理者优先；了解虚拟化技术（KVM/QEMU/Xen）或 DPU/智能网卡架构者加分。 3. AI 计算领域专业知识（满足其一即可）： ● 了解 AI 的基本原理与常见算法，理解模型训练/推理任务的基本流程及其资源需求（如显存、带宽、通信模式），了解主流训练推理框架（如 PyTorch、Megatron-LM、DeepSpeed、vLLM、SGLang）的基本使用方式。 ● 了解异构计算或高性能计算体系，熟悉 GPU 体系结构（PCIe/NVLink/NVSwitch）及相关编程模型（CUDA），有 GPU 相关优化经验者优先。 ● 熟悉容器化环境下 AI 任务的架构及部署链路，了解如何通过容器/虚拟化技术优化模型加载、Checkpoint 保存、Memory 管理等环节。 ● 了解 x86/ARM 体系结构，熟悉 CPU 虚拟化（VT-x）、内存虚拟化（EPT）、IO 虚拟化（SR-IOV/VFIO）等核心模块原理者优先。 4. 能力特质： ● 全局技术视野：具备跨域的技术视野，能从""GPU 算子 → HBM 显存 → NVLink/PCIe 总线 → RDMA 网卡 → 分布式调度器 → K8s 编排""的全链路视角拆解计算流程，准确把握计算、网络与调度的边界权衡。 ● 系统思维与极致追求：乐于挑战复杂系统的性能极限，熟练使用各种 Profiling & Tracing 工具（如 eBPF、perf、ftrace、Nsight Systems、flamegraph），善于从 CPU 缓存未命中、上下文切换、锁竞争等微观视角定位并解决性能瓶颈。 ● 业务驱动与跨域协同：对 AI 大模型技术充满热情，不仅能交付高质量的系统级代码，更能与算法科学家、模型训练专家进行深度技术对话，将模型侧的痛点精准转化为底层计算基础设施的工程解法。 ● 极客精神：具备快速学习新技术的能力，渴望在高性能计算与大规模算力平台的交汇处实现技术突破；拒绝纸上谈兵，有自己独立完成的技术项目或开源贡献，展现极客精神。【加分项】 ● 在 GitHub 等开源社区有较大影响力的技术项目，作为 Collaborator/Committer/Member 优先；有 K8s/容器相关开源社区贡献（Kubernetes/KubeFlow/Volcano/OpenKruise 等）或 Linux 内核社区贡献者加分。 ● 有高性能网络/RDMA 开发经验，或有 GPU 编程（CUDA）与性能优化实战经验。 ● 有虚拟化/DPU/智能网卡开发经验，或有在离线混部、长尾延时优化等系统调优经验。 ● 获得过业界有影响力的专利

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里巴巴集团

电商

不需要融资

杭州市

查看其他 506 个职位

0 笔试题目 4473 面试经验 2538 面试短评