AI Infra工程师-计算方向-阿里巴巴2027届实习生
薪资面议
C++ 上海/杭州/北京 本科

投递时间:2026年4月24日-2027年4月24日
岗位职责
AI 时代的到来为云计算的进一步发展提供了前所未有的广阔舞台,为云计算基础设施带来全新的机遇和挑战。加入我们一起打造 AI 时代持续领先的计算基础设施,依托阿里自研神龙虚拟化架构、CIPU处理器、灵骏智算、以及业界领先的云计算调度能力和容器化管理能力等,你将参与构建支撑亿级计算核心、十万卡级 GPU 集群的规模的 AI 计算基础设施。
我们致力于通过软硬件协同优化、虚拟化与容器化技术创新,解决模型训练、模型推理,Agent、超大规模资源调度全链路中的极致工程挑战。你的代码将直接运行在阿里核心的计算产品中——决定大模型分布式训练的通信效率、推理引擎的响应延迟、GPU 集群的资源利用率,以及百万级服务器的弹性调度与智能运维。加入我们,全球顶尖 AI 模型注入最强劲的算力引擎!
具体的职责包括以下相关方向的一项或多项:
1. 算力基建与分布式训练加速:
● 深入分布式训练架构,优化集合通信(AllReduce/AllGather)与底层算子性能,解决大规模集群通信瓶颈,提升模型训练的吞吐量与计算效率;参与研究新的训练框架和并行模式(DP/TP/PP/EP)。
● 针对大规模推理场景,研发高性能推理引擎,通过 Kernel 优化、KV Cache 管理、框架改进与算法协同优化等手段,实现极致的低延迟与高并发。
2. 高性能网络与通信基础设施:
● 研发面向 AI 超算的大规模高性能网络(200G/400G/800G)及通信基础设施, 优化降低分布式训练与推理的网络传输延迟。
● 负责 AI/高性能计算所需的高性能分布式通信框架研发,优化容器网络性能,保障海量任务的极致通信效率。
3. 加速计算与 GPU 集群管理:
● 持续探索前沿 GPU 架构设计与技术,结合业务需求构建高可用、高可靠、可扩展的加速计算技术体系。
● 构建加算计算算力统一管理系统,实现智算集群中 GPU 资源的全面监控、质量巡检、故障预测与性能水平标定(SLO),保障算力资源的稳定一致性。
4. 虚拟化与系统软件研发:
● 在 Intel/AMD/ARM 等新硬件平台进行 Hypervisor 关键特性研发,使能硬件加速能力(VT-x/EPT/SR-IOV),基于 DPU/CIPU 的加速与卸载方案研发,降低虚拟化性能开销。
● 负责云平台 CPU 调度器/内存管理系统/IO 资源虚拟化的设计研发与优化,提升资源利用效率与运维弹性,为Agentic AI提供可靠、高效、低成本的执行环境。
● 基于 TDX/SEV 等硬件安全能力,打造面向 AI 场景的机密计算解决方案,保护云上租户的模型与数据安全。
5. 容器化调度与编排优化:
● 深度优化 Kubernetes 调度器,实现面向 GPU 拓扑感知的算力分配,解决大规模分布式训练任务的资源碎片化问题。
● 研发面向 AI 推理与 Agent 运行的轻量化沙箱算力,实现计算资源的极致弹性与高密部署。
● 设计并实现面向 AI 工作负载的弹性调度策略,通过多级缓存、预加载等手段,实现 AI 任务与 Agent 的秒级快速拉起与自动伸缩。
6. 智能化集群管理与 AIOps:
● 构建超大规模基础设施的智能化集群管理系统,涵盖资源调度、监控报警、自动化运维等核心能力,实现算力资源的弹性分配与自动化运维闭环。
● 设计研发自主智能运维 Agent,通过自动故障感知、根因定位与自愈决策闭环,提升大规模集群的运维效率与稳定性。
7. AI 工程平台与效率提升:
● 打造一体化的 AI 研发平台,覆盖大模型训练、推理、调度的全流程,降低模型迭代门槛,提升研发效能。
● 探索 Serverless 等新场景下面向 AI 计算的解决方案,设计研发基于 AI 的智能应用弹性及资源弹性产品能力,推动端到端弹性伸缩优化。"
岗位要求
1. 基础条件:
● 计算机、软件工程、人工智能等相关专业优先。
● 热衷于数据结构和算法,在 ACM/ICPC 等竞赛中成绩优异者优先。
● 在系统、体系结构或 AI 领域顶会(如 OSDI, SOSP, ASPLOS, ISCA, MICRO, MLSys, SIGCOMM, NSDI 等)发表过论文,或在核心开源项目中有重大贡献(Maintainer/Committer)者优先考虑。
2. 专业能力(系统工程与计算底座):
● 系统编程功底:精通 C/C++、Go、Python 或 Rust 中至少一门语言,具备扎实的系统级编程能力。熟悉 Linux 内核(调度器、内存管理、网络栈、文件系统、cgroups)及高性能网络开发(Socket, RDMA, DPDK/SPDK),具备极强的底层工程实现与缺陷排查能力。
● 分布式系统与云原生:深刻理解分布式系统基本原理(如一致性、容错、扩展性等);对 Kubernetes 架构有一定理解,熟悉容器 Runtime(Docker/containerd/CRI)原理者优先;了解虚拟化技术(KVM/QEMU/Xen)或 DPU/智能网卡架构者加分。
3. AI 计算领域专业知识(满足其一即可):
● 了解 AI 的基本原理与常见算法,理解模型训练/推理任务的基本流程及其资源需求(如显存、带宽、通信模式),了解主流训练推理框架(如 PyTorch、Megatron-LM、DeepSpeed、vLLM、SGLang)的基本使用方式。
● 了解异构计算或高性能计算体系,熟悉 GPU 体系结构(PCIe/NVLink/NVSwitch)及相关编程模型(CUDA),有 GPU 相关优化经验者优先。
● 熟悉容器化环境下 AI 任务的架构及部署链路,了解如何通过容器/虚拟化技术优化模型加载、Checkpoint 保存、Memory 管理等环节。
● 了解 x86/ARM 体系结构,熟悉 CPU 虚拟化(VT-x)、内存虚拟化(EPT)、IO 虚拟化(SR-IOV/VFIO)等核心模块原理者优先。
4. 能力特质:
● 全局技术视野:具备跨域的技术视野,能从""GPU 算子 → HBM 显存 → NVLink/PCIe 总线 → RDMA 网卡 → 分布式调度器 → K8s 编排""的全链路视角拆解计算流程,准确把握计算、网络与调度的边界权衡。
● 系统思维与极致追求:乐于挑战复杂系统的性能极限,熟练使用各种 Profiling & Tracing 工具(如 eBPF、perf、ftrace、Nsight Systems、flamegraph),善于从 CPU 缓存未命中、上下文切换、锁竞争等微观视角定位并解决性能瓶颈。
● 业务驱动与跨域协同:对 AI 大模型技术充满热情,不仅能交付高质量的系统级代码,更能与算法科学家、模型训练专家进行深度技术对话,将模型侧的痛点精准转化为底层计算基础设施的工程解法。
● 极客精神:具备快速学习新技术的能力,渴望在高性能计算与大规模算力平台的交汇处实现技术突破;拒绝纸上谈兵,有自己独立完成的技术项目或开源贡献,展现极客精神。
【加分项】
● 在 GitHub 等开源社区有较大影响力的技术项目,作为 Collaborator/Committer/Member 优先;有 K8s/容器相关开源社区贡献(Kubernetes/KubeFlow/Volcano/OpenKruise 等)或 Linux 内核社区贡献者加分。
● 有高性能网络/RDMA 开发经验,或有 GPU 编程(CUDA)与性能优化实战经验。
● 有虚拟化/DPU/智能网卡开发经验,或有在离线混部、长尾延时优化等系统调优经验。
● 获得过业界有影响力的专利
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报