阿里云AI Infra校招暑期实习岗位求人！！！

校园招聘职位描述（JD）

职位名称：阿里云智算平台研发工程师（AI Infra 方向）
工作地点
北京、杭州
关于我们：打造 AI 时代的算力基座
我们是阿里云专有云 IaaS 产品架构与研发 - 算力平台研发团队，核心使命是：为 AI 大模型训练与推理构建世界级的智算基础设施。

随着大模型进入万卡时代，传统基础设施已无法满足 AI 对高性能、高稳定、高弹性、高智能的严苛要求。我们正从“资源交付平台”向“AI 原生算力操作系统”演进——不仅提供裸金属、GPU、DPU 等硬件资源，更通过 AI 驱动的智能调度、自愈、可观测与优化能力，让算力“看得见、管得住、用得好”。
我们的工作直接支撑通义千问、通义万相等阿里大模型的训练集群，以及外部客户的大规模万卡集群的 AI 训练/推理业务。

技术方向（任一方向均可深入）
ꔷ AI 原生 Serverless 容器平台
构建面向 AI 工作负载的 Serverless 引擎，支持一键提交训练任务，自动扩缩容、秒级交付，让用户专注模型创新。
ꔷ GPU 与异构算力智能调度
实现 AI 拓扑感知调度：基于 GPU/NIC/RoCE 拓扑、通信带宽、NUMA 距离等，结合 AI 知识图谱，为大模型训练选择最优节点组合，最大化 AllReduce 效率。
ꔷ 智算稳定性与自愈体系
构建 AI 驱动的故障治理体系：利用故障知识图谱实现根因定位（RCA）基于历史故障数据预测爆炸半径（Blast Radius）自动执行隔离、迁移、重试，保障万卡训练不中断
ꔷ AI 算力健康度深度检测
设计 AI Infra 健康分模型：融合硬件指标（ECC、NVLink error）、系统日志、作业行为实时评估节点“是否适合跑 LLM 训练”提前预警潜在风险，避免训练中途失败
ꔷ 智算基础平台与国产化适配
打造统一底座，支持 NVIDIA、壁仞、沐曦、昇腾等国产异构芯片，实现驱动、固件、OS 层的自动化管理与兼容性验证。
ꔷ 智算运维控制台与 OpenAPI
构建面向 AI 工程师的产品化体验：可视化集群拓扑、训练任务追踪、资源水位分析、一键诊断等。

你将参与的核心工作
1. 开发 GPU 虚拟化（kGPU/MIG）与 DPU 卸载技术，提升 AI 算力密度；
2. 优化 K8s 调度器（Scheduler）、Device Plugin（DP）、Extended Resource（EP），支持万卡级 AI 作业调度；
3. 构建裸金属监控与自愈系统，实现 MTTR < 5 分钟、ETTR ≈ 0 的高可用目标；
4. 设计超节点（SuperNode）架构，打通计算、存储、网络，为大模型训练提供极致性能；
5. 利用 AI 知识图谱 + 时序异常检测，实现算力基础设施的智能运维（AIOps）；
6. 为 AI 大模型训练/推理集群提供端到端的稳定性、效率与安全保证。

我们希望你（满足以下 2–4 项即可）
1. 熟悉平台研发流程，有 Go / Python 开发经验；
2. 熟悉 Kubernetes 工作机制，能独立创建、调试 K8s 应用；
3. 了解 GPU 作业调度机制，熟悉 K8s 调度器基本原理；
4. 有 GPU 虚拟化（用户态/内核态/MIG）部署或调试经验；
5. 了解 GPU 算力故障监控、诊断、自愈、可视化相关技术；
6. 熟悉大规模集群管理，如 PXE 装机、OverlayFS、镜像分发等；
7. 对 AI 基础设施、大模型训练流程、AIOps 有浓厚兴趣或实践经验。

为什么加入我们？
✅ 直面 AI 时代最前沿挑战：你写的代码，正在支撑千亿参数大模型的训练；
✅ 全栈技术成长：从 Linux 内核、DPU 驱动，到 K8s 调度、AI 知识图谱，技术纵深极强；
✅ 真实万卡集群实战：不是模拟环境，而是每天处理 PB 级日志、调度数千 GPU 的生产系统；
✅ AI + Infra 双轮驱动：你不仅写基础设施，更用 AI 重塑基础设施；
✅ 开放、极客、结果导向的团队文化，鼓励技术创新与快速落地。

面向人群
2027 届本科/硕士/博士毕业生计算机、软件工程、人工智能、电子信息等相关专业热爱底层系统，对 AI 基础设施有强烈好奇心

投递方式
请将简历发送至：[**********]
邮件标题格式：【智算平台研发】姓名 + 学校 + 意向方向（如：GPU调度 / AIOps / 国产化）
在这里，你不是在“维护服务器”，而是在“构建 AI 时代的算力引擎”。
加入我们，一起让万卡集群像一台超级计算机一样稳定、高效、智能地运行！

阿里云AI Infra校招暑期实习岗位求人！！！

全站热榜

创作者周榜