阿里云暑期实习招人了,氛围好hc多,速速速速来!

职位名称:阿里云智算平台研发工程师(AI Infra 方向)
工作地点
北京、杭州
关于我们:打造 AI 时代的算力基座
我们是 阿里云 IaaS 产品架构与研发 - 算力平台研发团队,核心使命是:为 AI 大模型训练与推理构建世界级的智算基础设施。

随着大模型进入万卡时代,传统基础设施已无法满足 AI 对高性能、高稳定、高弹性、高智能的严苛要求。我们正从“资源交付平台”向“AI 原生算力操作系统”演进——不仅提供裸金属、GPU、DPU 等硬件资源,更通过 AI 驱动的智能调度、自愈、可观测与优化能力,让算力“看得见、管得住、用得好”。
我们的工作直接支撑通义千问、通义万相等阿里大模型的训练集群,以及外部客户的大规模万卡集群的 AI 训练/推理业务。

技术方向(任一方向均可深入)
ꔷ AI 原生 Serverless 容器平台
构建面向 AI 工作负载的 Serverless 引擎,支持一键提交训练任务,自动扩缩容、秒级交付,让用户专注模型创新。
ꔷ GPU 与异构算力智能调度
实现 AI 拓扑感知调度:基于 GPU/NIC/RoCE 拓扑、通信带宽、NUMA 距离等,结合 AI 知识图谱,为大模型训练选择最优节点组合,最大化 AllReduce 效率。
ꔷ 智算稳定性与自愈体系
构建 AI 驱动的故障治理体系:利用 故障知识图谱 实现根因定位(RCA)基于历史故障数据预测 爆炸半径(Blast Radius)自动执行隔离、迁移、重试,保障万卡训练不中断
ꔷ AI 算力健康度深度检测
设计 AI Infra 健康分模型:融合硬件指标(ECC、NVLink error)、系统日志、作业行为实时评估节点“是否适合跑 LLM 训练”提前预警潜在风险,避免训练中途失败
ꔷ 智算基础平台与国产化适配
打造统一底座,支持 NVIDIA、壁仞、沐曦、昇腾等 国产异构芯片,实现驱动、固件、OS 层的自动化管理与兼容性验证。
ꔷ 智算运维控制台与 OpenAPI
构建面向 AI 工程师的产品化体验:可视化集群拓扑、训练任务追踪、资源水位分析、一键诊断等。

你将参与的核心工作
1. 开发 GPU 虚拟化(kGPU/MIG)与 DPU 卸载 技术,提升 AI 算力密度;
2. 优化 K8s 调度器(Scheduler)、Device Plugin(DP)、Extended Resource(EP),支持万卡级 AI 作业调度;
3. 构建 裸金属监控与自愈系统,实现 MTTR < 5 分钟、ETTR ≈ 0 的高可用目标;
4. 设计 超节点(SuperNode)架构,打通计算、存储、网络,为大模型训练提供极致性能;
5. 利用 AI 知识图谱 + 时序异常检测,实现算力基础设施的 智能运维(AIOps);
6. 为 AI 大模型训练/推理集群 提供端到端的稳定性、效率与安全保证。

我们希望你
1. 熟悉平台研发流程,有 Go / Python 开发经验;
2. 熟悉 Kubernetes 工作机制,能独立创建、调试 K8s 应用;
3. 了解 GPU 作业调度机制,熟悉 K8s 调度器基本原理;
4. 有 GPU 虚拟化(用户态/内核态/MIG)部署或调试经验;
5. 了解 GPU 算力故障监控、诊断、自愈、可视化 相关技术;
6. 熟悉 大规模集群管理,如 PXE 装机、OverlayFS、镜像分发等;
7. 对 AI 基础设施、大模型训练流程、AIOps 有浓厚兴趣或实践经验。

为什么加入我们?
✅ 直面 AI 时代最前沿挑战:你写的代码,正在支撑千亿参数大模型的训练;
✅ 全栈技术成长:从 Linux 内核、DPU 驱动,到 K8s 调度、AI 知识图谱,技术纵深极强;
✅ 真实万卡集群实战:不是模拟环境,而是每天处理 PB 级日志、调度数千 GPU 的生产系统;
✅ AI + Infra 双轮驱动:你不仅写基础设施,更用 AI 重塑基础设施;
✅ 开放、极客、结果导向 的团队文化,鼓励技术创新与快速落地。

面向人群
2027 届本科/硕士/博士毕业生计算机、软件工程、人工智能、电子信息等相关专业热爱底层系统,对 AI 基础设施有强烈好奇心
#阿里云##27 届实习##转正实习##牛客AI配图神器#
全部评论

相关推荐

03-19 14:52
已编辑
西安交通大学城市学院 C++
校园招聘职位描述(JD)职位名称:阿里云智算平台研发工程师(AI&nbsp;Infra&nbsp;方向)工作地点北京、杭州关于我们:打造&nbsp;AI&nbsp;时代的算力基座我们是&nbsp;阿里云专有云&nbsp;IaaS&nbsp;产品架构与研发&nbsp;-&nbsp;算力平台研发团队,核心使命是:为&nbsp;AI&nbsp;大模型训练与推理构建世界级的智算基础设施。随着大模型进入万卡时代,传统基础设施已无法满足&nbsp;AI&nbsp;对高性能、高稳定、高弹性、高智能的严苛要求。我们正从“资源交付平台”向“AI&nbsp;原生算力操作系统”演进——不仅提供裸金属、GPU、DPU&nbsp;等硬件资源,更通过&nbsp;AI&nbsp;驱动的智能调度、自愈、可观测与优化能力,让算力“看得见、管得住、用得好”。我们的工作直接支撑通义千问、通义万相等阿里大模型的训练集群,以及外部客户的大规模万卡集群的&nbsp;AI&nbsp;训练/推理业务。技术方向(任一方向均可深入)ꔷ&nbsp;AI&nbsp;原生&nbsp;Serverless&nbsp;容器平台构建面向&nbsp;AI&nbsp;工作负载的&nbsp;Serverless&nbsp;引擎,支持一键提交训练任务,自动扩缩容、秒级交付,让用户专注模型创新。ꔷ&nbsp;GPU&nbsp;与异构算力智能调度实现&nbsp;AI&nbsp;拓扑感知调度:基于&nbsp;GPU/NIC/RoCE&nbsp;拓扑、通信带宽、NUMA&nbsp;距离等,结合&nbsp;AI&nbsp;知识图谱,为大模型训练选择最优节点组合,最大化&nbsp;AllReduce&nbsp;效率。ꔷ&nbsp;智算稳定性与自愈体系构建&nbsp;AI&nbsp;驱动的故障治理体系:利用&nbsp;故障知识图谱&nbsp;实现根因定位(RCA)基于历史故障数据预测&nbsp;爆炸半径(Blast&nbsp;Radius)自动执行隔离、迁移、重试,保障万卡训练不中断ꔷ&nbsp;AI&nbsp;算力健康度深度检测设计&nbsp;AI&nbsp;Infra&nbsp;健康分模型:融合硬件指标(ECC、NVLink&nbsp;error)、系统日志、作业行为实时评估节点“是否适合跑&nbsp;LLM&nbsp;训练”提前预警潜在风险,避免训练中途失败ꔷ&nbsp;智算基础平台与国产化适配打造统一底座,支持&nbsp;NVIDIA、壁仞、沐曦、昇腾等&nbsp;国产异构芯片,实现驱动、固件、OS&nbsp;层的自动化管理与兼容性验证。ꔷ&nbsp;智算运维控制台与&nbsp;OpenAPI构建面向&nbsp;AI&nbsp;工程师的产品化体验:可视化集群拓扑、训练任务追踪、资源水位分析、一键诊断等。你将参与的核心工作1.&nbsp;开发&nbsp;GPU&nbsp;虚拟化(kGPU/MIG)与&nbsp;DPU&nbsp;卸载&nbsp;技术,提升&nbsp;AI&nbsp;算力密度;2.&nbsp;优化&nbsp;K8s&nbsp;调度器(Scheduler)、Device&nbsp;Plugin(DP)、Extended&nbsp;Resource(EP),支持万卡级&nbsp;AI&nbsp;作业调度;3.&nbsp;构建&nbsp;裸金属监控与自愈系统,实现&nbsp;MTTR&nbsp;&lt;&nbsp;5&nbsp;分钟、ETTR&nbsp;≈&nbsp;0&nbsp;的高可用目标;4.&nbsp;设计&nbsp;超节点(SuperNode)架构,打通计算、存储、网络,为大模型训练提供极致性能;5.&nbsp;利用&nbsp;AI&nbsp;知识图谱&nbsp;+&nbsp;时序异常检测,实现算力基础设施的&nbsp;智能运维(AIOps);6.&nbsp;为&nbsp;AI&nbsp;大模型训练/推理集群&nbsp;提供端到端的稳定性、效率与安全保证。我们希望你(满足以下&nbsp;2–4&nbsp;项即可)1.&nbsp;熟悉平台研发流程,有&nbsp;Go&nbsp;/&nbsp;Python&nbsp;开发经验;2.&nbsp;熟悉&nbsp;Kubernetes&nbsp;工作机制,能独立创建、调试&nbsp;K8s&nbsp;应用;3.&nbsp;了解&nbsp;GPU&nbsp;作业调度机制,熟悉&nbsp;K8s&nbsp;调度器基本原理;4.&nbsp;有&nbsp;GPU&nbsp;虚拟化(用户态/内核态/MIG)部署或调试经验;5.&nbsp;了解&nbsp;GPU&nbsp;算力故障监控、诊断、自愈、可视化&nbsp;相关技术;6.&nbsp;熟悉&nbsp;大规模集群管理,如&nbsp;PXE&nbsp;装机、OverlayFS、镜像分发等;7.&nbsp;对&nbsp;AI&nbsp;基础设施、大模型训练流程、AIOps&nbsp;有浓厚兴趣或实践经验。为什么加入我们?✅&nbsp;直面&nbsp;AI&nbsp;时代最前沿挑战:你写的代码,正在支撑千亿参数大模型的训练;✅&nbsp;全栈技术成长:从&nbsp;Linux&nbsp;内核、DPU&nbsp;驱动,到&nbsp;K8s&nbsp;调度、AI&nbsp;知识图谱,技术纵深极强;✅&nbsp;真实万卡集群实战:不是模拟环境,而是每天处理&nbsp;PB&nbsp;级日志、调度数千&nbsp;GPU&nbsp;的生产系统;✅&nbsp;AI&nbsp;+&nbsp;Infra&nbsp;双轮驱动:你不仅写基础设施,更用&nbsp;AI&nbsp;重塑基础设施;✅&nbsp;开放、极客、结果导向&nbsp;的团队文化,鼓励技术创新与快速落地。面向人群2027&nbsp;届本科/硕士/博士毕业生计算机、软件工程、人工智能、电子信息等相关专业热爱底层系统,对&nbsp;AI&nbsp;基础设施有强烈好奇心投递方式请将简历发送至:[**********]邮件标题格式:【智算平台研发】姓名&nbsp;+&nbsp;学校&nbsp;+&nbsp;意向方向(如:GPU调度&nbsp;/&nbsp;AIOps&nbsp;/&nbsp;国产化)在这里,你不是在“维护服务器”,而是在“构建&nbsp;AI&nbsp;时代的算力引擎”。加入我们,一起让万卡集群像一台超级计算机一样稳定、高效、智能地运行!
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务