招人啦~~~AI Infra工程师-容器方向

#阿里巴巴##阿里云##实习##27届##暑期实习##阿里内推#

https://campus-talent.alibaba.com/campus/position/199904000019?campusShareCode=R3QdFmbOasp8MfTe3_InYnjtfAdjzLqj8zJJQLsLtfxAZCB1GA3xmxs_pc6XEFlP&batchId=100000540002
基础信息
毕业起止时间要求
2026-11-01 - 2027-10-31
职位类别
技术类
招聘项目
阿里巴巴2027届实习生
职位描述
你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态，参与构建支撑超大规模 AI 集群的容器化基础设施，通过对调度、存储、网络等核心组件的深度定制与优化，打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度，提升 GPU 集群的吞吐量与资源利用率，为 AI 时代的算力底座注入极致性能。
具体的职责包括以下相关方向的一项或多项：
1. AI 容器调度与编排优化：
    深度优化 Kubernetes 调度器，实现面向 GPU 拓扑感知的算力分配，解决大规模分布式训练任务的资源碎裂问题。
    设计并实现面向 AI Agent 的弹性调度策略，通过多级缓存、预加载等手段，实现分钟级到秒级的 Agent 快速拉起与自动伸缩。
2. AI 高性能存储与网络底座：
    针对 AI 大规模 checkpoint 与数据读取场景，优化容器存储挂载性能，通过存储卸载与并行化技术，解决分布式训练中的 I/O 阻塞问题。
    优化容器网络性能（如 RDMA/RoCE 深度集成），通过内核态路径优化，降低推理请求的网络传输延迟。
3. AI 工程平台架构设计与效率提升：
    负责大型 AI 项目工程平台的架构设计与规划，通过构建标准化的云原生技术底座，确保复杂计算场景下的系统高可用性与可扩展性。
    针对大规模 AI 任务执行过程中的痛点进行架构级优化，通过降低系统开销与资源冗余，显著提升系统运行效率。
    定义面向 AI 场景的资源管控标准与作业管理规范，解决大规模并行任务下的资源争抢与隔离难题，确保高负载生产环境的稳定性。
4. AI 基础设施极致加速：
    研发面向 AI 推理与 Agent 运行的轻量化容器运行时，实现计算资源的极致弹性与高密部署。
    构建 AI 场景下的监控与调优平台，深度剖析容器化环境下的性能瓶颈，实现从底层硬件到应用层的全链路性能优化。
    负责容器镜像基础服务设计与研发，针对 AI 业务特征及需求，深度优化产品架构及技术实现，为 AI 业务大规模使用等场景提供高效极致的产品能力。
    设计研发基于AI的智能应用弹性及资源弹性产品能力，推动对AI应用场景的端到端弹性伸缩优化。
    设计研发自主智能运维Agent，通过自动故障感知根因定位与自愈决策闭环，提升运维效率。"
职位要求
1. 基础条件：
    计算机、软件工程等相关专业优先。
    热衷于数据结构和算法，在 ACM/ICPC 等竞赛中成绩优异者优先；有 K8s 或容器相关开源社区贡献（Kubernetes/KubeFlow/Volcano/OpenKruise等）或高性能存储/网络开发经验者加分。
2. 专业能力：
    系统工程与编程能力：具备扎实的 Linux 系统底层基础（熟悉网络栈、文件系统、进程管理等），熟练掌握 Go 语言（核心）、Java、Python 或 C++，具备复杂的分布式系统调试能力。
    容器与编排生态：对 Kubernetes 架构有深入理解，熟悉容器 Runtime（Docker/containerd/CRI）原理，有 K8s 自定义 Controller/Scheduler 开发经验者优先。
    AI 系统领域专业知识：
    理解 AI 推理/训练的资源特征（如显存、带宽、通信模式）。
    熟悉容器化环境下 AI /Agent任务的架构及部署链路，了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory管理等环节。
    对大规模分布式工程架构有一定理解，关注系统的高可用性、可观测性及研发效能的提升。
3. 能力特质：
    极致的性能追求：乐于挑战“毫秒级”的延迟瓶颈，具备良好的性能分析工具（如 ebpf, perf, flamegraph 等）使用与系统调优能力。
    工程化思维：具备良好的系统抽象与架构设计能力，能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
    跨域协同：具备良好的技术视野，能够与模型算法工程师高效沟通，理解算力对业务的支撑逻辑，从底层视角拆解并解决 AI 工程挑战。
    极客精神：对 AI 大模型技术充满热情，渴望在分布式系统与大规模算力平台的交汇处实现技术突破。

招人啦~~~AI Infra工程师-容器方向

全站热榜

创作者周榜