招人啦~~~AI Infra工程师-容器方向
#阿里巴巴##阿里云##实习##27届##暑期实习##阿里内推#
https://campus-talent.alibaba.com/campus/position/199904000019?campusShareCode=R3QdFmbOasp8MfTe3_InYnjtfAdjzLqj8zJJQLsLtfxAZCB1GA3xmxs_pc6XEFlP&batchId=100000540002
基础信息
毕业起止时间要求
2026-11-01 - 2027-10-31
职位类别
技术类
招聘项目
阿里巴巴2027届实习生
职位描述
你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态,参与构建支撑超大规模 AI 集群的容器化基础设施,通过对调度、存储、网络等核心组件的深度定制与优化,打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度,提升 GPU 集群的吞吐量与资源利用率,为 AI 时代的算力底座注入极致性能。
具体的职责包括以下相关方向的一项或多项:
1. AI 容器调度与编排优化:
深度优化 Kubernetes 调度器,实现面向 GPU 拓扑感知的算力分配,解决大规模分布式训练任务的资源碎裂问题。
设计并实现面向 AI Agent 的弹性调度策略,通过多级缓存、预加载等手段,实现分钟级到秒级的 Agent 快速拉起与自动伸缩。
2. AI 高性能存储与网络底座:
针对 AI 大规模 checkpoint 与数据读取场景,优化容器存储挂载性能,通过存储卸载与并行化技术,解决分布式训练中的 I/O 阻塞问题。
优化容器网络性能(如 RDMA/RoCE 深度集成),通过内核态路径优化,降低推理请求的网络传输延迟。
3. AI 工程平台架构设计与效率提升:
负责大型 AI 项目工程平台的架构设计与规划,通过构建标准化的云原生技术底座,确保复杂计算场景下的系统高可用性与可扩展性。
针对大规模 AI 任务执行过程中的痛点进行架构级优化,通过降低系统开销与资源冗余,显著提升系统运行效率。
定义面向 AI 场景的资源管控标准与作业管理规范,解决大规模并行任务下的资源争抢与隔离难题,确保高负载生产环境的稳定性。
4. AI 基础设施极致加速:
研发面向 AI 推理与 Agent 运行的轻量化容器运行时,实现计算资源的极致弹性与高密部署。
构建 AI 场景下的监控与调优平台,深度剖析容器化环境下的性能瓶颈,实现从底层硬件到应用层的全链路性能优化。
负责容器镜像基础服务设计与研发,针对 AI 业务特征及需求,深度优化产品架构及技术实现,为 AI 业务大规模使用等场景提供高效极致的产品能力。
设计研发基于AI的智能应用弹性及资源弹性产品能力,推动对AI应用场景的端到端弹性伸缩优化。
设计研发自主智能运维Agent,通过自动故障感知根因定位与自愈决策闭环,提升运维效率。"
职位要求
1. 基础条件:
计算机、软件工程等相关专业优先。
热衷于数据结构和算法,在 ACM/ICPC 等竞赛中成绩优异者优先;有 K8s 或容器相关开源社区贡献(Kubernetes/KubeFlow/Volcano/OpenKruise等)或高性能存储/网络开发经验者加分。
2. 专业能力:
系统工程与编程能力: 具备扎实的 Linux 系统底层基础(熟悉网络栈、文件系统、进程管理等),熟练掌握 Go 语言(核心)、Java、Python 或 C++,具备复杂的分布式系统调试能力。
容器与编排生态: 对 Kubernetes 架构有深入理解,熟悉容器 Runtime(Docker/containerd/CRI)原理,有 K8s 自定义 Controller/Scheduler 开发经验者优先。
AI 系统领域专业知识:
理解 AI 推理/训练的资源特征(如显存、带宽、通信模式)。
熟悉容器化环境下 AI /Agent任务的架构及部署链路,了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory管理等环节。
对大规模分布式工程架构有一定理解,关注系统的高可用性、可观测性及研发效能的提升。
3. 能力特质:
极致的性能追求:乐于挑战“毫秒级”的延迟瓶颈,具备良好的性能分析工具(如 ebpf, perf, flamegraph 等)使用与系统调优能力。
工程化思维:具备良好的系统抽象与架构设计能力,能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
跨域协同:具备良好的技术视野,能够与模型算法工程师高效沟通,理解算力对业务的支撑逻辑,从底层视角拆解并解决 AI 工程挑战。
极客精神:对 AI 大模型技术充满热情,渴望在分布式系统与大规模算力平台的交汇处实现技术突破。
https://campus-talent.alibaba.com/campus/position/199904000019?campusShareCode=R3QdFmbOasp8MfTe3_InYnjtfAdjzLqj8zJJQLsLtfxAZCB1GA3xmxs_pc6XEFlP&batchId=100000540002
基础信息
毕业起止时间要求
2026-11-01 - 2027-10-31
职位类别
技术类
招聘项目
阿里巴巴2027届实习生
职位描述
你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态,参与构建支撑超大规模 AI 集群的容器化基础设施,通过对调度、存储、网络等核心组件的深度定制与优化,打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度,提升 GPU 集群的吞吐量与资源利用率,为 AI 时代的算力底座注入极致性能。
具体的职责包括以下相关方向的一项或多项:
1. AI 容器调度与编排优化:
深度优化 Kubernetes 调度器,实现面向 GPU 拓扑感知的算力分配,解决大规模分布式训练任务的资源碎裂问题。
设计并实现面向 AI Agent 的弹性调度策略,通过多级缓存、预加载等手段,实现分钟级到秒级的 Agent 快速拉起与自动伸缩。
2. AI 高性能存储与网络底座:
针对 AI 大规模 checkpoint 与数据读取场景,优化容器存储挂载性能,通过存储卸载与并行化技术,解决分布式训练中的 I/O 阻塞问题。
优化容器网络性能(如 RDMA/RoCE 深度集成),通过内核态路径优化,降低推理请求的网络传输延迟。
3. AI 工程平台架构设计与效率提升:
负责大型 AI 项目工程平台的架构设计与规划,通过构建标准化的云原生技术底座,确保复杂计算场景下的系统高可用性与可扩展性。
针对大规模 AI 任务执行过程中的痛点进行架构级优化,通过降低系统开销与资源冗余,显著提升系统运行效率。
定义面向 AI 场景的资源管控标准与作业管理规范,解决大规模并行任务下的资源争抢与隔离难题,确保高负载生产环境的稳定性。
4. AI 基础设施极致加速:
研发面向 AI 推理与 Agent 运行的轻量化容器运行时,实现计算资源的极致弹性与高密部署。
构建 AI 场景下的监控与调优平台,深度剖析容器化环境下的性能瓶颈,实现从底层硬件到应用层的全链路性能优化。
负责容器镜像基础服务设计与研发,针对 AI 业务特征及需求,深度优化产品架构及技术实现,为 AI 业务大规模使用等场景提供高效极致的产品能力。
设计研发基于AI的智能应用弹性及资源弹性产品能力,推动对AI应用场景的端到端弹性伸缩优化。
设计研发自主智能运维Agent,通过自动故障感知根因定位与自愈决策闭环,提升运维效率。"
职位要求
1. 基础条件:
计算机、软件工程等相关专业优先。
热衷于数据结构和算法,在 ACM/ICPC 等竞赛中成绩优异者优先;有 K8s 或容器相关开源社区贡献(Kubernetes/KubeFlow/Volcano/OpenKruise等)或高性能存储/网络开发经验者加分。
2. 专业能力:
系统工程与编程能力: 具备扎实的 Linux 系统底层基础(熟悉网络栈、文件系统、进程管理等),熟练掌握 Go 语言(核心)、Java、Python 或 C++,具备复杂的分布式系统调试能力。
容器与编排生态: 对 Kubernetes 架构有深入理解,熟悉容器 Runtime(Docker/containerd/CRI)原理,有 K8s 自定义 Controller/Scheduler 开发经验者优先。
AI 系统领域专业知识:
理解 AI 推理/训练的资源特征(如显存、带宽、通信模式)。
熟悉容器化环境下 AI /Agent任务的架构及部署链路,了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory管理等环节。
对大规模分布式工程架构有一定理解,关注系统的高可用性、可观测性及研发效能的提升。
3. 能力特质:
极致的性能追求:乐于挑战“毫秒级”的延迟瓶颈,具备良好的性能分析工具(如 ebpf, perf, flamegraph 等)使用与系统调优能力。
工程化思维:具备良好的系统抽象与架构设计能力,能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
跨域协同:具备良好的技术视野,能够与模型算法工程师高效沟通,理解算力对业务的支撑逻辑,从底层视角拆解并解决 AI 工程挑战。
极客精神:对 AI 大模型技术充满热情,渴望在分布式系统与大规模算力平台的交汇处实现技术突破。
全部评论
相关推荐
04-15 22:52
门头沟学院 Unity3D客户端 点赞 评论 收藏
分享
02-25 12:06
天津大学 嵌入式硬件工程师 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看12道真题和解析