AI Infra操作系统工程师-阿里巴巴2027届实习生

薪资面议
C++
上海/杭州/北京
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
在这里,你将成为大模型技术落地的"幕后推手"。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施,通过软硬件协同优化,解决大模型在训练、推理、Agent 基础设施中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率,为 AI 时代的算力底座注入核心动力。 具体的职责包括以下相关方向的一项或多项: 1. 面向 AI Infra 的操作系统:参与核心模块的设计与开发,包括 AI 训练、推理与 Agent 任务的资源调度、内存/显存管理、文件系统等底层系统的研发与优化。 2. 极致训练、推理与 Agent 软硬件协同优化:通过操作系统、Agent Sandbox、CUDA Runtime、KVCache 全栈优化 AI 工作负载 // 面向AI服务器优化,软硬件协同优化。 3. 工程效能提升与智能化:设计和实施系统级测试方案,包括单元测试、集成测试、性能测试和压力测试,保障系统稳定性和可靠性。 4. 运维监控系统建设:负责AI算力平台的日常运维、故障排查和性能监控,构建自动化运维工具和可观测性体系。 5. AI 可信计算体系建设:参与 AI Infra 以及 AI Agent 系统安全机制设计,包括资源隔离、权限控制、漏洞修复等,保障多租户环境下的系统安全技术探索。 6. 前沿 AIOS 技术探索:跟踪 AI Infra 前沿技术,探索 AI 与操作系统融合的创新方向,推动 AIOS 技术演进和开源社区贡献。
岗位要求
专业领域: 1. 计算机、软件工程、电子工程或相关专业。 2. 热衷于数据结构和算法、在ACM大赛成绩优异者优先;有顶会论文/高影响项目/开源贡献者加分。 3. 专业能力: ○ 系统工程与编程能力:具备良好的系统工程基础,熟悉 Linux 开发环境,掌握 Python、C/C++、Rust、Go 等至少一门编程语言,具备扎实的工程实现能力; ○ AIOS 系统领域专业知识:对于以下领域中的一项或者多项具备专业能力; ○ 了解 Linux 操作系统内核机制,具备扎实的系统级编程能力。有Linux内核开发、虚拟化技术、容器运行时、分布式系统或 AI 算力优化相关经验优先; ○ 了解 GPU 架构和 CUDA 编程,了解主流模型推理框架的运行机制。有 Pytorch、SGLang、vLLM、Mooncake 等开源项目经历优先; ○ 了解系统级测试方法和自动化测试框架。具备性能测试和压力测试实习经历的加分; ○ 了解系统监控和可观测性技术。熟悉 Prometheus、Grafana等监控工具; ○ 了解系统安全机制,包括资源隔离、权限控制、漏洞修复等。例如:了解操作系统安全机制,有 Confidential Containers 等开源项目经历; ○ 加分项:参与过开源操作系统项目、AI 基础设施项目或在系统顶会(OSDI/SOSP/ASPLOS)发表过论文。 AI 能力: 1. 问题解决:善于把复杂的系统工程挑战拆解为可优化的明确目标,判断哪些环节适合自动化、哪些需要人工干预和深度调优。 2. 批判性思考:对操作系统性能数据和 AI 工具的优化建议保持审慎,能识别瓶颈根源,不盲信表面指标,愿意深入底层验证和追问。 3. 学习判断力:对 AI Infra 和 OS 新技术有强烈好奇心,能快速上手并评估新工具、新框架对现有系统架构的真实价值。 4. 协作沉淀:能与多种角色围绕 AI 基础设施高效协同,善用 AI 编程工具提升效率,将个人实践转化为团队可复用的工具和流程。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 500 个职位