AI Infra工程师-存储方向-阿里巴巴2027届实习生

薪资面议
C++
成都/上海/杭州/深圳/北京
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
在这里,你将成为大模型时代算力底座的“核心引擎构造者”。依托阿里自研分布式存储系统与业界领先的计算网络架构,你将参与构建支撑千卡/万卡乃至十万卡规模的 AI 计算基础设施。 我们致力于通过软硬件协同优化、存算分离架构创新,解决大模型在预训练、微调、推理全链路中的极致工程挑战。你的代码将直接运行在阿里核心的 AI 存储产品中,决定千万级并发的数据加载吞吐、秒级 Checkpoint 的可靠性以及庞大 GPU 集群的 MFU(模型算力利用率)。加入我们,为全球顶尖 AI 模型注入最澎湃的数据动力! 具体的职责包括以下相关方向的一项或多项: 1. 面向 AI 计算的高性能存储系统研发:针对 AI 工作负载复杂且严苛的 I/O 特征(如海量小文件的高并发元数据检索、超大块数据的并行顺序流),进行内核态与协议栈级别的深度优化。主导研发基于 NVMe、RDMA/RoCEv2/eRDMA 的超低延时存储网络链路。 2. 极致性能的数据加载(Data Pipeline)与缓存加速:深度剖析大模型训练的数据读取链路,解决万卡集群下的 I/O 阻塞(I/O Bottleneck)与长尾延迟问题。研发面向大模型的分布式多级缓存与数据预取引擎,确保数据吞吐完全满足 GPU 显存带宽需求,实现计算与存储的完美 Overlap。 3. 云原生 AI 存储编排与智能化调度:结合 Kubernetes 生态构建云原生数据编排系统(如主导或参与 CNCF Fluid 等项目),将存储系统与计算调度平台深度集成。实现存算感知调度(Data-aware Scheduling)与弹性扩缩容,根据计算任务拓扑动态调整数据副本与亲和性策略,保障全网存储资源的极致效率。 4. Checkpointing 极致加速与容灾:针对超千亿/万亿参数模型的断点续传(Fault Tolerance)需求,设计高性能分布式持久化方案。通过内存-SSD-对象存储的分层拓扑、异步流式写入(Async I/O)、拓扑感知(Topology-aware)路由以及 GPUDirect Storage (GDS) 等技术,实现百 GB/TB 级模型权重的秒级保存与恢复,极大降低计算资源的闲置浪费。 5. 面向 Agent 使用场景的存储系统研发:通过分布式数据、元数据管理和高性能的分布式一致性协议等技术,支持海量 Agent 下的数据规模以及 IO 访问安全隔离、性能隔离。
岗位要求
1. 基础条件: ● 计算机、软件工程及相关专业。 ● 热衷于数据结构和算法,在 ACM/ICPC 等大赛中成绩优异者优先。 ● 在分布式系统、存储或操作系统领域顶会(如 FAST, OSDI, SOSP, SIGCOMM, NSDI 等)发表过一作论文,或在核心开源存储项目中有重大贡献(Maintainer/Committer)者优先考虑。 2. 专业能力(系统工程与分布式底座): ● 系统编程功底:精通 C/C++ 或 Go/Rust,具备扎实的系统级编程能力。熟悉 Linux 内核(VFS, Block Layer, Memory Management)及高性能网络开发(Socket, RDMA, DPDK/SPDK),具备极强的底层工程实现与缺陷排查能力。 ● 分布式系统:深刻理解分布式系统理论(如 Paxos/Raft 一致性协议、分布式锁、纠删码 EC、数据分片与副本管理、分布式事务)。具备大规模分布式存储(如 HDFS, Pangu)的研发或深度调优经验。 3. AI 存储领域专业知识(满足其一即可): ● 深入理解 AI 训练与推理的 I/O 模式,熟练掌握底层数据加载机制(如 PyTorch Dataloader),熟悉 Megatron-LM, DeepSpeed, Ray, vLLM 等主流分布式训练/推理框架的存储诉求。 ● 熟悉高性能存储协议及硬件架构,有 NVMe-oF, PCIe, CXL, GPUDirect Storage (GDS) 相关驱动开发与性能压测经验。 ● 深刻理解云原生架构,有大规模 Kubernetes 集群下的存储 CSI、数据缓存编排调优经验。 4. 能力特质: ● 全局技术视野:具备跨域的技术视野,能从“GPU 寄存器 -> HBM 显存 -> PCIe 总线 -> eRDMA 网卡 -> 分布式磁盘”的全链路视角拆解数据流动,准确把握计算、网络与存储的边界权衡。 ● 系统思维与极致追求:乐于挑战复杂系统的性能极限,熟练使用各种 Profiling & Tracing 工具(如 eBPF, perf, ftrace, Nsight Systems),善于从 CPU 缓存未命中、上下文切换、锁竞争等微观视角定位并解决性能瓶颈。 ● 业务驱动与沟通协作:对 AI 大模型技术充满热情,不仅能交付高质量的系统级代码,更能与算法科学家、模型训练专家进行深度技术对话,将模型侧的痛点精准转化为底层存储的工程解法。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 500 个职位