AI Infra测试开发工程师-存储方向-阿里巴巴2027届实习生

薪资面议
测试工程师
成都/上海/杭州
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
1. 质量体系构建 - 构建针对AI infra 的各种存储系统的专项质量防线。重点验证系统在多种计算和GPU形态下,训练,推理和Agent场景下的规模、多租户隔离、数据强一致性、稳定系与故障自愈、以及元数据与数据性能等方面的表现。 2. 自动化与工程化能力建设 - 框架与门禁:主导自动化测试框架演进与 CI/CD 回归体系建设,建立涵盖功能、性能、稳定性的多维度质量门禁(Release Gate)。 - 复杂环境编排:搭建可复现、弹性伸缩的测试基线环境,支持""各类计算形态+ 存储类型""的矩阵式组合验证,覆盖单机至千卡万卡集群规模。 3. 场景化系统验证 - 端到端负载验证:针对大模型训练(Checkpoint 频繁写入/加载)与推理(模型权重快速分发)典型负载,开展稳定性、性能(吞吐/延迟/IOPS)、精度三位一体的系统级验证。 - 存算协同优化:如深入分析在高并发读取下的带宽瓶颈,在预训练数据集加载中的缓存效率,以及 IO 抖动问题等,通过根因定位推动软硬件协同缺陷闭环。 4. 方法论沉淀与效能赋能 - 资产标准化:提炼通用的存储压力测试模型、数据一致性校验工具及故障注入脚本,形成标准化的 AI Infra 测试方法论。 - 质量内建:赋能研发团队,通过左移测试策略,加速从底层存储引擎到上层 AI 应用栈的高质量迭代。
岗位要求
1. 核心技术栈能力 • 具备 AI 全栈测试经验:熟悉 GPU 驱动、编译器、算子库、深度学习框架及容器化调度工具链的质量保障流程。 • 具备云产品、分布式系统测试经验优先,举例如: - 例1:深入理解块存储原理,有 iSCSI/NVMe-oF 或云盘类产品测试经验者优先; - 例2:熟悉 对象存储协议(S3/OSS),了解分片上传、生命周期管理及元数据性能调优; - 例3:精通高性能并行文件存储(如 Lustre, GPFS, CephFS, JuiceFS 等),理解客户端缓存、条带化策略及元数据服务器架构,有大模型训练数据存储优化经验者优先; 2. 测试设计与执行 • 擅长设计覆盖边界条件、异常场景(如节点宕机、网络分区、磁盘满、元数据风暴)的测试用例,确保系统在极端工况下的鲁棒性。 • 能够构建复杂的存算耦合场景,验证数据不同系统和内存等流转过程中的正确性与效率。 3. 性能分析与调优 • 熟练使用专业工具(iostat, fio, perf, nvprof, Nsight Systems 等)进行全链路性能剖析。 • 能够独立输出数据驱动的性能瓶颈分析报告,针对 IO 等待、元数据延迟、带宽饱和等问题提出具体的架构或参数优化建议。 4. 精度与一致性验证 • 掌握数值精度验证方法,能识别因存储介质错误或传输压缩导致的静默数据损坏(Silent Data Corruption)。 • 具备跨版本、跨平台的功能与性能差异对比分析能力。 5. 工程开发与工具链 • 精通 Python (pytest)或 Go/C++ (GoogleTest),具备开发大规模自动化测试脚本、数据生成器及故障注入工具的能力。 • 熟悉 CI/CD 流水线集成,有开发自定义 Jenkins/GitLab CI Plugin 或 K8s Test Operator 经验者优先。 6. 问题定位与调试 • 熟练运用 GDB, Valgrind, eBPF, 日志分析系统及内核追踪工具,具备在复杂分布式环境下精准定位 存储服务端与 AI 客户端 交互缺陷的能力。 7.能力特质: • 具备强烈的质量主人翁意识,对系统稳定性有敬畏心,具备出色的系统性思维,能从全链路视角设计测试防护网; • 具备快速学习新技术的能力,并乐于将前沿AI Infra动态转化为质量保障实践; • 具备优秀的跨团队沟通与推动力,能在复杂协作中建立质量共识,面对模糊性和高压时,保持务实、冷静、结果导向。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 506 个职位