AI Infra测试开发工程师-存储方向-阿里巴巴2027届实习生
薪资面议
测试工程师 成都/上海/杭州 本科

投递时间:2026年4月24日-2027年4月24日
岗位职责
1. 质量体系构建
- 构建针对AI infra 的各种存储系统的专项质量防线。重点验证系统在多种计算和GPU形态下,训练,推理和Agent场景下的规模、多租户隔离、数据强一致性、稳定系与故障自愈、以及元数据与数据性能等方面的表现。
2. 自动化与工程化能力建设
- 框架与门禁:主导自动化测试框架演进与 CI/CD 回归体系建设,建立涵盖功能、性能、稳定性的多维度质量门禁(Release Gate)。
- 复杂环境编排:搭建可复现、弹性伸缩的测试基线环境,支持""各类计算形态+ 存储类型""的矩阵式组合验证,覆盖单机至千卡万卡集群规模。
3. 场景化系统验证
- 端到端负载验证:针对大模型训练(Checkpoint 频繁写入/加载)与推理(模型权重快速分发)典型负载,开展稳定性、性能(吞吐/延迟/IOPS)、精度三位一体的系统级验证。
- 存算协同优化:如深入分析在高并发读取下的带宽瓶颈,在预训练数据集加载中的缓存效率,以及 IO 抖动问题等,通过根因定位推动软硬件协同缺陷闭环。
4. 方法论沉淀与效能赋能
- 资产标准化:提炼通用的存储压力测试模型、数据一致性校验工具及故障注入脚本,形成标准化的 AI Infra 测试方法论。
- 质量内建:赋能研发团队,通过左移测试策略,加速从底层存储引擎到上层 AI 应用栈的高质量迭代。
岗位要求
1. 核心技术栈能力
• 具备 AI 全栈测试经验:熟悉 GPU 驱动、编译器、算子库、深度学习框架及容器化调度工具链的质量保障流程。
• 具备云产品、分布式系统测试经验优先,举例如:
- 例1:深入理解块存储原理,有 iSCSI/NVMe-oF 或云盘类产品测试经验者优先;
- 例2:熟悉 对象存储协议(S3/OSS),了解分片上传、生命周期管理及元数据性能调优;
- 例3:精通高性能并行文件存储(如 Lustre, GPFS, CephFS, JuiceFS 等),理解客户端缓存、条带化策略及元数据服务器架构,有大模型训练数据存储优化经验者优先;
2. 测试设计与执行
• 擅长设计覆盖边界条件、异常场景(如节点宕机、网络分区、磁盘满、元数据风暴)的测试用例,确保系统在极端工况下的鲁棒性。
• 能够构建复杂的存算耦合场景,验证数据不同系统和内存等流转过程中的正确性与效率。
3. 性能分析与调优
• 熟练使用专业工具(iostat, fio, perf, nvprof, Nsight Systems 等)进行全链路性能剖析。
• 能够独立输出数据驱动的性能瓶颈分析报告,针对 IO 等待、元数据延迟、带宽饱和等问题提出具体的架构或参数优化建议。
4. 精度与一致性验证
• 掌握数值精度验证方法,能识别因存储介质错误或传输压缩导致的静默数据损坏(Silent Data Corruption)。
• 具备跨版本、跨平台的功能与性能差异对比分析能力。
5. 工程开发与工具链
• 精通 Python (pytest)或 Go/C++ (GoogleTest),具备开发大规模自动化测试脚本、数据生成器及故障注入工具的能力。
• 熟悉 CI/CD 流水线集成,有开发自定义 Jenkins/GitLab CI Plugin 或 K8s Test Operator 经验者优先。
6. 问题定位与调试
• 熟练运用 GDB, Valgrind, eBPF, 日志分析系统及内核追踪工具,具备在复杂分布式环境下精准定位 存储服务端与 AI 客户端 交互缺陷的能力。
7.能力特质:
• 具备强烈的质量主人翁意识,对系统稳定性有敬畏心,具备出色的系统性思维,能从全链路视角设计测试防护网;
• 具备快速学习新技术的能力,并乐于将前沿AI Infra动态转化为质量保障实践;
• 具备优秀的跨团队沟通与推动力,能在复杂协作中建立质量共识,面对模糊性和高压时,保持务实、冷静、结果导向。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报