云数据中心及人工智能系统实习生

280-380元/天
人工智能
上海
硕士
4天/周
最少6个月
岗位关键词

投递时间:2026年4月27日-2026年6月27日

岗位职责
职位描述(Job Description) 在该岗位中,你将与系统可靠性研究团队/平台工程团队合作,聚焦于 RAS(Reliability, Availability, Serviceability:可靠性/可用性/可维护性) 以及 静默数据错误 SDE(Silent Data Error) 的特性分析(表征)与缓解(mitigation),覆盖 AI 与通用计算平台,包括异构系统(CPU + GPU/加速器)以及大规模服务器集群。 你将协助在具有代表性的 AI 训练/推理 与 云工作负载下设计并运行实验,分析集群规模(fleet-scale)的日志/遥测数据,并原型化(prototype)检测/诊断方法,以提升贯穿 硬件/固件/操作系统/运行时(HW/FW/OS/runtime) 全栈的端到端数据完整性与平台鲁棒性。 工作职责(Responsibilities,包括但不限于) ● 收集、清洗并分析来自 CPU 服务器及带加速器节点的平台遥测/错误日志(例如:内存 DDR/HBM、存储、互连、PCIe/CXL、fabric 互联等),识别错误特征(error signatures)与失效模式(failure patterns)。 ● 设计并执行故障注入(fault injection)、压力测试或工作负载驱动实验,复现 AI 训练/推理与通用计算负载中的静默数据损坏场景,并验证假设。 ● 研究并分析生产/在役环境中的 **in-field scan(在役扫描)**与 **lockstep mode(锁步模式)**能力(覆盖范围、局限性、触发条件、对 AI/CPU 工作负载的影响等),并评估如何在量产环境中利用这些能力提升静默错误检测与数据完整性。 ● 研究并分析 **SLM(Silicon Lifecycle Management:硅生命周期管理)**方案,并将其与平台遥测结合,实现在线健康监测、退化/趋势分析,以及面向 AI/CPU 平台的主动可靠性提升。 ● 开发脚本/工具(优先 Python)以自动化数据处理、实验编排与报告生成;必要时构建仪表盘(dashboard)或可复用的数据流水线(pipeline)。 ● 学习并评估 AI + CPU 平台的缓解技术(例如:ECC/CRC/EDAC、scrubbing 策略、重试/恢复、检查点/重启、在数据/通信边界的端到端校验等),并量化其有效性与性能/成本影响之间的权衡。 ● 与跨职能团队协作(硬件 HW、固件 FW、操作系统 OS、驱动/运行时 driver/runtime、数据中心运维 datacenter operations),追踪错误传播路径并推动可落地改进;撰写文档并定期汇报进展与结论。 任职资格(Qualifications) 我们优先考虑对 AI 与通用计算平台上的系统可靠性/数据完整性研究感兴趣的候选人。要求包括但不限于: ● 硕士/博士生(PhD):计算机科学/计算机工程/电子工程/数学/统计或相关专业。 ● 扎实的 Python 编程能力;具备 Linux 使用经验与基础脚本能力;熟悉 GitHub Copilot者加分。 ● 较强的数据分析能力;有 **pandas / numpy / matplotlib、SQL 或日志分析(log analytics)**经验者加分。 ● 具备计算机体系结构与系统基础理解(如内存层次、存储、网络等)者优先;熟悉 RAS 相关概念(如 ECC、CRC、奇偶校验 parity、scrubbing、检查点 checkpoints 等)者加分。 ● 了解 AI 系统栈者加分:GPU/加速器、驱动/运行时、分布式训练/推理、集体通信(communication collectives)、数据流水线,以及性能与可靠性的权衡。 ● 需要具备良好的 中文与英文沟通能力(口头与书面)。 ● 具备研究思维:能够提出假设、设计实验,并撰写清晰的技术报告。
岗位要求
职位描述(Job Description) 在该岗位中,你将与系统可靠性研究团队/平台工程团队合作,聚焦于 RAS(Reliability, Availability, Serviceability:可靠性/可用性/可维护性) 以及 静默数据错误 SDE(Silent Data Error) 的特性分析(表征)与缓解(mitigation),覆盖 AI 与通用计算平台,包括异构系统(CPU + GPU/加速器)以及大规模服务器集群。 你将协助在具有代表性的 AI 训练/推理 与 云工作负载下设计并运行实验,分析集群规模(fleet-scale)的日志/遥测数据,并原型化(prototype)检测/诊断方法,以提升贯穿 硬件/固件/操作系统/运行时(HW/FW/OS/runtime) 全栈的端到端数据完整性与平台鲁棒性。 ________________________________________ 工作职责(Responsibilities,包括但不限于) • 收集、清洗并分析来自 CPU 服务器及带加速器节点的平台遥测/错误日志(例如:内存 DDR/HBM、存储、互连、PCIe/CXL、fabric 互联等),识别错误特征(error signatures)与失效模式(failure patterns)。 • 设计并执行故障注入(fault injection)、压力测试或工作负载驱动实验,复现 AI 训练/推理与通用计算负载中的静默数据损坏场景,并验证假设。 • 研究并分析生产/在役环境中的 **in-field scan(在役扫描)**与 **lockstep mode(锁步模式)**能力(覆盖范围、局限性、触发条件、对 AI/CPU 工作负载的影响等),并评估如何在量产环境中利用这些能力提升静默错误检测与数据完整性。 • 研究并分析 **SLM(Silicon Lifecycle Management:硅生命周期管理)**方案,并将其与平台遥测结合,实现在线健康监测、退化/趋势分析,以及面向 AI/CPU 平台的主动可靠性提升。 • 开发脚本/工具(优先 Python)以自动化数据处理、实验编排与报告生成;必要时构建仪表盘(dashboard)或可复用的数据流水线(pipeline)。 • 学习并评估 AI + CPU 平台的缓解技术(例如:ECC/CRC/EDAC、scrubbing 策略、重试/恢复、检查点/重启、在数据/通信边界的端到端校验等),并量化其有效性与性能/成本影响之间的权衡。 • 与跨职能团队协作(硬件 HW、固件 FW、操作系统 OS、驱动/运行时 driver/runtime、数据中心运维 datacenter operations),追踪错误传播路径并推动可落地改进;撰写文档并定期汇报进展与结论。 ________________________________________ 任职资格(Qualifications) 我们优先考虑对 AI 与通用计算平台上的系统可靠性/数据完整性研究感兴趣的候选人。要求包括但不限于: • 硕士/博士生(PhD):计算机科学/计算机工程/电子工程/数学/统计或相关专业。 • 扎实的 Python 编程能力;具备 Linux 使用经验与基础脚本能力;熟悉 GitHub Copilot者加分。 • 较强的数据分析能力;有 **pandas / numpy / matplotlib、SQL 或日志分析(log analytics)**经验者加分。 • 具备计算机体系结构与系统基础理解(如内存层次、存储、网络等)者优先;熟悉 RAS 相关概念(如 ECC、CRC、奇偶校验 parity、scrubbing、检查点 checkpoints 等)者加分。 • 了解 AI 系统栈者加分:GPU/加速器、驱动/运行时、分布式训练/推理、集体通信(communication collectives)、数据流水线,以及性能与可靠性的权衡。 • 需要具备良好的 中文与英文沟通能力(口头与书面)。 • 具备研究思维:能够提出假设、设计实验,并撰写清晰的技术报告。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报