AI测试工程师(J10483)

薪资面议
北京市
2025-02-25
 什么是官网闪投?
简历直投官网 无需重复填写简历 投后必反馈 进度实时更新 安全可靠官网可查 海量岗位5w+ 移动端投递方便
岗位职责
欢迎加入摩尔线程KuaE 云测试组,我们专注于在大规模GPU集群上,保障AI大模型训练和推理的产品质量,通过构建领先的测试平台,确保万卡规模的模型训推性能和稳定性等,为国产大模型的发展助力。加入我们,一起探索技术的无限可能!
你的工作任务(Responsibilities)
1. 大规模分布式训练稳定性策略开发及调试。
2. 大规模分布式训练可观测体系的开发及优化。
3. 大模型训练的接入及开发。
4. 提供远程或现场的技术支持,解决客户在进行大规模分布式训练中遇到的技术问题。
5. 编写和维护技术文档,包括故障排除指南、用户手册和最佳实践。
6.调研业界最新的分布式训练技术及方案。
7. 深度参与研发产品特性开发,为研发产品支持新特性。

岗位要求
我们希望你是这样的(Who we’re looking for)
1、 计算机科学、软件工程、电子工程或相关领域的本科及以上学历。
2、 良好的逻辑思维能力,精通计算机数据结构和算法,熟悉软件测试理论;
3、 熟悉至少一种编程语言,如GoLang、Python等。
4、 了解云原生体系,对 Kubernetes,Docker有一定的了解。
5、 了解大模型训练,对当前最新大模型如Llama、Qwen、ChatGLM 等有一定的了解或接触。
6、 接触过机器学习框架(有使用经验更优),如PyTorch、Megatron-LM、DeepSpeed、Colossal-AI 等。
7、 对大规模分布式训练和模型推理感兴趣,期待做有挑战性的事情;有 owner 意识,具备团队合作的能力。