通义ATH-AI Infra工程师

440-1000元/天

研发工程师

硕士

4天/周

最少3个月

有转正

韩先生本周在线

阿里云计算有限公司·高级开发工程师

反馈率：100% | 反馈时长：1天

岗位关键词

投递时间：2026年4月22日-2026年5月29日

岗位职责

在这里，你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施，通过软硬件协同优化，解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率，为 AI 时代的算力底座注入核心动力。具体的职责包括以下相关方向的一项或多项： 1. 算力基建与分布式训练： - 深入分布式训练架构，优化通信与底层算子性能，解决大规模集群通信瓶颈，提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。极致推理加速： - 针对大规模推理场景，研发高性能推理引擎，通过kernel、框架、与算法结合的有损优化等手段，实现极致的低延迟与高并发。 2. 智能化资源调度与系统： - 构建大规模 GPU 集群的统一调度与编排系统，实现算力资源的弹性分配与自动化调度，设计与优化面向 AI 计算场景的高性能通信、存储系统，保障海量任务的极致的效率。 3. 工程效率与平台化建设： - 打造一体化的平台，覆盖大模型研发和迭代的全流程，降低模型迭代门槛，提升研发效能。

岗位要求

1. 基础条件： - 计算机、软件工程等相关专业优先。 - 热衷于数据结构和算法、在ACM大赛成绩优异者优先；有顶会论文/高影响项目/开源贡献者加分。 2. 专业能力： - 系统工程与编程能力：具备良好的系统工程基础，熟悉 Linux 开发环境，掌握 Python、Go、Java 等至少一门编程语言，具备扎实的工程实现能力。 - 分布式系统：了解分布式系统基本原理（如一致性、容错、扩展性等）。 - AI 系统领域专业知识：对于以下领域中的一项或者多项具备专业能力 - 了解 AI 的基本原理与常见算法，理解模型训练任务的基本流程及其资源需求。 - 了解主流训练推理框架（如 PyTorch、TensorFlow、vLLM、sglang）的基本使用方式及训练流程。 - 了解异构计算或高性能计算体系，有 GPU 相关优化经验者优先。 3. 能力特质： - 沟通能力：能与跨域岗位，如：算法、产品等，进行良好的沟通。 - 跨域视野：有较宽的技术视野与知识面，对算法研发流程、数据、GPU调度、训练、推理等相关领域的技术逻辑都有涉猎。 - 系统思维：乐于挑战复杂系统的性能极限，具备良好的性能分析与调优能力，喜欢从底层视角拆解并解决问题。 - 极客精神：对 AI 大模型技术充满热情，具备快速学习新技术的能力，渴望在高性能计算领域实现技术突破。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里云

企业服务

已上市

杭州

查看其他 224 个职位

8 笔试题目 310 面试经验 8 面试短评