TGT专项- 超大规模异构算力智能调度
薪资面议
算法工程师 北京 不限

投递时间:2025年5月21日-2025年10月31日
岗位职责
致力于超大规模智能算力集群和智能算力调度系统的研究与优化,主导业界领先的10万卡级异构算力基础设施体系建设,突破LLM时代超大规模计算的架构与调度瓶颈
1、负责10万卡级GPU/NPU异构算力集群规划,研究下一代算力集群的异构计算架构,探索高性能计算存储、高性能网络等前沿技术落地
2、构建10万卡级调度的分布式系统,实现资源归一化与弹性计算,开发基于强化学习的智能调度算法,优化跨集群算力利用率
3、针对LLM大模型训练推理场景,优化计算、通信策略和算子
4、规划跨地域容灾方案,硬件故障预测,构建自愈型基础设施
5、跟踪新一代AI芯片发展趋势
6、参与国际开源社区(如Kubernetes、Ray等),推动技术标准制定;
岗位要求
1、获得本科及以上学历,计算机、人工智能、自动化、数学、物理等相关专业;
2、扎实的数据结构与算法功底,熟练掌握Python、Golang、C/C++等编程技巧,具有良好的编程习惯以及工程与沟通能力;
3、在分布式系统架构(如K8s、Ray、Horovod等框架内核)、高性能计算(CUDA/Triton/OpenCL底层优化)、网络协议栈(RoCEv2、GPUDirectRDMA性能调优)、调度算法(有GangScheduling、BinPacking等)等某一方面有深入的研究,具备成熟的研究思维;
4、在以上领域有相关论文、专利或主导过开源项目优先;如CCF-A论文(如OSDI、SOSP、SIGMOD、ATC、NIPS、AAAI、ICLR等)。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报