蚂蚁集团-超级计算技术部-算力治理 春季校园招聘
我们是谁
超级计算技术部(Super Computing Technology)是蚂蚁集团的基础软件和设施团队。我们的职责领域涵盖了中间件、编译、操作系统、资源调度、网络、数据中心等,专注于系统整体端到端效能提升、核心技术突破以及产品体系打造,致力于构建高性能、稳定、经济、绿色的超大规模算力平台,为蚂蚁上层业务(智算场景和通算场景)提供充沛有力的底座支撑和服务支持。
算力治理团队负责提供支撑全站业务的强大算力服务,算力涵盖但不限于传统的微服务、AI 训练与推理、搜索推荐、高性能分布式缓存等多个领域。秉承云原生和 Google SRE 的先进设计思想与理念,我们致力于构建一个高性能、稳定、经济且绿色的算力生态。我们的重点工作领域涵盖但不限于:
- 实施基于基础设施即代码 (IaC) 和配置驱动的多云管理平台工程
- 采用 AIOps 和 SLO 驱动的模式,不断优化算力资源的配置和使用效率
- 通过数据化运营及智能化探索大模型全生命周期、搜索推荐链路等方面指标,提升万卡训练稳定性、算力资源利用率等
职位描述
- 负责大模型工程(LLMOps)方向工作,包括模型训练、推理、模型微调、模型优化等各个阶段。
- 负责搜索引擎、推荐引擎等基础平台,及其所支撑的上层搜索、推荐、广告业务的 SRE 方向
- 负责上述产品的 SLA 体系、应急响应机制、容灾体系的建设,保障业务的持续可用
- 负责上述平台的运维自动化、全链路风险识别、数字化运营等平台的设计和开发;引领产品的稳定性保障模式向数字化、智能化方向演进。
职位要求
- 具有扎实的编程基础,至少熟悉一门开发语言(Java, C/C++, Python,GoLang……)
- 熟悉 Linux 操作系统
- 有 AI 算法、AI 工程、大数据、K8S 研发或 CNCF 项目经验优先。
我们希望你
- 热爱大数据和 AI 领域,关注业界领域动向。
- 对技术足够好奇,折腾主义者,热衷于挑战系统的各种边界和天花板。
- 喜好专治各种性能和异常的疑难杂症,并乐于做技术剖析、总结沉淀和分享。