阿里云-统一算力运营平台 内推!!

机会多多,投递后留言或私聊会及时反馈进度

统一算力运营平台团队介绍
阿里云专有云(以下简称“专有云”)是阿里云智能集团面向企业级市场,历经十年精心打磨,为客户量身打造的开放、统一、可信的企业级云平台。
立足政企客户对国产自主可控与自主创新的核心诉求,紧抓AI大模型应用爆发的时代机遇,专有云致力于构建“云+数+智”一体化的下一代企业云基础设施。

面向下一个十年,专有云将继续与客户同行,打造AI时代最开放的云平台。

团队使命
统一算力运营平台团队作为专有云核心能力的构建者,聚焦企业级云平台的关键运营与服务能力,在多Region、多AZ、多集群、多芯的统一架构之上,为客户提供上云、管云、用云的全链路支撑。

🚀 上云:高效迁移,平滑演进
通过迁云平台,助力客户业务与数据快速、安全、无缝上云,降低迁移成本与风险。
🛡️ 管云:智能运维,高可用保障
提供云资源管理平台,实现跨资源池、跨云环境的统一纳管;
构建同城容灾、异地容灾与备份恢复三位一体的灾备体系,确保业务连续性与数据安全。
🌐 用云:自主运营,开放集成
打造业界领先的云运营平台,赋能客户实现自主化、可持续的云资源运营;
提供丰富的开放API与基础设施即代码(IaC) 能力,支持与客户现有IT系统深度集成。
创新方向
紧扣政企数字化转型趋势,团队持续在以下前沿领域开拓创新:

AI大模型工程化:构建面向AI开发与模型应用的一体化AI服务平台,加速大模型落地;
“一云多芯”:兼容多种国产芯片架构,保障技术自主与生态开放;
“一云多算”:融合通用计算、AI计算、高性能计算等多元算力,实现统一调度与最优分配。
统一算力运营平台团队,以技术为基、以客户为本,致力于成为政企客户迈向智能云时代的坚实伙伴。
全部评论

相关推荐

03-19 14:52
已编辑
西安交通大学城市学院 C++
校园招聘职位描述(JD)职位名称:阿里云智算平台研发工程师(AI Infra 方向)工作地点北京、杭州关于我们:打造 AI 时代的算力基座我们是 阿里云专有云 IaaS 产品架构与研发 - 算力平台研发团队,核心使命是:为 AI 大模型训练与推理构建世界级的智算基础设施。随着大模型进入万卡时代,传统基础设施已无法满足 AI 对高性能、高稳定、高弹性、高智能的严苛要求。我们正从“资源交付平台”向“AI 原生算力操作系统”演进——不仅提供裸金属、GPU、DPU 等硬件资源,更通过 AI 驱动的智能调度、自愈、可观测与优化能力,让算力“看得见、管得住、用得好”。我们的工作直接支撑通义千问、通义万相等阿里大模型的训练集群,以及外部客户的大规模万卡集群的 AI 训练/推理业务。技术方向(任一方向均可深入)ꔷ AI 原生 Serverless 容器平台构建面向 AI 工作负载的 Serverless 引擎,支持一键提交训练任务,自动扩缩容、秒级交付,让用户专注模型创新。ꔷ GPU 与异构算力智能调度实现 AI 拓扑感知调度:基于 GPU/NIC/RoCE 拓扑、通信带宽、NUMA 距离等,结合 AI 知识图谱,为大模型训练选择最优节点组合,最大化 AllReduce 效率。ꔷ 智算稳定性与自愈体系构建 AI 驱动的故障治理体系:利用 故障知识图谱 实现根因定位(RCA)基于历史故障数据预测 爆炸半径(Blast Radius)自动执行隔离、迁移、重试,保障万卡训练不中断ꔷ AI 算力健康度深度检测设计 AI Infra 健康分模型:融合硬件指标(ECC、NVLink error)、系统日志、作业行为实时评估节点“是否适合跑 LLM 训练”提前预警潜在风险,避免训练中途失败ꔷ 智算基础平台与国产化适配打造统一底座,支持 NVIDIA、壁仞、沐曦、昇腾等 国产异构芯片,实现驱动、固件、OS 层的自动化管理与兼容性验证。ꔷ 智算运维控制台与 OpenAPI构建面向 AI 工程师的产品化体验:可视化集群拓扑、训练任务追踪、资源水位分析、一键诊断等。你将参与的核心工作1. 开发 GPU 虚拟化(kGPU/MIG)与 DPU 卸载 技术,提升 AI 算力密度;2. 优化 K8s 调度器(Scheduler)、Device Plugin(DP)、Extended Resource(EP),支持万卡级 AI 作业调度;3. 构建 裸金属监控与自愈系统,实现 MTTR < 5 分钟、ETTR ≈ 0 的高可用目标;4. 设计 超节点(SuperNode)架构,打通计算、存储、网络,为大模型训练提供极致性能;5. 利用 AI 知识图谱 + 时序异常检测,实现算力基础设施的 智能运维(AIOps);6. 为 AI 大模型训练/推理集群 提供端到端的稳定性、效率与安全保证。我们希望你(满足以下 2–4 项即可)1. 熟悉平台研发流程,有 Go / Python 开发经验;2. 熟悉 Kubernetes 工作机制,能独立创建、调试 K8s 应用;3. 了解 GPU 作业调度机制,熟悉 K8s 调度器基本原理;4. 有 GPU 虚拟化(用户态/内核态/MIG)部署或调试经验;5. 了解 GPU 算力故障监控、诊断、自愈、可视化 相关技术;6. 熟悉 大规模集群管理,如 PXE 装机、OverlayFS、镜像分发等;7. 对 AI 基础设施、大模型训练流程、AIOps 有浓厚兴趣或实践经验。为什么加入我们?✅ 直面 AI 时代最前沿挑战:你写的代码,正在支撑千亿参数大模型的训练;✅ 全栈技术成长:从 Linux 内核、DPU 驱动,到 K8s 调度、AI 知识图谱,技术纵深极强;✅ 真实万卡集群实战:不是模拟环境,而是每天处理 PB 级日志、调度数千 GPU 的生产系统;✅ AI + Infra 双轮驱动:你不仅写基础设施,更用 AI 重塑基础设施;✅ 开放、极客、结果导向 的团队文化,鼓励技术创新与快速落地。面向人群2027 届本科/硕士/博士毕业生计算机、软件工程、人工智能、电子信息等相关专业热爱底层系统,对 AI 基础设施有强烈好奇心投递方式请将简历发送至:[**********]邮件标题格式:【智算平台研发】姓名 + 学校 + 意向方向(如:GPU调度 / AIOps / 国产化)在这里,你不是在“维护服务器”,而是在“构建 AI 时代的算力引擎”。加入我们,一起让万卡集群像一台超级计算机一样稳定、高效、智能地运行!
点赞 评论 收藏
分享
03-17 14:42
南京大学 Java
### 27 届实习生招募|如果你已经把 AI Coding 当成日常,我们想和你聊聊如果你对实习的想象还是:接需求、写接口、改 bug、做边角功能。那这次的岗位,**可能会不太一样**。随着 AI 技术快速发展,**软件工程的范式正在被重新定义**。未来的工程师,不再只是把 PRD 翻译成代码的人,而是能够端到端解决复杂问题的**系统构建者**。我们是一个建设 **核心电商系统技术底座** 的团队,直接支撑淘宝天猫的商业运转效率。我们做的事情,不是「为了 AI 而 AI」,而是把大模型、Agent、RAG 等前沿技术真正落到真实业务场景,让智能系统创造**可衡量、可验证的商业价值**。---### 在这里,你可能会参与的事情- **深入真实业务场景**- 做需求理解、数据分析和问题归因- 把模糊的业务痛点,转化为可落地的 AI 解决方案- **设计与实现 AI 原生系统**- 参与 Agent 系统核心模块建设- 搭建知识库、记忆系统、工具调用链路和 API 交互环境- **打造关键智能能力**- 实现意图识别、任务拆解、反思纠错、工具编排等能力- 让系统具备端到端解决问题的能力,而不仅是回答问题- **建设评测与观测体系**- 搭建自动化评测、回测和观测体系- 推动效果持续收敛与可解释、可优化- **优化工程与性能**- 在高并发场景下打磨性能、稳定性和工程可用性- 让智能系统真正经得起「线上大规模业务」的考验简单来说,你做的不是「一个 AI demo」,而是面向**真实商业环境**的**智能系统工程**。---### 我们能提供什么?- **1)顶级模型基础**- 直接接入最先进的基础大模型能力- 不只是调用 API,而是有机会参与到体系化工程方案中- **2)算力和调用自由**- 少一点 quota 焦虑,多一点大胆实验- 我们希望你的想象力,不被 token 限制- **3)面向 AI 时代的成长路径**- 从「技术实现者」成长为「智能系统架构师」- 更看重你:定义问题、构建系统、推动技术价值落地的能力---### 我们在找什么样的你?#### 基础要求- **学历背景**- 2027 届应届毕业生- 计算机 / 软件工程 / 通信 / 人工智能等相关专业优先- **AI 编程工具重度玩家**- 熟练使用 Cursor、Claude Code 等- 具备较强的 Prompt 编写和调优能力- 有完整「项目级」开发经验,而不只是写过几段脚本- **理解 LLM 能力边界**- 知道模型擅长什么、不擅长什么- 知道什么时候该靠模型,什么时候该用确定性逻辑兜底- **熟悉常见大模型应用范式**- Context Engineering / Prompt Engineering- Agent 与工具/函数调用- 主流 Agent 框架(如 LangChain 等)- 对大模型幻觉、Prompt 注入等风险有基本的工程化应对思路- **扎实的代码和工程能力**- 至少在 Java / Python / JS 中的一种有深入实践- 能把想法落到稳定可维护的工程代码里#### 加分项- **有实际落地的 AI 应用 / Agent 项目**- 如 RAG、多智能体、MCP、Skill 等项目经验- **有可展示的成果**- 项目 / 实习成果 / 开源作品等- 在 Github、技术博客或技术社区有内容输出或一定影响力- **对 AI Infra 有一定理解**- 如 vLLM、Ollama、KV Cache、流式输出、延迟优化等相关经验或理解- **有相关理论或训练经验**- 具备一定 NLP / CV 理论基础- 或有 SFT、RL 等训练实践经验---### 我们特别看重的特质- **学得快**- 能啃论文,也能把想法写成工程代码落地- **动手能力强**- 不只会说,更愿意自己去做 demo / 做项目- **好奇心与想象力**- 能提出好问题,也能把问题拆解并解决- **对技术有审美**- 追求简洁、优雅、打动人心的技术方案- **高能动性**- 主动探索,不等任务「掉下来」- 愿意尝试新方向,也能对结果负责---### 如果你是这样的人,欢迎来聊如果你已经不满足于「调用一个 API 做个套壳应用」,如果你想真正参与构建 AI 在真实核心业务中的**系统级落地**,我们非常期待和你聊聊。**面向 27 届实习生,招募中。**感兴趣可以私信 / 评论区交流(也欢迎附上 GitHub、项目链接、个人介绍)。
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务