【阿里云内推】——稳定性团队内推

阿里云 - 云原生应用平台-SRE 团队，不仅是阿里云核心产品的“稳定性守护者”，更是“技术输出者”。云原生商业化产品的测试与运维；同时，我们将内部经过大规模考验的通用技术（如：全链路压测、E2E 测试、故障演练、线上故障应急等）转化为商业产品服务于客户；我们也是开源社区的活跃贡献者，主导建设了混沌工程利器 ChaosBlade。SRE（站点可靠性工程、Site Reliability Engineering）团队是用软件工程方法解决运维难题的技术先锋，我们的核心使命是通过自动化与代码化手段，保障大规模分布式系统的高可用、高性能与低成本。加入后，你将深入参与全链路监控体系建设、线上故障应急与复盘、运维平台研发、Kubernetes 生态扩展及混沌工程演练等核心工作，告别重复手工操作，转而用代码定义基础设施。

在这里，你将与顶尖工程师合作，共同引领SRE领域的演进和突破：
1. AI for SRE：利用大模型重塑运维与测试，让系统具备“自感知、自决策、自修复”的能力，将人类从重复的 On-call 中解放出来。
2. SRE for AI：为 AI Native应用提供高可用、可观测的云原生基础设施，确保大模型在现实世界落地的稳定性。正如蒸汽机开启了工业革命，我们希望通过云原生 + AI的结合，开启智能运维与智能应用的新纪元
"在这里，你不仅仅是一名后端开发，你是 AI 应用与云原生基础设施的“架构师”。你将参与：
1. AI 应用后端核心开发：负责 AI 运维平台、智能测试 Agent 等应用的后端服务开发。包括高并发接口设计、异步任务调度、消息队列管理、数据库设计与性能优化，确保 AI 应用在云端的高效运行。
2. 全链路工程化落地：参与产品从 0 到 1 的完整生命周期。从需求分析、架构设计、代码实现到上线运维，你将拥有完整的 Ownership，见证你的代码支撑起千万级用户的云产品。
3. AI Agent 运行框架建设：参与构建面向运维场景的 AI Agent 框架。为 AI 应用提供功能丰富、稳定性高、性能优异的基础设施，让大模型能够安全、可控地调用云资源，完成复杂任务。
4. 开源与技术创新：有机会参与 ChaosBlade 、Knowledge Kit等开源项目的建设，将你的技术成果分享给全球开发者，在技术社区建立你的影响力。

岗位要求：
1. 计算机基础扎实：硕士及以上学历，计算机、软件工程或相关专业。熟悉数据结构、算法、操作系统及网络原理。
2. 后端技术热情：精通 Java 或 Go 中至少一门语言，了解 Spring Cloud、Docker、Kubernetes 等云原生技术栈者加分。
3. AI 探索精神：对大模型（LLM）、Agent、RAG 等技术有浓厚兴趣，有相关项目经验或开源贡献者优先。
4. 工程化思维：不仅关注代码实现，更关注系统的稳定性、可扩展性和可维护性，具备良好的问题排查与解决能力。
5. 自驱与协作：拥有强烈的好奇心和自驱力，善于沟通，能在一个快节奏、高标准的团队中与优秀的人共同成长。

有意向可联系：
1. 站内私信
2. ************

【阿里云内推】——稳定性团队内推

全站热榜

创作者周榜