暂时没有符合条件的职位

研发 北京,杭州
详情 收起

薪酬:35K-50K  |  学历要求:本科及以上  |  工作年限:3年以上

岗位职责
【团队介绍】 我们的团队:阿里云分布式存储平台--盘古。 盘古是阿里云飞天操作系统的基础存储平台,支撑了全部阿里云业务。它是一个完全自主研发的分布式存储平台,用一种架构支持低延迟和高吞吐的各种业务。在这个由数十万台机器构成的平台上,你将接触最全面的硬件类型、系统问题、分布式故障模式,对性能指标、稳定要求最高的离在线关键业务。在追求极致地解决问题的过程中获是深入的第一手系统知识,和关于大规模系统设计的洞见。通过全方位的监、管、控和智能化的管理,保障线上始终稳定运行是盘古演进至今,从阿里云走向整个阿里巴巴集团存储中台的核心竞争力。SRE(Site Reliability Engineering)以软件工程的方法来保障线上系统的可靠性是盘古的实践结果,也是大规模计算机系统管理可持续的技术演进之路。 【职位描述】 1. 负责运维管控系统开发和线上运行保障,如制定监控告警体系、构建问题的自动发现、根因分析系统、故障自愈系统,“升系统的易用性”,保障业务永续运行;通过产品化降低分布式存储的运维、应用门槛。 2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,使用技术手段来优化系统成本、性能; 3. 负责分布式存储系统在阿里集团的推广,对接用户需求并负责最终落地。
岗位要求
1. 2 年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,掌握至少一门编程语言,C/C++或者python 优先,具有知名运维系统使用、开发经验者优先; 2. 系统工程能力扎实过硬,深入了解服务器和 linux 系统及网络、存储软件栈等上下游链路,具有很强的 线上安全生产敏感度和丰富的故障排查经验; 3. 熟悉系统部署、监控告警,异常发现、可视化分析展示等运维系统建设,对成本控制和系统优化有深刻的理解和实践;有把重复性工作简化成代码的习惯。 4. 具有良好的团队协作、沟通能力,良好的客户服务意识; 5. 具有分布式存储背景者优先,数据修复经验丰富者优化;
研发 北京,杭州
详情 收起

薪酬:35K-50K  |  学历要求:本科及以上  |  工作年限:3年以上

岗位职责
【团队介绍】 我们的团队:阿里云分布式存储平台--盘古。 盘古是阿里云飞天操作系统的基础存储平台,支撑了全部阿里云业务。它是一个完全自主研发的分布式存储平台,用一种架构支持低延迟和高吞吐的各种业务。在这个由数十万台机器构成的平台上,你将接触最全面的硬件类型、系统问题、分布式故障模式,对性能指标、稳定要求最高的离在线关键业务。在追求极致地解决问题的过程中获是深入的第一手系统知识,和关于大规模系统设计的洞见。通过全方位的监、管、控和智能化的管理,保障线上始终稳定运行是盘古演进至今,从阿里云走向整个阿里巴巴集团存储中台的核心竞争力。SRE(Site Reliability Engineering)以软件工程的方法来保障线上系统的可靠性是盘古的实践结果,也是大规模计算机系统管理可持续的技术演进之路。 【职位描述】 1. 负责运维管控系统开发和线上运行保障,如制定监控告警体系、构建问题的自动发现、根因分析系统、故障自愈系统,“升系统的易用性”,保障业务永续运行;通过产品化降低分布式存储的运维、应用门槛。 2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,使用技术手段来优化系统成本、性能; 3. 负责分布式存储系统在阿里集团的推广,对接用户需求并负责最终落地。
岗位要求
岗位要求: 1. 3 年以上分布式系统相关工作经历,熟练的系统架构,复杂系统软件的设计能力和调试能力,有存储系统管理经验优先 2. 精通以下语言之一:C++、Python、Java 。编程习惯良好,有 Linux 上深厚系统经验者优先 3. 善于独立思考,能够主动发现问题、分析问题,有系统化的问题分析能力和解决问题的能力。有通过数据分析发现问题,善于将运行数据系统呈现者优先,有分布式存储系统 SRE 经验是很好的匹配 4. 大规模云计算存在很多未决问题,欢迎缺少上述经验但热衷探索未知领域,爱学习、肯钻研,喜欢挑战的同学!

发布者

阿里云-分布式存储-管控系统
阿里云-分布式存储-管控系统

阿里巴巴_自动化运维

  • 平均简历处理率 100%
  • 平均简历处理时间 1天

阿里巴巴

查看其他65个职位>>

1000-9999人

杭州市