职位详情

暂时没有符合条件的职位

研发 北京,杭州
详情 收起

薪酬:35K-50K  |  学历要求:本科及以上  |  工作年限:3年以上

岗位职责
【团队介绍】 我们的团队:阿里云分布式存储平台--盘古。 盘古是阿里云飞天操作系统的基础存储平台,支撑了全部阿里云业务。它是一个完全自主研发的分布式存储平台,用一种架构支持低延迟和高吞吐的各种业务。在这个由数十万台机器构成的平台上,你将接触最全面的硬件类型、系统问题、分布式故障模式,对性能指标、稳定要求最高的离在线关键业务。在追求极致地解决问题的过程中获是深入的第一手系统知识,和关于大规模系统设计的洞见。通过全方位的监、管、控和智能化的管理,保障线上始终稳定运行是盘古演进至今,从阿里云走向整个阿里巴巴集团存储中台的核心竞争力。SRE(Site Reliability Engineering)以软件工程的方法来保障线上系统的可靠性是盘古的实践结果,也是大规模计算机系统管理可持续的技术演进之路。 【职位描述】 1. 负责运维管控系统开发和线上运行保障,如制定监控告警体系、构建问题的自动发现、根因分析系统、故障自愈系统,“升系统的易用性”,保障业务永续运行;通过产品化降低分布式存储的运维、应用门槛。 2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,使用技术手段来优化系统成本、性能; 3. 负责分布式存储系统在阿里集团的推广,对接用户需求并负责最终落地。
岗位要求
1. 2 年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,掌握至少一门编程语言,C/C++或者python 优先,具有知名运维系统使用、开发经验者优先; 2. 系统工程能力扎实过硬,深入了解服务器和 linux 系统及网络、存储软件栈等上下游链路,具有很强的 线上安全生产敏感度和丰富的故障排查经验; 3. 熟悉系统部署、监控告警,异常发现、可视化分析展示等运维系统建设,对成本控制和系统优化有深刻的理解和实践;有把重复性工作简化成代码的习惯。 4. 具有良好的团队协作、沟通能力,良好的客户服务意识; 5. 具有分布式存储背景者优先,数据修复经验丰富者优化;
阿里云-分布式存储-管控系统
阿里云-分布式存储-管控系统

阿里巴巴_自动化运维

  • 平均简历处理率 100%
  • 平均简历处理时间 1天
  • 当前简历处理率 暂无
  • 当前简历处理时间 暂无