- 岗位职责
1. 负责按照“故障预防、故障发现、故障定位、故障恢复、故障改进”这一核心思路,去构建Shopee SRE体系,保障生产系统可靠,安全,稳定地运行,主要工作包括但不限于故障演练、持续交付、混沌工程、链路压测、监控告警等
2. 基于以上SRE工作内容,我们希望您能在工作过程学习并掌握以下技术栈:
网络层(VPN、专线、防火墙、http协议、Tcp协议、BGP协议等)
中间件(接入层、消息队列、缓存、文件存储、搜素、大数据等)
容器层(容器编排、容器、容器网络、镜像管理等)
操作系统(CPU管理、内存管理、磁盘I/O、网络I/O、内核等)
基础服务(日志、监控、容器云等)
3. 负责梳理提炼客户的日常问题和需求,优化处理效率,推动客户诉求的落地
4. 参与技术方案和系统设计方案评审,掌握相关的技术架构和原理,能够从运维架构角度主动识别方案风险,并给出专业的解决方案
5. 不断研发与探索运维自动化及各类创新途径,实现运维全流程自动化,缩短运维响应时间,减低运维成本
6. 负责在线服务的 7*24监控响应,解决运营中遇到的各种问题
- 岗位要求
1. 本科及以上学历,计算机及相关专业,3年以上工作经验
2. 具有扎实的计算机基本功,熟悉linux操作系统,熟悉基本的数据结构,熟悉基本的网络知识
3. 熟悉Docker/k8s容器平台及相关的底层技术和原理者优先
4. 熟练掌握各种中间件的部署和使用(比如Nginx/Haproxy/MySQL/DNS/Redis/Kafka/etcd /Prometheus /zookeeper等)
5. 熟悉常用的批量操作工具Ansible、Saltstack,Puppet中至少一种
6. 熟悉Jenkins、Gitlab、Jira、Confluence(wiki),对CI/CD流程制定与集成有实践经验
7. 熟悉常见云平台的使用,如腾讯云、AWS等
8. 熟悉并擅长 Python、go、shell等脚本语言中的任意一种,熟悉SQL语言,熟练使用脚本来完成日常系统运维工作
9. 有责任感、工作积极进取,乐于持续学习,抗压性强,良好的服务意识和团队合作精神