SRE站点可靠性工程师-某量化私募-社会招聘-上海徐汇区
某量化私募-社会招聘-SRE站点可靠性工程师-上海徐汇区
感兴趣或投递请邮件联系
职位描述:
1、维护和管理 Kubernetes 集群:确保集群任务的正常运行,进行日常监控,并优化集群性能和稳定性;
2、管理基础设备:部署、配置和维护私有云基础设施,包括服务器、存储、网络设备等;
3、优化系统性能:持续监控并优化私有云基础设施的性能,包括处理速度、资源利用率和延迟等方面;
4、故障排除和问题解决:分析和解决私有云基础设施中的问题,确保高可用性和持续的服务质量;
5、监控和报警:部署并维护监控系统,实时监控私有云基础设施的健康状况和性能指标,设置合适的报警阈值;
6、与其他团队协作:与开发、产品和运维团队合作,共同实现高效、可扩展的任务运行,并持续改进基础设施;
7、文档编写:编写和维护相关技术文档,包括系统架构、操作手册、故障诊断指南等,以提高团队的知识共享和协作效率;
职位要求:
1、教育背景:计算机科学、信息技术或相关领域的学士学位,或具有相关领域的工作经验;
2、Kubernetes 和容器经验:具备 Kubernetes 和容器管理经验,熟悉集群部署、配置和管理;
3、操作系统和网络:熟悉 Linux 操作系统、网络协议和基础设施,具备故障排除和性能调优能力;
4、基础设施自动化:熟悉使用配置管理和基础设施编排工具,如 Ansible、Terraform、Puppet 或 Chef;
5、编程和脚本语言:熟悉至少一种编程语言(如 Python、Go、JavaScript 等),以及具备 Shell 脚本编写能力;
6、安全和合规性:了解私有云安全最佳实践,包括数据保护、访问控制和合规性要求;
7、沟通和团队协作:具备良好的沟通和协作能力,能够与团队成员和跨部门合作解决问题;
8、问题解决能力:具备强烈的问题解决能力和分析技能,能够快速识别和解决基础设施中的问题;
加分项:
1、具有在 Kubernetes 环境中维护大规模任务执行,熟悉使用调度器或分布式任务执行框架;
2、具有 GPU 维护和管理经验,了解 GPU 相关技术和优化方法;
3、具有分布式文件系统维护和管理经验,如 Ceph、GlusterFS 等;
4、熟悉 numpy 和 pandas 库的开发和性能优化,具备在数据处理和科学计算场景下提高代码效率的经验;
5、具有维护监控系统的经验,如 Prometheus、Grafana 等;
6、具有HPC集群部署维护经验,熟悉HPC集群的架构、资源管理、作业调度和性能优化,了解并能够应用常见的HPC技术和工具;
7、具有云服务提供商(如 AWS、GCP、Azure 等)的使用和管理经验;
8、具有持续集成和持续部署(CI/CD)经验,熟悉相关工具如 Jenkins、GitLab CI 等;
9、拥有良好的英语沟通能力,能够阅读和撰写技术文档。
明汯
九坤
幻方
灵均
诚奇
衍复
金锝
宽德
天演
启林
玄元
稳博
世纪前沿
金戈量锐
进化论
因诺
鸣石
致远
茂源
卓识
念空
念觉
白鹭
龙旗
洛书
平方和
赫富
蒙玺
锐天
凯纳
星阔
天算
衍盛
同温层
量客
量桥
麦迪生利
希格斯
合骥
橡木
海浦
千朔
安值
弈倍
瑞航
子午
衍合
铭量
品赋
塞帕思
牟合
鹏锦仲阳
乾象
伯兄
嘉石大岩
明汰
佳期
思勰
聚宽
盛冠达
无量
超量子
双璨
淳毅
黑翼
宽投
干象
思晔
象限
明得浩伦
呈瑞
冲和
宁水
宏锡
燧石
华澄
涵德
双隆
会世
群博
皓晨
御澜
锋滔
芷瀚
弘源泰平
鲲腾
量信
智龙
雸昇
德贝
君拙
均成
量道
凡二
佑维
阳泽
正瀛
歆享
金伯珠
时代复兴
淘利
海狮
丰衍
泓倍
申毅
迈萃
新萌
远澜
中量投
鑫享世震
量金
玉数
简称
微观博易
海悦
量派
玄信
概率
Optiver
千象
博煊
大道
罡兴
坤望
神州
幂达
上国象
拓蛮八方
云程
Okex
前海世德
雷根
源晖
华钧广汇
凯读
金湖无量
纽达
国富
锴量
虑得
中信期货
靖奇投资
非凸
致诚卓远
珏朔
神策
磐通
ST
高塔
佐原
东北证券
惟盈
IDEA
锦徽
蒙特卡罗
跃然
巨博华
悬铃
高维
自然
好投
高盈国际
新产业
艾方
择善重要
雁丰
敦和
量盈
安贤
量游
卡方
博普
千惠
臻云
中安鼎盛
香农
驻点
明崚
Trade Terminal
衍舟
仲阳天王星
泽茂
顽岩
水木博雅
卿云
必沃