工程师(云基础设施 / 数据平台)

20-40K * 15薪
运维开发工程师
上海
本科
3-5年
3 个工作日内
岗位关键词
岗位职责
- 生产环境部署与日常运维: 负责数据平台、Ray 集群及相关生产环境的部署、配置、升级、巡检与日常运维,保障核心服务稳定运行。 - 可观测性与告警建设: 参与监控、日志、告警等基础能力建设,完善系统运行指标、告警规则、故障排查流程与值班响应机制,提升问题发现和处理效率。 - 发布与变更执行: 参与生产发布、配置变更、灰度验证与回滚执行,协助建立规范的变更管理流程,降低生产风险。 - 云资源管理与成本优化: 负责云上计算、存储、网络等资源的日常管理与优化,关注资源利用率、容量水位与成本变化,支持业务稳定增长。 - 故障排查与稳定性改进: 参与线上故障响应、日志分析、问题定位、恢复处理与复盘改进,推动常见故障场景标准化和自动化。 - 自动化与平台工具建设: 使用脚本或工具提升运维效率,减少重复性人工操作,推动环境管理、巡检、发布、排障等流程自动化。
岗位要求
- 具备扎实的云上运维经验: 计算机相关专业本科及以上学历,3 年左右 SRE、运维开发、云平台运维、基础设施运维或生产工程经验;有较完整的生产环境值守、变更、故障处理经验。 - 熟悉公有云基础设施: 熟悉 AWS / 阿里云 / 火山引擎 等至少一种公有云,了解计算、存储、网络、权限等基础服务的使用与运维方式,如 EC2/ECS、S3/OSS、VPC、IAM 等。 - 熟悉 Linux 与基础网络: 具备良好的 Linux 运维能力,熟悉系统服务、进程、文件系统、网络排查、权限管理等常见问题处理;理解 TCP/IP、DNS、负载均衡等基础网络知识。 - 具备容器与集群运维经验: 有 Kubernetes、容器化部署、集群运维或分布式系统日常运维经验者优先;有 Ray、Spark、Flink 等相关系统接触经验更佳。 - 具备可观测性与排障能力: 熟悉监控、日志、告警等基本体系,能够通过日志、指标、trace 或系统工具辅助定位问题;具备较强的故障处理意识和稳定性意识。 - 具备基础自动化能力: 熟练使用 Shell / Python / Go 中的一种或多种进行脚本开发和自动化运维;有 IaC、CI/CD、发布工具或内部运维工具开发经验者优先。 - 责任心与协作能力强: 对生产环境有责任心,执行力强,能够与研发、算法、数据、平台团队高效协作,推动问题闭环。 加分项: - 有 Kubernetes 集群运维、升级、扩缩容经验 - 有 Ray、Spark、Flink 等分布式系统的部署、运维或问题排查经验 - 熟悉 Prometheus、Grafana、ELK / Loki、OpenTelemetry 等可观测性工具链 - 有 Terraform / Pulumi / Ansible 等自动化或 IaC 实践经验 - 有对象存储、文件系统、消息队列、缓存等基础组件的运维经验 - 对云资源成本优化、容量规划、权限治理有实际经验 - 有自动驾驶、机器人、具身智能或 AI 基础设施相关经验
岗位亮点
智域基石(ArcheBase)是具身智能数据基础设施的领航者。我们的使命是为机器人提供理解物理世界的"第一性原理",成为下一代智能机器构建认知的基石。 我们致力于构建具身智能数据操作系统,将人类技能数字化,为具身智能提供高质量数据供给。 当前,具身智能行业面临着严酷的"质量天花板",伟大的算法往往受困于匮乏的数据。现实世界的物理法则、因果逻辑、力觉、触觉等多维信息反馈,无法仅凭互联网上的数据习得。没有根基的智能,如同沙上建塔。 智域基石应运而生,致力于解决算法专家的终极焦虑——泛化能力与通用能力。通过提供符合物理定律、涵盖长尾场景的高质量数据,我们将智能从"实验室的过拟合"中解放出来,推向真实世界的广阔天地。 我们的愿景:重新定义具身智能数据的工业标准,让不同构型的机器人都能在同一套认知体系下进化。 为什么智域基石是你工作和建立职业生涯的理想之地 在智域基石,我们不只是构建技术,我们正在塑造机器人与物理世界交互的未来。作为具身智能数据基础设施的开拓者,我们相信高质量的数据是解锁机器人智能的关键。我们的使命是通过构建连接物理世界与数字世界的桥梁,让机器人能够像人类一样感知、理解和行动。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
智域基石(上海)科技有限公司
企业服务
未融资
上海市
查看其他 7 个职位