分布式数据平台研发大数据开发工程师(Ray)
25-45K * 15薪
大数据开发工程师 上海 本科 3-5年 3 个工作日内

岗位关键词
岗位职责
作为分布式数据平台研发工程师,你将围绕分布式数据管线平台的产品化、工程化与性能优化展开工作:
1. 数据管线框架研发与接口演进:参与基于 Python 和 Ray Data 的分布式 data pipeline 框架研发,持续优化 Pipeline API、DAG 定义方式、配置机制和任务提交流程,提升平台的易用性、一致性与可扩展性。
2. Pipeline 可观测性建设:建设面向数据管线任务的可观测能力,包括任务状态跟踪、执行日志、指标采集、链路追踪、错误定位、性能分析与运行诊断,帮助用户快速理解任务执行过程并高效排障。
3. 性能分析与调优:针对大规模数据处理任务中的吞吐、延迟、资源利用率、数据倾斜、失败重试、背压、对象存储访问、序列化反序列化等问题开展性能分析和专项优化,持续提升管线执行效率与稳定性。
4. Ray 深度使用与系统优化:深入使用并优化 Ray / Ray Data,结合 Actor、Task、Dataset、调度、内存与对象管理等机制,优化分布式数据处理任务在实际生产环境中的执行表现和资源效率。
5. 具身智能领域数据转换算法实现:围绕视频、传感器流、时序数据、点云等多模态数据场景,实现高性能的数据转换、清洗、切分、对齐、融合、样本生成等处理算法,并持续优化关键处理链路。
6. 工程质量与交付保障:编写高质量、可维护代码,完善测试、文档、CI/CD、异常处理与问题闭环机制,保障平台持续迭代与稳定交付。
岗位要求
我们希望你是一位工程基础扎实、执行力强,同时愿意深入理解数据处理场景与分布式系统细节的工程师:
1. 扎实的工程基础:计算机相关专业本科及以上学历,3 年及以上后端系统、数据系统、数据平台或基础设施研发经验,具备良好的编码习惯、工程设计能力和问题排查能力。
2. Python 工程能力强:熟练掌握 Python,能够使用 Python 构建可维护、可扩展的数据处理框架与工程系统;熟悉常见工程实践,包括包管理、测试、性能分析、并发编程和代码组织。
3. 分布式数据处理经验:具备 Ray、Spark、Flink、Dask 等一种或多种分布式数据处理框架的开发、使用或调优经验;有 Ray Data 实际项目经验者优先。
4. 可观测性与性能优化能力:具备较强的系统分析能力,能够基于日志、metrics、trace、profiling 等手段定位问题并推进优化;有任务运行诊断、性能瓶颈分析、资源调度优化经验者优先。
5. 领域数据处理经验:对时序数据、传感器数据、多模态数据处理有一定理解;有自动驾驶、机器人、具身智能、数据工程或机器学习数据处理相关经验者优先。
6. 良好的协作与产品意识:能够站在用户视角思考平台接口设计与使用体验,愿意与算法、数据、平台和业务团队协作,把复杂能力沉淀为稳定、易用的工具与平台能力。
加分项:
- 有 Ray Core / Ray Data 深度使用或二次封装经验
- 有数据 DAG 编排、任务系统、调度系统开发经验
- 熟悉对象存储、列式存储、Arrow/Parquet 等数据读写链路
- 有自动驾驶、机器人、具身智能、多传感器数据处理经验
- 有高性能数据转换、并行计算、GPU 数据处理链路优化经验
- 有开源项目贡献经验,或持续输出技术博客
岗位亮点
智域基石(ArcheBase)是具身智能数据基础设施的领航者。我们的使命是为机器人提供理解物理世界的"第一性原理",成为下一代智能机器构建认知的基石。
我们致力于构建具身智能数据操作系统,将人类技能数字化,为具身智能提供高质量数据供给。
当前,具身智能行业面临着严酷的"质量天花板",伟大的算法往往受困于匮乏的数据。现实世界的物理法则、因果逻辑、力觉、触觉等多维信息反馈,无法仅凭互联网上的数据习得。没有根基的智能,如同沙上建塔。
智域基石应运而生,致力于解决算法专家的终极焦虑——泛化能力与通用能力。通过提供符合物理定律、涵盖长尾场景的高质量数据,我们将智能从"实验室的过拟合"中解放出来,推向真实世界的广阔天地。
我们的愿景:重新定义具身智能数据的工业标准,让不同构型的机器人都能在同一套认知体系下进化。
为什么智域基石是你工作和建立职业生涯的理想之地
在智域基石,我们不只是构建技术,我们正在塑造机器人与物理世界交互的未来。作为具身智能数据基础设施的开拓者,我们相信高质量的数据是解锁机器人智能的关键。我们的使命是通过构建连接物理世界与数字世界的桥梁,让机器人能够像人类一样感知、理解和行动。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报