分布式计算引擎架构师(SQL 优化 / 执行引擎)

30-60K * 15薪
数据库工程师
上海
本科
5-10年
7 个工作日内
岗位关键词
岗位职责
你将负责: 作为核心架构师,你将面向具身智能数据分析与训练场景,主导新一代多模态分布式计算平台的架构设计与关键能力建设: 1. 分布式计算平台架构设计与演进:基于 Ray 及现代数据计算技术栈,负责通用多模态分布式计算平台的整体架构设计、核心模块研发与持续演进,覆盖查询分析、批处理、任务编排、资源调度等关键能力。 2. 面向具身智能场景的系统设计与性能优化:围绕视频、时序信号、传感器流、点云等多模态数据,设计适配具身智能数据分析场景的计算架构,解决大规模数据处理中的时序对齐、多模态关联、任务调度、数据倾斜、Shuffle、资源隔离与端到端性能优化问题。 3. 高性能计算与关键算子建设:负责关键数据处理链路与核心算子的设计和实现,包括但不限于数据预处理、特征提取、轨迹分析、时空对齐、融合计算等;结合 SIMD、向量化、异步并发及 GPU 加速等手段,持续提升计算吞吐与处理效率。 4. 存储引擎与数据格式优化:围绕海量训练与分析数据,设计并优化存储引擎、列式/时序数据格式及读写链路,提升扫描效率、压缩效率、索引能力、谓词下推与缓存命中率,降低大规模数据访问与训练供数成本。 5. 可靠性与工程化保障:建设平台在大规模生产环境下的稳定性与可靠性能力,包括容错恢复、任务重试、资源隔离、可观测性、性能诊断与容量规划,保障关键数据计算任务稳定运行。 6. 构建数据-算法-模型闭环:与算法、模型、数据工程团队深度协作,打通数据处理、特征生成、样本构建、训练加载与效果反馈链路,推动形成高效的数据计算闭环;在必要场景下参与算法实现与计算链路优化,消除 GPU 训练中的 I/O 与数据供给瓶颈。
岗位要求
我们希望你是一位兼具数据库/计算引擎底层能力与分布式系统架构视野的系统级工程师: 1. 扎实的系统与工程基础:计算机相关专业本科及以上学历,5 年以上数据库内核、分析型数据库、分布式计算引擎或高性能数据系统研发经验。精通 Rust、C++、Go 或 Java/Scala 中的一种或多种,对内存管理、并发编程、网络通信、存储系统及操作系统底层机制有深入理解。 2. 分析型数据库或计算引擎研发经验:具备以下一个或多个方向的深入经验: 1. 深入参与过结构化/分析型数据库、查询引擎或执行引擎的设计与开发,例如 ClickHouse、Doris/SelectDB、DuckDB、Databend、Impala、Presto/Trino 等; 2. 或具备 Spark、Flink、Ray 等分布式计算框架的核心开发、性能优化或大规模生产落地经验; 3. 对查询优化、执行引擎、向量化执行、列式存储、Shuffle、数据倾斜治理、任务调度等一个或多个核心领域有扎实理解与实战经验。 3. 分布式系统与场景化架构能力:深刻理解分布式系统理论与工程实践,熟悉 Ray、时序数据库或相关大规模数据处理系统的架构与实现;能够结合具体业务场景设计高可扩展、高吞吐、低延迟的数据处理方案,并具备解决资源调度、容错恢复、稳定性治理与性能瓶颈问题的能力。 4. 存储与数据格式理解:熟悉 Apache Arrow 生态及常见列式/时序数据格式与存储机制,如 Parquet、ORC 等;有存储引擎、数据布局、压缩编码、索引加速、读写链路优化等经验者优先。 5. 算法协作与高性能计算意识:能够与算法/模型团队高效协作,理解数据分析、训练供数与特征处理链路;有高性能 GPU 计算、异构计算加速或算法实现优化经验者优先。 6. 技术领导力:能够独立负责复杂系统的架构设计与关键问题攻坚,具备良好的抽象能力、工程判断力和跨团队协作能力;善于使用 perf、flamegraph 等工具进行性能分析与调优。 如果你还会... - 开源与底层生态经验:参与过 Arrow、DataFusion、Ray、Velox,或其他知名数据库/计算框架的开源贡献;有 Committer / PMC 经验更佳。 - 数据库与计算引擎内核经验:在 ClickHouse、Doris/SelectDB、Presto/Trino、Impala、DuckDB、Databend、Spark、Flink 等系统中,有查询优化器、执行引擎、向量化执行、Shuffle 或存储层的深度研发经验。 - Rust / C++ 系统级开发能力:有丰富的 Rust 或 C++ 系统级项目经验,熟悉异步并发、内存管理与性能调优,能够持续推进复杂底层系统演进。 - Ray 与大规模分布式计算实践:对 Ray 或类似分布式计算框架有深度使用和调优经验,熟悉任务调度、资源管理、容错恢复、数据倾斜治理等典型问题。 - 存储引擎与数据格式优化经验:熟悉 Arrow、Parquet、ORC 等数据格式,或有存储引擎、压缩编码、索引结构、读写链路、缓存与物化策略优化经验。 - 具身智能 / 自动驾驶数据背景:了解 ROS、MCAP 等相关生态,或有大规模机器人、自动驾驶、多传感器数据处理经验,理解时序同步、传感器标定、轨迹分析等关键问题。 - 高性能计算与 GPU 优化能力:有 SIMD、向量化执行、异构计算、GPU 数据处理或训练供数链路优化 经验,能够将算法能力转化为可规模化运行的高性能数据计算系统。
岗位亮点
智域基石(ArcheBase)是具身智能数据基础设施的领航者。我们的使命是为机器人提供理解物理世界的"第一性原理",成为下一代智能机器构建认知的基石。 我们致力于构建具身智能数据操作系统,将人类技能数字化,为具身智能提供高质量数据供给。 当前,具身智能行业面临着严酷的"质量天花板",伟大的算法往往受困于匮乏的数据。现实世界的物理法则、因果逻辑、力觉、触觉等多维信息反馈,无法仅凭互联网上的数据习得。没有根基的智能,如同沙上建塔。 智域基石应运而生,致力于解决算法专家的终极焦虑——泛化能力与通用能力。通过提供符合物理定律、涵盖长尾场景的高质量数据,我们将智能从"实验室的过拟合"中解放出来,推向真实世界的广阔天地。 我们的愿景:重新定义具身智能数据的工业标准,让不同构型的机器人都能在同一套认知体系下进化。 为什么智域基石是你工作和建立职业生涯的理想之地 在智域基石,我们不只是构建技术,我们正在塑造机器人与物理世界交互的未来。作为具身智能数据基础设施的开拓者,我们相信高质量的数据是解锁机器人智能的关键。我们的使命是通过构建连接物理世界与数字世界的桥梁,让机器人能够像人类一样感知、理解和行动。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
智域基石(上海)科技有限公司
企业服务
未融资
上海市
查看其他 7 个职位