AI数据工程师

300-500元/天

数据分析师

本科

5天/周

最少3个月

有转正

王女士 14分钟前在线

拉扎斯网络科技（上海）有限公司·招聘

反馈率：99% | 反馈时长：1天

优我公司正在参加 27届暑期实习专场活动，更多适合你的职位内容，点击前往活动大厅查看->

岗位关键词

投递时间：2026年3月9日-2026年6月30日

岗位职责

以数据驱动、评测驱动的方式，构建数据高效迭代闭环，建立从数据寻源、标注、处理、合成到评测的全链路数据体系，持续建设高质量数据集和评测集，不断推动基础模型能力提升，推动AI模型和应用发展。具体职责包括以下相关方向的一项或多项：全模态数据处理： ● 参与研发万亿级数据规模的全模态数据处理引擎。 ● 通过设计高性能、可复用的数据处理算子，构建覆盖全生命周期的自动化数据生产pipeline。 ● 解决海量数据在清洗、脱敏及增强过程中的计算瓶颈，利用智能筛选与精准对齐算法交付极具竞争力的高质量训练集。 ● 持续优化全链路交付效能，确保数据质量与处理规模世界领先。大模型数据理解与资产体系建设： ● 参与全模态AI数据基础设施建设。负责设计支撑AGI 演进的多模态语义标签标准与特征映射体系，通过构建先进的质量度量模型与内容理解框架，实现对海量 3D、视频、音频等复杂数据的自动化精炼，精细化的数据理解体系加速AGI发展的科学性与高效性。 ● 构建核心AI数据战略资产体系。结合业务垂直场景与最前沿算法，深度参与海量数据的解析、挖掘与性能优化，驱动EB级全模态数据的深度解析与价值发现；通过全链路的智能处理与挖掘优化，将海量数据转化为高稀缺性和行业竞争壁垒的AI数据资产。领域全链路数据策略建设： ● 设计实现面向大模型细分领域的模型性能优化的全链路数据体系，涵盖评测体系设计、数据加工与数据合成链路、数据标注策略设计。 ● 深度理解大模型细分领域的技术点，实践“评测驱动”（Evaluation-Driven Development，EDD）的大模型迭代方法，确保千问、万相等基础模型能力持续处于世界领先水平。

岗位要求

基础条件 ● 计算机、软件工程、数学、统计、人工智能、大数据、机器人等相关专业硕士/博士优先（非此类专业，有相关经验亦可）。 ● 有顶会论文/高影响项目/开源贡献者加分。专业能力 ● 大数据处理技术：深入理解大规模分布式数据处理系统原理，熟悉Spark/Flink/Ray等开源技术栈；深入理解流批处理原理（计算模型、调度和资源管理、容错与一致性等）；可独立完成面向全模态数据（结构化/文本/图像/音频/视频）的批流一体数据处理开发与优化。 ● 大模型技术的理解与掌握：深入理解大模型核心原理，包括Transformer架构、上下文学习（ICL）、指令微调（Instruction Tuning）、检索增强生成（RAG）及推理机制（如思维链CoT）等关键技术；熟悉大模型在预训练、监督微调（SFT）和强化学习对齐（RLHF/RLAIF）等阶段的数据需求与优化逻辑。能够基于领域场景设计高质量数据处理与合成算法，通过系统化的数据迭代、评估反馈与模型微调闭环，持续驱动大模型在特定领域的能力提升与性能优化。 ● AI编程意识与工程思维：能持续快速学习AI研发新范式，熟练运用主流AI工具，独立完成从需求分析、架构设计到高质量代码实现的系统级开发任务，并确保代码的可维护性、可扩展性与工程规范性。 ● 跨学科、跨领域的理解：通过评测及数据驱动的方式提升模型的效果，结合对大模型及垂直领域的深度融合理解，能够设计面向领域的高质量评测集和数据集，针对基础模型短板设计相应的模型训练策略，不断突破基础模型的能力上限。 ● 工程与系统素养：能至少在一种主流编程语言（如 Java / Python / C++ 等）上有深度的实践经验，掌握常见工程实践并具备优秀的Coding能力，能够根据场景灵活选型并快速上手。能力特质 ● 好奇心：对AI有热情、对前沿技术与产品好奇。 ● 持续学习：能快速地学习、掌握新的知识与技术。 ● 沟通交流：能与其他人进行良好的沟通、交流，拓宽自身的视野与知识面。 ● 认真负责：有责任感，能确保工作完整的闭环、高质量的交付，为团队、合作方提供可信赖的支撑。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

淘宝闪购

消费生活

D轮及以上

上海

查看其他 10 个职位

0 笔试题目 36 面试经验 0 面试短评