AI数据工程师
300-500元/天
数据分析师 杭州/北京/上海 本科 5天/周 最少3个月 有转正

岗位关键词
投递时间:2026年3月9日-2026年6月30日
岗位职责
以数据驱动、评测驱动的方式,构建数据高效迭代闭环,建立从数据寻源、标注、处理、合成到评测的全链路数据体系,持续建设高质量数据集和评测集,不断推动基础模型能力提升,推动AI模型和应用发展。
具体职责包括以下相关方向的一项或多项:
全模态数据处理:
● 参与研发万亿级数据规模的全模态数据处理引擎。
● 通过设计高性能、可复用的数据处理算子,构建覆盖全生命周期的自动化数据生产pipeline。
● 解决海量数据在清洗、脱敏及增强过程中的计算瓶颈,利用智能筛选与精准对齐算法交付极具竞争力的高质量训练集。
● 持续优化全链路交付效能,确保数据质量与处理规模世界领先。
大模型数据理解与资产体系建设:
● 参与全模态AI数据基础设施建设。 负责设计支撑AGI 演进的多模态语义标签标准与特征映射体系,通过构建先进的质量度量模型与内容理解框架,实现对海量 3D、视频、音频等复杂数据的自动化精炼,精细化的数据理解体系加速AGI发展的科学性与高效性。
● 构建核心AI数据战略资产体系。 结合业务垂直场景与最前沿算法,深度参与海量数据的解析、挖掘与性能优化,驱动EB级全模态数据的深度解析与价值发现;通过全链路的智能处理与挖掘优化,将海量数据转化为高稀缺性和行业竞争壁垒的AI数据资产。
领域全链路数据策略建设:
● 设计实现面向大模型细分领域的模型性能优化的全链路数据体系,涵盖评测体系设计、数据加工与数据合成链路、数据标注策略设计。
● 深度理解大模型细分领域的技术点,实践“评测驱动”(Evaluation-Driven Development,EDD)的大模型迭代方法,确保千问、万相等基础模型能力持续处于世界领先水平。
岗位要求
基础条件
● 计算机、软件工程、数学、统计、人工智能、大数据、机器人等相关专业硕士/博士优先(非此类专业,有相关经验亦可)。
● 有顶会论文/高影响项目/开源贡献者加分。
专业能力
● 大数据处理技术:深入理解大规模分布式数据处理系统原理,熟悉Spark/Flink/Ray等开源技术栈;深入理解流批处理原理(计算模型、调度和资源管理、容错与一致性等);可独立完成面向全模态数据(结构化/文本/图像/音频/视频)的批流一体数据处理开发与优化。
● 大模型技术的理解与掌握:深入理解大模型核心原理,包括Transformer架构、上下文学习(ICL)、指令微调(Instruction Tuning)、检索增强生成(RAG)及推理机制(如思维链CoT)等关键技术;熟悉大模型在预训练、监督微调(SFT)和强化学习对齐(RLHF/RLAIF)等阶段的数据需求与优化逻辑。能够基于领域场景设计高质量数据处理与合成算法,通过系统化的数据迭代、评估反馈与模型微调闭环,持续驱动大模型在特定领域的能力提升与性能优化 。
● AI编程意识与工程思维:能持续快速学习AI研发新范式,熟练运用主流AI工具,独立完成从需求分析、架构设计到高质量代码实现的系统级开发任务,并确保代码的可维护性、可扩展性与工程规范性。
● 跨学科、跨领域的理解: 通过评测及数据驱动的方式提升模型的效果,结合对大模型及垂直领域的深度融合理解,能够设计面向领域的高质量评测集和数据集,针对基础模型短板设计相应的模型训练策略,不断突破基础模型的能力上限。
● 工程与系统素养:能至少在一种主流编程语言(如 Java / Python / C++ 等)上有深度的实践经验,掌握常见工程实践并具备优秀的Coding能力,能够根据场景灵活选型并快速上手。
能力特质
● 好奇心:对AI有热情、对前沿技术与产品好奇。
● 持续学习:能快速地学习、掌握新的知识与技术。
● 沟通交流:能与其他人进行良好的沟通、交流,拓宽自身的视野与知识面。
● 认真负责:有责任感,能确保工作完整的闭环、高质量的交付,为团队、合作方提供可信赖的支撑。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报