【内推】【转正实习】【校招】蚂蚁消费金融事业部-模型基准和评估/评测工程师
毕业时间:2026-11-01~2027-10-31
工作地点:北京,上海,杭州,重庆,成都
职位描述
这是一个面向 AI 推理、优化与效果闭环的核心岗位,适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景,你将负责建立科学、前沿、可信、可复现的评测体系,并通过评测结果驱动模型、系统和应用的持续优化。
具体的职责包括以下相关方向的一项或多项:
1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景,设计评测基准、任务集合与能力分层体系,明确评测目标、边界、指标与验收标准;在此基础上,构建可复现的任务环境、工具链路与自动化评测框架,支持离线评测、回归测试、批量实验和版本对比,覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景;
2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法,建立兼顾效率、稳定性与可信度的自动化评估体系;基于评测结果开展数据分析、误差归因、能力拆解与边界分析,识别模型、系统、提示、数据与工具链路中的关键瓶颈;
3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议,推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进;同时建设高质量评测集、难例集、对抗样本与反馈回流机制,持续完善「评测 → 分析 → 优化 → 再评测」的闭环,提高模型与应用的稳定性与泛化能力。
职位要求
1. 计算机、数学、统计学等相关专业背景,不设硬性学历门槛;
2. 具备扎实的 Python 编程能力,有独立完成工程项目的经验;
3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先;
4. 评测工程能力:
● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程,有评测平台、数据流水线或实验系统建设经验;
● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法,能够独立完成评测方案设计、实验执行与结论输出;
● 理解可复现、可对比、标准化评估体系的建设方法,有 benchmark 建设或维护经验者优先。
5. 模型与任务理解能力:
● 理解 Transformer 与主流 LLM 的基本原理,了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态;
● 能够围绕复杂任务设计合理评测方法,将评测结果转化为训练、系统或应用优化建议,推动效果闭环落地;
● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。
6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力,能够从评测结果中识别关键瓶颈并给出可执行结论;
7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣,能够快速学习并推动实践;
8. 对模型效果和数据质量有较强敏感度,用直觉提出问题,用数据和评测拆解和归因问题,找到优化模型的最短路径;
9. 对 AI 工具有实际的使用和应用,渴望成为在 AI 时代的“超级个体”,对"怎么把一件事做得更快更好"有持续的好奇心和执行力,让工具成为自己能力的放大器。
加分项
1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验;
2. 是知名评测框架或高质量开源评测集的贡献者;
3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。
简历投递:nicky.ly@antgroup.com
工作地点:北京,上海,杭州,重庆,成都
职位描述
这是一个面向 AI 推理、优化与效果闭环的核心岗位,适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景,你将负责建立科学、前沿、可信、可复现的评测体系,并通过评测结果驱动模型、系统和应用的持续优化。
具体的职责包括以下相关方向的一项或多项:
1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景,设计评测基准、任务集合与能力分层体系,明确评测目标、边界、指标与验收标准;在此基础上,构建可复现的任务环境、工具链路与自动化评测框架,支持离线评测、回归测试、批量实验和版本对比,覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景;
2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法,建立兼顾效率、稳定性与可信度的自动化评估体系;基于评测结果开展数据分析、误差归因、能力拆解与边界分析,识别模型、系统、提示、数据与工具链路中的关键瓶颈;
3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议,推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进;同时建设高质量评测集、难例集、对抗样本与反馈回流机制,持续完善「评测 → 分析 → 优化 → 再评测」的闭环,提高模型与应用的稳定性与泛化能力。
职位要求
1. 计算机、数学、统计学等相关专业背景,不设硬性学历门槛;
2. 具备扎实的 Python 编程能力,有独立完成工程项目的经验;
3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先;
4. 评测工程能力:
● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程,有评测平台、数据流水线或实验系统建设经验;
● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法,能够独立完成评测方案设计、实验执行与结论输出;
● 理解可复现、可对比、标准化评估体系的建设方法,有 benchmark 建设或维护经验者优先。
5. 模型与任务理解能力:
● 理解 Transformer 与主流 LLM 的基本原理,了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态;
● 能够围绕复杂任务设计合理评测方法,将评测结果转化为训练、系统或应用优化建议,推动效果闭环落地;
● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。
6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力,能够从评测结果中识别关键瓶颈并给出可执行结论;
7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣,能够快速学习并推动实践;
8. 对模型效果和数据质量有较强敏感度,用直觉提出问题,用数据和评测拆解和归因问题,找到优化模型的最短路径;
9. 对 AI 工具有实际的使用和应用,渴望成为在 AI 时代的“超级个体”,对"怎么把一件事做得更快更好"有持续的好奇心和执行力,让工具成为自己能力的放大器。
加分项
1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验;
2. 是知名评测框架或高质量开源评测集的贡献者;
3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。
简历投递:nicky.ly@antgroup.com
全部评论
相关推荐
查看16道真题和解析