【内推】【转正实习】【校招】蚂蚁消费金融事业部-模型基准和评估/评测工程师

毕业时间：2026-11-01~2027-10-31
工作地点：北京,上海,杭州,重庆,成都
职位描述
这是一个面向 AI 推理、优化与效果闭环的核心岗位，适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景，你将负责建立科学、前沿、可信、可复现的评测体系，并通过评测结果驱动模型、系统和应用的持续优化。

具体的职责包括以下相关方向的一项或多项：
1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景，设计评测基准、任务集合与能力分层体系，明确评测目标、边界、指标与验收标准；在此基础上，构建可复现的任务环境、工具链路与自动化评测框架，支持离线评测、回归测试、批量实验和版本对比，覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景；
2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法，建立兼顾效率、稳定性与可信度的自动化评估体系；基于评测结果开展数据分析、误差归因、能力拆解与边界分析，识别模型、系统、提示、数据与工具链路中的关键瓶颈；
3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议，推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进；同时建设高质量评测集、难例集、对抗样本与反馈回流机制，持续完善「评测 → 分析 → 优化 → 再评测」的闭环，提高模型与应用的稳定性与泛化能力。
职位要求
1. 计算机、数学、统计学等相关专业背景，不设硬性学历门槛；
2. 具备扎实的 Python 编程能力，有独立完成工程项目的经验；
3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先；
4. 评测工程能力：
● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程，有评测平台、数据流水线或实验系统建设经验；
● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法，能够独立完成评测方案设计、实验执行与结论输出；
● 理解可复现、可对比、标准化评估体系的建设方法，有 benchmark 建设或维护经验者优先。
5. 模型与任务理解能力：
● 理解 Transformer 与主流 LLM 的基本原理，了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态；
● 能够围绕复杂任务设计合理评测方法，将评测结果转化为训练、系统或应用优化建议，推动效果闭环落地；
● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。
6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力，能够从评测结果中识别关键瓶颈并给出可执行结论；
7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣，能够快速学习并推动实践；
8. 对模型效果和数据质量有较强敏感度，用直觉提出问题，用数据和评测拆解和归因问题，找到优化模型的最短路径；
9. 对 AI 工具有实际的使用和应用，渴望成为在 AI 时代的“超级个体”，对"怎么把一件事做得更快更好"有持续的好奇心和执行力，让工具成为自己能力的放大器。

加分项
1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验；
2. 是知名评测框架或高质量开源评测集的贡献者；
3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。
简历投递：nicky.ly@antgroup.com

【内推】【转正实习】【校招】蚂蚁消费金融事业部-模型基准和评估/评测工程师

全站热榜

创作者周榜