无聊的灰太狼在debug - 个人主页动态

04-15 22:33

蚂蚁消费金融-模型基准和评测工程师毕业时间：2026-11-01~2027-10-31工作地点：杭州,重庆职位描述：1. 评测基准与数据建设：参与构建覆盖多模态、推理、RAG、代码等场景的评测基准，并负责相关评测数据集的策划、构建与质量校验。2. 自动化评测流程：设计并维护包括准确性、效率、成本在内的评测指标体系，搭建支持持续集成的自动化评测流程。3. 评测平台与工具研发：参与评测工具与平台的开发，并探索利用AI智能体（Agent）等技术提升数据生产和评测的自动化效率。4. 性能优化与前沿探索：结合评测任务特点，优化大模型推理框架（如Sglang），提升评测效率；同时跟踪业界前沿评测方法，并应用于实践。职位要求：1. 计算机、人工智能、自动化等相关专业；2. 动手和编程能力优异，精通Python，深入理解机器学习算法与数据结构，熟悉LLM核心算法；3. 具有良好的学习和沟通能力，有好奇心和责任心，具有钻研精神和团队协作能力；4. 具有大模型评测、语言大模型、多模态大模型、自然语言处理、AIGC等相关经验优先；5. 了解主流的大模型评测榜单、评测框架和评测方法优先。简历投递：nicky.ly@antgroup.com

校招求职吐槽

0 点赞评论收藏

04-15 10:24

蚂蚁集团_测试开发专家

蚂蚁消费金融-模型基准和评测工程师

毕业时间：2026-11-01~2027-10-31工作地点：北京,上海,杭州,重庆,成都职位描述：1. 评测基准与数据建设：参与构建覆盖多模态、推理、RAG、代码等场景的评测基准，并负责相关评测数据集的策划、构建与质量校验。2. 自动化评测流程：设计并维护包括准确性、效率、成本在内的评测指标体系，搭建支持持续集成的自动化评测流程。3. 评测平台与工具研发：参与评测工具与平台的开发，并探索利用AI智能体（Agent）等技术提升数据生产和评测的自动化效率。4. 性能优化与前沿探索：结合评测任务特点，优化大模型推理框架（如Sglang），提升评测效率；同时跟踪业界前沿评测方法，并应用于实践。职位要求：1. 计算机、人工智能、自动化等相关专业；2. 动手和编程能力优异，精通Python，深入理解机器学习算法与数据结构，熟悉LLM核心算法；3. 具有良好的学习和沟通能力，有好奇心和责任心，具有钻研精神和团队协作能力；4. 具有大模型评测、语言大模型、多模态大模型、自然语言处理、AIGC等相关经验优先；5. 了解主流的大模型评测榜单、评测框架和评测方法优先。简历投递：nicky.ly@antgroup.com

校招求职吐槽

0 点赞评论收藏

04-15 10:23

蚂蚁集团_测试开发专家

蚂蚁消费金融-模型基准和评测工程

0 点赞评论收藏

04-15 10:22

蚂蚁集团_测试开发专家

蚂蚁消费金融-模型基准和评测工程师

0 点赞评论收藏

04-14 11:48

蚂蚁集团_测试开发专家

【内推】【转正实习】【校招】蚂蚁消费金融事业部-模型基准和评估/评测工程师

毕业时间：2026-11-01~2027-10-31工作地点：北京,上海,杭州,重庆,成都职位描述这是一个面向 AI 推理、优化与效果闭环的核心岗位，适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景，你将负责建立科学、前沿、可信、可复现的评测体系，并通过评测结果驱动模型、系统和应用的持续优化。具体的职责包括以下相关方向的一项或多项：1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景，设计评测基准、任务集合与能力分层体系，明确评测目标、边界、指标与验收标准；在此基础上，构建可复现的任务环境、工具链路与自动化评测框架，支持离线评测、回归测试、批量实验和版本对比，覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景；2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法，建立兼顾效率、稳定性与可信度的自动化评估体系；基于评测结果开展数据分析、误差归因、能力拆解与边界分析，识别模型、系统、提示、数据与工具链路中的关键瓶颈；3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议，推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进；同时建设高质量评测集、难例集、对抗样本与反馈回流机制，持续完善「评测 → 分析 → 优化 → 再评测」的闭环，提高模型与应用的稳定性与泛化能力。职位要求1. 计算机、数学、统计学等相关专业背景，不设硬性学历门槛；2. 具备扎实的 Python 编程能力，有独立完成工程项目的经验；3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先；4. 评测工程能力：● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程，有评测平台、数据流水线或实验系统建设经验；● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法，能够独立完成评测方案设计、实验执行与结论输出；● 理解可复现、可对比、标准化评估体系的建设方法，有 benchmark 建设或维护经验者优先。5. 模型与任务理解能力：● 理解 Transformer 与主流 LLM 的基本原理，了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态；● 能够围绕复杂任务设计合理评测方法，将评测结果转化为训练、系统或应用优化建议，推动效果闭环落地；● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力，能够从评测结果中识别关键瓶颈并给出可执行结论；7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣，能够快速学习并推动实践；8. 对模型效果和数据质量有较强敏感度，用直觉提出问题，用数据和评测拆解和归因问题，找到优化模型的最短路径；9. 对 AI 工具有实际的使用和应用，渴望成为在 AI 时代的“超级个体”，对"怎么把一件事做得更快更好"有持续的好奇心和执行力，让工具成为自己能力的放大器。加分项1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验；2. 是知名评测框架或高质量开源评测集的贡献者；3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。简历投递：nicky.ly@antgroup.com

0 点赞评论收藏

04-14 11:27

蚂蚁集团_测试开发专家

【内推】【转正实习】【校招】蚂蚁消费金融事业部-模型基准和评估/评测工程师

0 点赞评论收藏

04-14 11:26

蚂蚁集团_测试开发专家

【内推】【转正实习】【校招】蚂蚁消费金融事业部-模型基准和评估/评测工程师

0 点赞评论收藏

04-13 10:48

蚂蚁集团_测试开发专家

【内推】【校园招聘】蚂蚁消费金融事业部，招聘算法评测工程师

毕业时间：2026-11-01~2027-10-31职位描述：1. 评测基准与数据建设：参与构建覆盖多模态、推理、RAG、代码等场景的评测基准，并负责相关评测数据集的策划、构建与质量校验。2. 自动化评测流程：设计并维护包括准确性、效率、成本在内的评测指标体系，搭建支持持续集成的自动化评测流程。3. 评测平台与工具研发：参与评测工具与平台的开发，并探索利用AI智能体（Agent）等技术提升数据生产和评测的自动化效率。4. 性能优化与前沿探索：结合评测任务特点，优化大模型推理框架（如Sglang），提升评测效率；同时跟踪业界前沿评测方法，并应用于实践。职位要求：1. 计算机、人工智能、自动化等相关专业；2. 动手和编程能力优异，精通Python，深入理解机器学习算法与数据结构，熟悉LLM核心算法；3. 具有良好的学习和沟通能力，有好奇心和责任心，具有钻研精神和团队协作能力；4. 具有大模型评测、语言大模型、多模态大模型、自然语言处理、AIGC等相关经验优先；5. 了解主流的大模型评测榜单、评测框架和评测方法优先。简历投递：nicky.ly@antgroup.com

0 点赞评论收藏

2024-06-17 10:19

蚂蚁集团_测试开发专家

【内推】蚂蚁集团-测试开发工程师/专家-杭州

0 点赞评论收藏

2024-06-17 10:17

蚂蚁集团_测试开发专家

【内推】蚂蚁集团-测试开发工程师/专家

岗位职责： 1. 参与消费信贷产品及风控的测试全过程，包括参与需求分析、设计评审，制定测试计划，设计和执行测试用例，进行缺陷跟踪和软件质量分析等；2. 制定合理的测试策略、测试计划和测试方法，包括缺陷跟踪、输出报告等，并参与需求讨论、需求评审、需求测试及线上问题跟进，持续优化产品和研发流程，提升整体质量和效率。3. 保证被测系统的质量，并通过测试流程和方法创新，努力提升研发的质量和效率4. 沉淀通用测试解决方案，负责关键技术专项建设，开发相关工具或服务提高测试效率；任职要求：1. 计算机相关专业本科及以上学历，三年以上质量/测试领域工作经验，能独立负责业务测试;2. 熟悉Linux操作系统；有丰富的服务端接口测试经验，精通测试用例设计，对软件工程和大型软件架构有较深刻的认识3. 熟练掌握(java、python、GO)至少一种主流编程语言，能够根据系统架构设计对应的流程、测试方案，自动化工具或平台，不断完善整体测试体系;4. 扎实的技术功底，具备测试/技术领域前瞻性探索能力，能够从技术角度主导和推进质量改进；5. 具备搭建业务相关的测试工具，平台，框架，监控等能力；6. 有性能、安全等专业测试领域经验者优先；7. 优秀的沟通和团队合作能力，能从整个研发的角度出发，对研发流程和研发效率的改善提出落地方案。简历可发送到：nicky.ly@antgroup.com******************

0 点赞评论收藏

2024-03-13 11:21

蚂蚁集团_测试开发专家

【实习】【内推】蚂蚁消金技术岗招聘内推开始啦

蚂蚁消费金融技术部是蚂蚁践行科技助力普惠金融的重要技术战场，我们利用领先的智能风控、商业决策、高并发的架构与技术，为亿万花呗借呗客户提供安全、稳定，流畅的支付与信贷服务。在这里，你能进入商业与金融交织的时空，参与技术与商业融合创新的新征程，你能见证万亿资金在代码中穿梭，亲历双十一支付峰值带给你的紧张与踏实，感受科技践行普惠、服务实体的时代脉搏。消费金融技术期待与你相遇，与你共同成长！

0 点赞评论收藏

2024-03-13 11:19

蚂蚁集团_测试开发专家

【实习】【内推】蚂蚁消金技术岗招聘内推开

0 点赞评论收藏

2024-02-24 14:06

已编辑

蚂蚁集团_测试开发专家

蚂蚁集团消费金融业务（花呗、借呗产品）招聘数字马力啦，本次招聘有大量hc，老家是郑州周边，有强烈会郑州意愿，或者本身在郑州宝子们可以看过来啦，欢迎自荐和推荐~岗位职责1、 参与大型项目与产品需求分析，担任较大型项目的质量保障负责人；2、 深入理解产品、系统内部的设计原理，从质量保障角度提供优化意见；3、 提供并实施软件质量工程方法保障质量，如代码标准，用例覆盖，CI\CD，测试驱动开发等；4、 参与测试效果评估和软件质量核查，结合业务不同阶段，进行测试过程和测试方法的持续改进，通过测试相关流程、策略、方法和工具等创新，提升测试质量和效率；5、 结合行业发展趋势，制定核实的质量保障技术发展规划；岗位能力要求1、计算机或相关专业本科以上学历，1-2年以上测试经验；2、精通测试流程和质量保障体系，有解决复杂问题和编写测试工具或系统平台经验；、3、熟悉Java/C/C++等至少一种编程语言，熟练Linux，MySQL数据库操作；4、很强的自我驱动学习能力和技术钻研能力，具备优秀的沟通技巧，很好的责任心与高执行力；5、善于团队合作，理解和适应变化，具备较强的学习能力；6、有金融行业（理财、保险等）经验优先考虑。感兴趣的同学可发送简历至：nicky.ly@antgroup.com******************

0 点赞评论收藏

2024-02-24 14:06

已编辑

蚂蚁集团_测试开发专家

0 点赞评论收藏

2024-02-24 14:06

已编辑

蚂蚁集团_测试开发专家

0 点赞评论收藏

创作者周榜

关注他的用户也关注了：