无聊的灰太狼在debug level
蚂蚁集团_测试开发专家 identity
获赞
1
粉丝
4
关注
3
看过 TA
132
清华大学
2020
测试开发
IP属地:浙江
暂未填写个人简介
私信
关注
校招求职吐槽
0 点赞 评论 收藏
分享
毕业时间:2026-11-01~2027-10-31工作地点:北京,上海,杭州,重庆,成都职位描述这是一个面向 AI 推理、优化与效果闭环的核心岗位,适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景,你将负责建立科学、前沿、可信、可复现的评测体系,并通过评测结果驱动模型、系统和应用的持续优化。具体的职责包括以下相关方向的一项或多项:1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景,设计评测基准、任务集合与能力分层体系,明确评测目标、边界、指标与验收标准;在此基础上,构建可复现的任务环境、工具链路与自动化评测框架,支持离线评测、回归测试、批量实验和版本对比,覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景;2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法,建立兼顾效率、稳定性与可信度的自动化评估体系;基于评测结果开展数据分析、误差归因、能力拆解与边界分析,识别模型、系统、提示、数据与工具链路中的关键瓶颈;3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议,推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进;同时建设高质量评测集、难例集、对抗样本与反馈回流机制,持续完善「评测 → 分析 → 优化 → 再评测」的闭环,提高模型与应用的稳定性与泛化能力。职位要求1. 计算机、数学、统计学等相关专业背景,不设硬性学历门槛;2. 具备扎实的 Python 编程能力,有独立完成工程项目的经验;3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先;4. 评测工程能力:● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程,有评测平台、数据流水线或实验系统建设经验;● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法,能够独立完成评测方案设计、实验执行与结论输出;● 理解可复现、可对比、标准化评估体系的建设方法,有 benchmark 建设或维护经验者优先。5. 模型与任务理解能力:● 理解 Transformer 与主流 LLM 的基本原理,了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态;● 能够围绕复杂任务设计合理评测方法,将评测结果转化为训练、系统或应用优化建议,推动效果闭环落地;● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力,能够从评测结果中识别关键瓶颈并给出可执行结论;7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣,能够快速学习并推动实践;8. 对模型效果和数据质量有较强敏感度,用直觉提出问题,用数据和评测拆解和归因问题,找到优化模型的最短路径;9. 对 AI 工具有实际的使用和应用,渴望成为在 AI 时代的“超级个体”,对"怎么把一件事做得更快更好"有持续的好奇心和执行力,让工具成为自己能力的放大器。加分项1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验;2. 是知名评测框架或高质量开源评测集的贡献者;3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。简历投递:nicky.ly@antgroup.com
0 点赞 评论 收藏
分享
毕业时间:2026-11-01~2027-10-31工作地点:北京,上海,杭州,重庆,成都职位描述这是一个面向 AI 推理、优化与效果闭环的核心岗位,适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景,你将负责建立科学、前沿、可信、可复现的评测体系,并通过评测结果驱动模型、系统和应用的持续优化。具体的职责包括以下相关方向的一项或多项:1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景,设计评测基准、任务集合与能力分层体系,明确评测目标、边界、指标与验收标准;在此基础上,构建可复现的任务环境、工具链路与自动化评测框架,支持离线评测、回归测试、批量实验和版本对比,覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景;2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法,建立兼顾效率、稳定性与可信度的自动化评估体系;基于评测结果开展数据分析、误差归因、能力拆解与边界分析,识别模型、系统、提示、数据与工具链路中的关键瓶颈;3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议,推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进;同时建设高质量评测集、难例集、对抗样本与反馈回流机制,持续完善「评测 → 分析 → 优化 → 再评测」的闭环,提高模型与应用的稳定性与泛化能力。职位要求1. 计算机、数学、统计学等相关专业背景,不设硬性学历门槛;2. 具备扎实的 Python 编程能力,有独立完成工程项目的经验;3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先;4. 评测工程能力:● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程,有评测平台、数据流水线或实验系统建设经验;● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法,能够独立完成评测方案设计、实验执行与结论输出;● 理解可复现、可对比、标准化评估体系的建设方法,有 benchmark 建设或维护经验者优先。5. 模型与任务理解能力:● 理解 Transformer 与主流 LLM 的基本原理,了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态;● 能够围绕复杂任务设计合理评测方法,将评测结果转化为训练、系统或应用优化建议,推动效果闭环落地;● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力,能够从评测结果中识别关键瓶颈并给出可执行结论;7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣,能够快速学习并推动实践;8. 对模型效果和数据质量有较强敏感度,用直觉提出问题,用数据和评测拆解和归因问题,找到优化模型的最短路径;9. 对 AI 工具有实际的使用和应用,渴望成为在 AI 时代的“超级个体”,对"怎么把一件事做得更快更好"有持续的好奇心和执行力,让工具成为自己能力的放大器。加分项1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验;2. 是知名评测框架或高质量开源评测集的贡献者;3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。简历投递:nicky.ly@antgroup.com
0 点赞 评论 收藏
分享
毕业时间:2026-11-01~2027-10-31工作地点:北京,上海,杭州,重庆,成都职位描述这是一个面向 AI 推理、优化与效果闭环的核心岗位,适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景,你将负责建立科学、前沿、可信、可复现的评测体系,并通过评测结果驱动模型、系统和应用的持续优化。具体的职责包括以下相关方向的一项或多项:1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景,设计评测基准、任务集合与能力分层体系,明确评测目标、边界、指标与验收标准;在此基础上,构建可复现的任务环境、工具链路与自动化评测框架,支持离线评测、回归测试、批量实验和版本对比,覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景;2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法,建立兼顾效率、稳定性与可信度的自动化评估体系;基于评测结果开展数据分析、误差归因、能力拆解与边界分析,识别模型、系统、提示、数据与工具链路中的关键瓶颈;3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议,推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进;同时建设高质量评测集、难例集、对抗样本与反馈回流机制,持续完善「评测 → 分析 → 优化 → 再评测」的闭环,提高模型与应用的稳定性与泛化能力。职位要求1. 计算机、数学、统计学等相关专业背景,不设硬性学历门槛;2. 具备扎实的 Python 编程能力,有独立完成工程项目的经验;3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先;4. 评测工程能力:● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程,有评测平台、数据流水线或实验系统建设经验;● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法,能够独立完成评测方案设计、实验执行与结论输出;● 理解可复现、可对比、标准化评估体系的建设方法,有 benchmark 建设或维护经验者优先。5. 模型与任务理解能力:● 理解 Transformer 与主流 LLM 的基本原理,了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态;● 能够围绕复杂任务设计合理评测方法,将评测结果转化为训练、系统或应用优化建议,推动效果闭环落地;● 有大模型评测、Agent、数据合成、自动化评估或相关研究/项目经历者优先专业能力。6. 数据与分析能力。具备扎实的数据分析、实验设计和结果归因能力,能够从评测结果中识别关键瓶颈并给出可执行结论;7. 对前沿评测方法、Benchmark 体系和能力边界分析有持续兴趣,能够快速学习并推动实践;8. 对模型效果和数据质量有较强敏感度,用直觉提出问题,用数据和评测拆解和归因问题,找到优化模型的最短路径;9. 对 AI 工具有实际的使用和应用,渴望成为在 AI 时代的“超级个体”,对"怎么把一件事做得更快更好"有持续的好奇心和执行力,让工具成为自己能力的放大器。加分项1. 有 Agent、代码智能、工具调用、多步任务执行或多模态评测的端到端实践经验;2. 是知名评测框架或高质量开源评测集的贡献者;3. 在大模型评测、数据合成、Agent 相关方向在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶会发表相关论文。简历投递:nicky.ly@antgroup.com
0 点赞 评论 收藏
分享
岗位职责: 1. 参与消费信贷产品及风控的测试全过程,包括参与需求分析、设计评审,制定测试计划,设计和执行测试用例,进行缺陷跟踪和软件质量分析等;2. 制定合理的测试策略、测试计划和测试方法,包括缺陷跟踪、输出报告等,并参与需求讨论、需求评审、需求测试及线上问题跟进,持续优化产品和研发流程,提升整体质量和效率。3. 保证被测系统的质量,并通过测试流程和方法创新,努力提升研发的质量和效率4. 沉淀通用测试解决方案,负责关键技术专项建设,开发相关工具或服务提高测试效率;任职要求:1. 计算机相关专业本科及以上学历,三年以上质量/测试领域工作经验,能独立负责业务测试;2. 熟悉Linux操作系统;有丰富的服务端接口测试经验,精通测试用例设计,对软件工程和大型软件架构有较深刻的认识3. 熟练掌握(java、python、GO)至少一种主流编程语言,能够根据系统架构设计对应的流程、测试方案,自动化工具或平台,不断完善整体测试体系;4. 扎实的技术功底,具备测试/技术领域前瞻性探索能力,能够从技术角度主导和推进质量改进;5. 具备搭建业务相关的测试工具,平台,框架,监控等能力;6. 有性能、安全等专业测试领域经验者优先;7. 优秀的沟通和团队合作能力,能从整个研发的角度出发,对研发流程和研发效率的改善提出落地方案。简历可发送到:nicky.ly@antgroup.com******************
0 点赞 评论 收藏
分享
2024-02-24 14:06
已编辑
蚂蚁集团_测试开发专家
蚂蚁集团消费金融业务(花呗、借呗产品)招聘数字马力啦,本次招聘有大量hc,老家是郑州周边,有强烈会郑州意愿,或者本身在郑州宝子们可以看过来啦,欢迎自荐和推荐~岗位职责1、 参与大型项目与产品需求分析,担任较大型项目的质量保障负责人;2、 深入理解产品、系统内部的设计原理,从质量保障角度提供优化意见;3、 提供并实施软件质量工程方法保障质量,如代码标准,用例覆盖,CI\CD,测试驱动开发等;4、 参与测试效果评估和软件质量核查,结合业务不同阶段,进行测试过程和测试方法的持续改进,通过测试相关流程、策略、方法和工具等创新,提升测试质量和效率;5、 结合行业发展趋势,制定核实的质量保障技术发展规划;岗位能力要求1、计算机或相关专业本科以上学历,1-2年以上测试经验;2、精通测试流程和质量保障体系,有解决复杂问题和编写测试工具或系统平台经验;、3、熟悉Java/C/C++等至少一种编程语言,熟练Linux,MySQL数据库操作;4、很强的自我驱动学习能力和技术钻研能力,具备优秀的沟通技巧,很好的责任心与高执行力;5、善于团队合作,理解和适应变化,具备较强的学习能力;6、有金融行业(理财、保险等)经验优先考虑。感兴趣的同学可发送简历至:nicky.ly@antgroup.com******************
0 点赞 评论 收藏
分享
2024-02-24 14:06
已编辑
蚂蚁集团_测试开发专家
蚂蚁集团消费金融业务(花呗、借呗产品)招聘数字马力啦,本次招聘有大量hc,老家是郑州周边,有强烈会郑州意愿,或者本身在郑州宝子们可以看过来啦,欢迎自荐和推荐~岗位职责1、 参与大型项目与产品需求分析,担任较大型项目的质量保障负责人;2、 深入理解产品、系统内部的设计原理,从质量保障角度提供优化意见;3、 提供并实施软件质量工程方法保障质量,如代码标准,用例覆盖,CI\CD,测试驱动开发等;4、 参与测试效果评估和软件质量核查,结合业务不同阶段,进行测试过程和测试方法的持续改进,通过测试相关流程、策略、方法和工具等创新,提升测试质量和效率;5、 结合行业发展趋势,制定核实的质量保障技术发展规划;岗位能力要求1、计算机或相关专业本科以上学历,1-2年以上测试经验;2、精通测试流程和质量保障体系,有解决复杂问题和编写测试工具或系统平台经验;、3、熟悉Java/C/C++等至少一种编程语言,熟练Linux,MySQL数据库操作;4、很强的自我驱动学习能力和技术钻研能力,具备优秀的沟通技巧,很好的责任心与高执行力;5、善于团队合作,理解和适应变化,具备较强的学习能力;6、有金融行业(理财、保险等)经验优先考虑。感兴趣的同学可发送简历至:nicky.ly@antgroup.com******************
0 点赞 评论 收藏
分享
2024-02-24 14:06
已编辑
蚂蚁集团_测试开发专家
蚂蚁集团消费金融业务(花呗、借呗产品)招聘数字马力啦,本次招聘有大量hc,老家是郑州周边,有强烈会郑州意愿,或者本身在郑州宝子们可以看过来啦,欢迎自荐和推荐~岗位职责1、 参与大型项目与产品需求分析,担任较大型项目的质量保障负责人;2、 深入理解产品、系统内部的设计原理,从质量保障角度提供优化意见;3、 提供并实施软件质量工程方法保障质量,如代码标准,用例覆盖,CI\CD,测试驱动开发等;4、 参与测试效果评估和软件质量核查,结合业务不同阶段,进行测试过程和测试方法的持续改进,通过测试相关流程、策略、方法和工具等创新,提升测试质量和效率;5、 结合行业发展趋势,制定核实的质量保障技术发展规划;岗位能力要求1、计算机或相关专业本科以上学历,1-2年以上测试经验;2、精通测试流程和质量保障体系,有解决复杂问题和编写测试工具或系统平台经验;、3、熟悉Java/C/C++等至少一种编程语言,熟练Linux,MySQL数据库操作;4、很强的自我驱动学习能力和技术钻研能力,具备优秀的沟通技巧,很好的责任心与高执行力;5、善于团队合作,理解和适应变化,具备较强的学习能力;6、有金融行业(理财、保险等)经验优先考虑。感兴趣的同学可发送简历至:nicky.ly@antgroup.com******************
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务