构建一套评测驱动的智能体自进化闭环——以评测发现问题、反哺优化、验证效果,让 Agent 在持续迭代中越来越可靠。1、结合业界最佳实践与 B 端业务场景,通过专家设计和数据合成等手段,动态构建高质量评测集2、负责评测任务的调度与执行监控,对评测结果进行审核与标注,输出质量报告,推动问题闭环3、深入理解高频业务场景(电商、门店管理、资讯情报、数据分析等),针对性地构建专项评测集,设计可量化的评测标准4、与产品、算法团队紧密协作,将评测中发现的问题和模式转化为优化方向,推动评测流程的持续改进直通招聘👉:https://talent.dingtalk.com/campus/position-detail?lang=zh&positionId=199903980015