人工标注评测,模型评测,benchmark这些吧,我记得通义刚开源了一个OpenJudge框架,支持离线和在线评测,和做基准测试,现在基模和Agent的自动化评测感觉也是一个好的方向
点赞 1

相关推荐

不愿透露姓名的神秘牛友
03-02 13:41
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务