用AI来评测AI

#你都用AI做什么#
关于AI评测的方法有很多种,就有一些现有的数据集进行相关的推理,然后对正确率进行判断,还有多轮的验证,然后选择多数的那种投票法,还有人工评测对他的一些伦理性的,然后知识性的,鲁棒性的,一些相关的特殊的评测手段和方法。还有多模型的评测,你去拿一个大模型去评测另一个大模型的效果好不好,AI评测分为很多种方向,如果具体工作不是干这个的,还是不太好说的
全部评论
AI侧平这个还没用过
1 回复 分享
发布于 01-20 14:38 陕西
体验了下就好了呢
点赞 回复 分享
发布于 01-29 10:55 江苏
我看过豆包和deepseek互相锐评的,好逗哈哈哈。也算ai评ai了
点赞 回复 分享
发布于 01-28 19:37 广东
你这个大模型测大模型的,我咋就没想到
点赞 回复 分享
发布于 01-22 15:07 陕西
AI评测确实体系庞大,您总结得很到位。从基础的数据集评估、多模型比较,到复杂的人工价值观评测,每个方向都需专业深耕。如您所说,非从业者很难详述其具体技术实现与挑战。
点赞 回复 分享
发布于 01-14 15:07 云南
人工标注评测,模型评测,benchmark这些吧,我记得通义刚开源了一个OpenJudge框架,支持离线和在线评测,和做基准测试,现在基模和Agent的自动化评测感觉也是一个好的方向
点赞 回复 分享
发布于 01-13 17:38 北京

相关推荐

不愿透露姓名的神秘牛友
03-02 13:41
点赞 评论 收藏
分享
给我面没招了....攒人品中1.如果线上只有弱标签甚至没有人工标注,Reranker 如何进行微调或持续优化?2.Reranker 和 Cross-Encoder / Bi-Encoder 的关系是什么?各自的取舍点在哪里?3.为什么要做 Query 改写?它在召回和排序阶段分别能带来什么收益?4.常见的 Query 改写方式有哪些?规则、模型、生成式方法各自优缺点?5.在你的项目中,Query 改写的核心做法是什么?6.有没有读过或参考过 Query 改写 / Query Expansion 相关论文?印象最深的是哪一篇?7.GRPO 损失函数是什么?公式中每一部分分别起什么作用?8.GRPO 相比传统 RL 或 SFT 的优势在哪里?为什么要这样设计?9.在大模型训练过程中,Transformer 通常会更新哪些参数?哪些可能被冻结?10.从工程角度看,你是如何优化大模型训练和推理效率的?11.项目中使用的 Embedding 模型结构是什么?是 Encoder 还是双塔?12.输出向量的维度是多少?维度大小如何影响检索效果和性能?13.Embedding 向量在实际使用中是如何做归一化、存储和索引的?14.手撕算法:合并两个数组并去重,如何保证时间复杂度?15.手撕算法:求前 K 个最小值,使用最小堆实现。16.手撕算法:子集型回溯问题。如果输入列表中可能包含重复元素,如何避免重复解?
点赞 评论 收藏
分享
评论
3
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务