烤点老白薯

01-11 15:56 北京体育大学测试工程师发布于北京

关注

用AI来评测AI

#你都用AI做什么#
关于AI评测的方法有很多种，就有一些现有的数据集进行相关的推理，然后对正确率进行判断，还有多轮的验证，然后选择多数的那种投票法，还有人工评测对他的一些伦理性的，然后知识性的，鲁棒性的，一些相关的特殊的评测手段和方法。还有多模型的评测，你去拿一个大模型去评测另一个大模型的效果好不好，AI评测分为很多种方向，如果具体工作不是干这个的，还是不太好说的

全部评论

推荐最新楼层

嵌入式的小白

西安理工大学嵌入式软件开发

AI侧平这个还没用过

1 回复分享

发布于 01-20 14:38 陕西

站队站对牛

门头沟学院机械设计/制造

体验了下就好了呢

点赞回复分享

发布于 01-29 10:55 江苏

晶晨半导体_ENG SW_软件开发工程师

我看过豆包和deepseek互相锐评的，好逗哈哈哈。也算ai评ai了

点赞回复分享

发布于 01-28 19:37 广东

不知道怎么取名字_

西安工程大学嵌入式工程师

你这个大模型测大模型的，我咋就没想到

点赞回复分享

发布于 01-22 15:07 陕西

长沙学院 Java

AI评测确实体系庞大，您总结得很到位。从基础的数据集评估、多模型比较，到复杂的人工价值观评测，每个方向都需专业深耕。如您所说，非从业者很难详述其具体技术实现与挑战。

点赞回复分享

发布于 01-14 15:07 云南

青岛理工大学 golang

人工标注评测，模型评测，benchmark这些吧，我记得通义刚开源了一个OpenJudge框架，支持离线和在线评测，和做基准测试，现在基模和Agent的自动化评测感觉也是一个好的方向

点赞回复分享

发布于 01-13 17:38 北京

04-23 13:45

东南大学 COCOS2DX

Kimi cli，值得你“边用边改”做成简历项目

教程项目做了好几个，RAG也搭了，Agent也跑了，但总觉得拿不出手。面试官看一眼就知道——“哦，又是跟着某某教程做的”。github上要么是教程，要么太臃肿的，不知道做啥。自己跟着gpt gemini的提示词做的话，又怕踩坑。那有没有一种项目，既能学到真东西，又能做出自己的差异化？答案是：拿一个真正的商业化产品，边用边改，做成你自己的东西。📌 这个项目是什么kimi-cli 是月之暗面（Moonshot AI）官方开源的CLI Agent，8.1k Stars。简单说，它是一个跑在终端里的AI编程助手：帮你读写和编辑代码帮你执行Shell命令帮你搜索和抓取网页甚至能自主规划多步骤任务和Cl...

哪些AI项目值得做？

点赞评论收藏

分享

昨天 18:21

B站入职体验

入职B站大家庭，从多年的老用户变身B站打工人，心里满是激动踏入B站大楼的瞬间就被狠狠惊艳，满满的二次元氛围拉满，随处可见2233娘形象、动漫手办和主题装饰，连会议室、走廊都藏着各种小惊喜。大楼休闲区、游戏区、健身房一应俱全，环境舒适又治愈，完全就是理想中的办公圣地。最让我心动的是B站超暖心的氛围。楼层里时不时有猫猫狗狗溜达闲逛，工作累了随手撸撸猫、摸摸小狗，瞬间治愈所有疲惫，实现上班撸宠自由。身边同事都年轻又温柔，氛围轻松没有距离感。往后愿带着热爱奔赴新旅程，认真工作、好好成长，和可爱的小伙伴们、萌宠们一起在B站开启超美好的职场新生活！

点赞评论收藏

分享

04-17 22:23

中南大学测试开发

美团测开面经

核心本地商业-业务研发平台4.1 一面 4.3二面 4.7 oc 4.12 offer4.1 一面自我介绍项目拷打（重点）自动化测试的应用场景python装饰器是干啥用的python with有什么作用try...except/finally是怎么工作的http与https的区别tcp与udp的区别tcp三次握手过程，为什么是3次场景题：一个登录界面如何测试编程题：正整数分解质因数反问4.3 二面自我介绍项目拷打（相较于一面甚至没有很具体的提问细节，只是问了一下碰到的麻烦以及如何解决）AIcoding：给AI输入prompt设计一个判断评论是否违规并删除的功能AI如何赋能测开AI相关问题反问总...

查看15道真题和解析

点赞评论收藏

分享

04-30 01:16

深圳技术大学 Java

有没有招后端实习的捞一捞我，可以转go/python

点赞评论收藏

分享

昨天 18:47

西安工程大学嵌入式工程师

我说下我带的人把，我忙的不可开交的，人家跑其他地方，躲开我的视线去玩手机了，一下弄的我啥都不想教了，觉得人家自己都不在乎的，我还费那心干啥的

你和你的mentor相处...

点赞评论收藏

分享

评论

3

收藏

招聘动态

完美世界

拍了拍你并邀请你投递

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

联想

26届补录

27届校招宝典

厦门银行

2026届春季校园招聘

快手

27届实习超多转正机会

联宝科技

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

88439次浏览 638人参与

# 什么专业适合考公 #

69413次浏览 345人参与

# 在爱玛，骑向未来 #

44226次浏览 434人参与

# 机械人，说说你的烦心事 #

148452次浏览 1162人参与

# 毕业季，给职场新人一些建议 #

221050次浏览 2600人参与

# 工作压力大，你会干什么？ #

82247次浏览 707人参与

# 选offer应该考虑哪些因素 #

172399次浏览 1057人参与

# 工作后，你落下了哪些病根 #

42293次浏览 294人参与

# 机械人，秋招第一次笔试的企业是哪家？ #

103394次浏览 707人参与

# 巨人网络工作体验 #

76569次浏览 507人参与

# 如何缓解入职前的焦虑 #

290710次浏览 1505人参与

# 携程笔试 #

174116次浏览 916人参与

# 我的第一份实习怎么找的 #

288501次浏览 2108人参与

# 重来一次，我还会选择这个专业吗 #

466532次浏览 3983人参与

# 你被哪些公司挂了？ #

197891次浏览 1076人参与

# 职场新人体验 #

192663次浏览 1241人参与

# 实习生的蛐蛐区 #

957355次浏览 4839人参与

# 实习生工资多少才算正常？ #

76005次浏览 526人参与

# 应届生，你找到工作了吗 #

173996次浏览 900人参与

# 找工作中的小确幸 #

92792次浏览 472人参与

# 你上一次加班是什么时候？ #

157395次浏览 823人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务