03-13 16:55 北京航空航天大学 DBA

关注

将各个AI的回答分别丢给各个AI评价

最近学模态逻辑，一直有个困惑，其实就是混淆了一个关键点。我就把自己的想法丢给AI，让它们帮我分析，然后又把各个AI的回答打包，再丢给每个AI互相评价，最后AI们的打分，真的挺有戏剧性。
先说说grok4和gemini，俩模型纯属互相吹捧，都把对方排第一——不过说实话，它们的回答确实还不错，然后把dsr1放到第二位，总体来看，评价还算公允，没太离谱。
最鸡贼的当属GPT5thinking。一开始它居然通过我文档的名称，认出了哪个回答是它自己写的，直接把自己排第一。没办法，我只能改了Prompt，跟它说文档名称都是我乱写的，它才认真开始评价。单看它第二次的评价，我觉得是最公允的，明确把DS排第一。
作为提问者，我自己的测评观点很明确，结合表现给每个模型评个级：
DSR1：S级，在解答我困惑这件事上表现最好。逻辑特别完美，而且一针见血就指出了我混淆的那个点，直接戳中要害，妥妥的最优解。
gemini：A级，排第二。虽然它没有明着指出我混淆的地方，但它循循善诱的教学思路，其实暗含了我搞混的点，这点做得特别棒，看着很舒服。
grok4：B级，排第三。中规中矩，不算出彩，但也没出错，能解答基础困惑，就是缺乏亮点。
GPT5thinking：C级，体验最烂。分析虽然是正确的，但全程高高在上的语气，根本没真正解答我的疑惑，纯属浪费时间，仅能保证答案正确，毫无实用性。
dsV3.1：未评级（直接排除），我开了思考模式，结果它的回答完全错误，没有参考价值，直接排除在外，不用考虑了。 #如果给AI员工评绩效，我的答案是……#

全部评论

推荐最新楼层

求职小星星

门头沟学院 Java

什么狼人杀

点赞回复分享

发布于 03-13 17:35 北京

昨天 15:34

中国农业大学算法工程师

拼多多多模态算法一面面经记录攒人品

发面经攒人品

点赞评论收藏

分享

05-07 22:00

已编辑

门头沟学院算法工程师

各位亦菲彦祖帮忙选选offer

主包当前只拿到了两个算法offer：一个是拼多多的算法实习生一个是荣耀的大模型算法实习生当前犹豫点在于：- 不知道pdd进去之后是做什么方向算法- 有点担心让做搜推相关的算法，我对搜推完全是零经验- 更想做和大模型相关的工作，但是荣耀实习的含金量没有pdd强求求各位佬给点建议有没有哪位佬比较了解pdd算法实习的工作内容的，一般是做什么方向的算法————————————————————————————————————————补充一下，多多是自然语言处理方向的算法实习生，这个方向一般是做什么内容，完全不了解引流： 阿里巴巴，字节跳动，京东，美团，快手，新浪，搜狐，百度，网易，万集 象帝先 AMD ...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

04-13 17:06

我妈其实不懂什么叫春招秋招。

她只知道我"在找工作"。每次视频她都问："今天怎么样啊？"我能怎么说？"今天笔试挂了一场"？"今天面试没过"？"今天投的简历已读不回"？说了她也不懂"笔试""AI面""HR面"都是啥。她只会跟着着急。所以我每次都说："还行。"她就放心了。然后开始跟我聊家里的狗下崽了、小区门口的超市关门了、隔壁奶奶摔了一跤。这种对话我以前觉得啰嗦，现在我就想听她说这些。比什么"加油宝贝"有用多了。

醉迷春：妈妈只想你快乐

父母问你工作找得怎么样，...

点赞评论收藏

分享

05-07 17:34

重庆邮电大学 C++

双非28届这么难吗

boss投了200+，没一个约面的，日常实习这么难找吗，大佬们说说是简历问题还是什么😭

点赞评论收藏

分享

不愿透露姓名的神秘牛友

05-09 16:17

1.极兔，后端开发管培生，（具体部门的话应该要等后续转正情况吧），工作地点在上海青浦，n * 14，年包在20出头，公积金缴纳5%2.平安科技，后端开发，部门是架构部门，工作地点在深圳福田区总部，（n-2.5）* 18 + 2w福利（hr说前70%平均能拿到5-6个月，应届生第一年能保底4.5）。然后月薪还分80%固定和20%绩效，年包给我算的25，公积金缴纳7%各位uu们能不能给个建议，从薪资，平台，稳定，工作强度等方面给个建议呢？

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

完美世界

拍了拍你并邀请你投递

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

联想

26届补录

27届校招宝典

厦门银行

2026届春季校园招聘

快手

27届实习超多转正机会

联宝科技

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

89455次浏览 640人参与

# 百度工作体验 #

333035次浏览 2256人参与

# 在爱玛，骑向未来 #

45424次浏览 440人参与

# 打工人的精神状态 #

154751次浏览 1555人参与

# 职场新人体验 #

193046次浏览 1245人参与

# 工作后，你落下了哪些病根 #

42528次浏览 298人参与

# 简历当中有水分算不算造假？ #

176657次浏览 2330人参与

# 机械人，说说你的烦心事 #

149007次浏览 1171人参与

# 你收到了哪些公司的笔试？ #

69442次浏览 446人参与

# 毕业季，给职场新人一些建议 #

221589次浏览 2607人参与

# 工作压力大，你会干什么？ #

82716次浏览 712人参与

# 你以为的实习VS真实的实习 #

142911次浏览 758人参与

# 招聘要求与实际实习内容不符怎么办 #

222864次浏览 1063人参与

# 稳定和高薪机械人更看重哪个？ #

594161次浏览 5583人参与

# 硬件/芯片公司工作体验 #

177744次浏览 1030人参与

# 备战春招/暑实，现在应该做什么？ #

70365次浏览 557人参与

# 距离春招还有一个月，你现在是什么开局？ #

62934次浏览 320人参与

# 米哈游求职进展汇总 #

691213次浏览 3357人参与

# 什么专业适合考公 #

69761次浏览 353人参与

# 银行笔面经互助 #

198641次浏览 1326人参与

# 百度求职进展汇总 #

728907次浏览 6428人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务