将各个AI的回答分别丢给各个AI评价
最近学模态逻辑,一直有个困惑,其实就是混淆了一个关键点。我就把自己的想法丢给AI,让它们帮我分析,然后又把各个AI的回答打包,再丢给每个AI互相评价,最后AI们的打分,真的挺有戏剧性。
先说说grok4和gemini,俩模型纯属互相吹捧,都把对方排第一——不过说实话,它们的回答确实还不错,然后把dsr1放到第二位,总体来看,评价还算公允,没太离谱。
最鸡贼的当属GPT5thinking。一开始它居然通过我文档的名称,认出了哪个回答是它自己写的,直接把自己排第一。没办法,我只能改了Prompt,跟它说文档名称都是我乱写的,它才认真开始评价。单看它第二次的评价,我觉得是最公允的,明确把DS排第一。
作为提问者,我自己的测评观点很明确,结合表现给每个模型评个级:
DSR1:S级,在解答我困惑这件事上表现最好。逻辑特别完美,而且一针见血就指出了我混淆的那个点,直接戳中要害,妥妥的最优解。
gemini:A级,排第二。虽然它没有明着指出我混淆的地方,但它循循善诱的教学思路,其实暗含了我搞混的点,这点做得特别棒,看着很舒服。
grok4:B级,排第三。中规中矩,不算出彩,但也没出错,能解答基础困惑,就是缺乏亮点。
GPT5thinking:C级,体验最烂。分析虽然是正确的,但全程高高在上的语气,根本没真正解答我的疑惑,纯属浪费时间,仅能保证答案正确,毫无实用性。
dsV3.1:未评级(直接排除),我开了思考模式,结果它的回答完全错误,没有参考价值,直接排除在外,不用考虑了。 #如果给AI员工评绩效,我的答案是……#
先说说grok4和gemini,俩模型纯属互相吹捧,都把对方排第一——不过说实话,它们的回答确实还不错,然后把dsr1放到第二位,总体来看,评价还算公允,没太离谱。
最鸡贼的当属GPT5thinking。一开始它居然通过我文档的名称,认出了哪个回答是它自己写的,直接把自己排第一。没办法,我只能改了Prompt,跟它说文档名称都是我乱写的,它才认真开始评价。单看它第二次的评价,我觉得是最公允的,明确把DS排第一。
作为提问者,我自己的测评观点很明确,结合表现给每个模型评个级:
DSR1:S级,在解答我困惑这件事上表现最好。逻辑特别完美,而且一针见血就指出了我混淆的那个点,直接戳中要害,妥妥的最优解。
gemini:A级,排第二。虽然它没有明着指出我混淆的地方,但它循循善诱的教学思路,其实暗含了我搞混的点,这点做得特别棒,看着很舒服。
grok4:B级,排第三。中规中矩,不算出彩,但也没出错,能解答基础困惑,就是缺乏亮点。
GPT5thinking:C级,体验最烂。分析虽然是正确的,但全程高高在上的语气,根本没真正解答我的疑惑,纯属浪费时间,仅能保证答案正确,毫无实用性。
dsV3.1:未评级(直接排除),我开了思考模式,结果它的回答完全错误,没有参考价值,直接排除在外,不用考虑了。 #如果给AI员工评绩效,我的答案是……#
全部评论
什么狼人杀
相关推荐
查看17道真题和解析 点赞 评论 收藏
分享
查看14道真题和解析 点赞 评论 收藏
分享
点赞 评论 收藏
分享