记一次对 Claude、GPT、Gemini、GLM、DeepSeek 真实评测

这是一个正在开发中的 Unity C# 项目。

本次我进行测试的是一份需求案，我已经做了好预制体，而模型需要编写代码。

这是一个皮肤系统的开发，主要需要实现皮肤界面 SkinUI 和皮肤属性界面 SkinAttrUI。

但是我们项目有需求实现的规范，所以模型需要阅读已有的代码并遵循这些规范。

界面大概是这样子的：

这是我提交给模型的所有指令：

可以说很多细节并未完全在需求案里讲清楚，如果不阅读项目代码那么很难完成任务。

而且细节非常多，指令遵循不好的模型可能会遗漏很多细节的实现。

环境

统一使用 VSCode Copilot + Unify Chat Provider。
统一使用皮肤功能开发.md 文档。
Kimi K2.5 来自官方 API。
Minimax M2.1 来自 iFlow。
GLM 4.7 来自官方 API。
DeepSeek V3.2 来自官方 API。
GPT 5.2(xhigh)、GPT 5.2-Codex(xhigh)、GPT 5.1-Codex-mini(medium) 来自 CodeX 订阅。
Gemini 3 Pro、Gemini 3 Flash 来自 Copilot 订阅。
Claude Opus 4.5、Claude Sonnet 4.5 来自中转站（宣称官 Key）。

速度

以下速度仅供参考，因为未排除受网络状况影响的因素。

Minimax M2.1: 5 分钟。
Kimi K2.5: 11 分钟。
GLM 4.7: 12 分钟。
DeppSeek V3.2: 22 分钟。
GPT 5.2(xhigh): 25 分钟。
Gemini 3 Flash: 22 分钟。
Gemini 3 Pro: 11 分钟。
Claude Opus 4.5: 15 分钟。
Claude Sonnet 4.5: 16 分钟。

代码行数

Minimax M2.1: （由于表现较差，所以直接没看，实在抱歉）
Kimi K2.5: +1808, -148
GLM 4.7: +1809, -4
DeppSeek V3.2: +1947, -13
GPT 5.2(xhigh): +1544, -10
Gemini 3 Flash: +732, -4
Gemini 3 Pro: +1191, -7
Claude Opus 4.5: +1915, -4
Claude Sonnet 4.5: +1670, -5

完成度

各模型：

Minimax:

Minimax 最后总结留下了待确认事项：皮肤ID与物品ID的映射关系 - TbskinList 表格中没有直接的 itemId 字段，需要确认映射方式。灰色材质 - 需要确认项目中置灰材质的具体路径。资源加载方式 - 需要根据项目实际使用的 YooAsset 或其他资源管理系统调整。JumpSys 跳转 - 需要确认跳转ID的具体类型和使用方式。以上第一条其实在需求案中第 35 行已经写明：item 表格，皮肤 id 对应着物品 id。灰色材质也在第 149 行写明：如何置灰：获取 m_goGray 的材质设置为需置灰组件的材质。可参考其它界面的用法。资源加载方式和 JumpSys 跳转均可通过查看项目其它代码的写法来确认，不应该需确认。且查看实际代码，Minimax 编造了 JumpMgr.Instance.Jump(skin.jumpTo); 跳转代码和置灰材质代码，即使真的需要确认，那也应该留下 TODO。
未修改皮肤按钮的响应事件，无法打开皮肤管理界面。
未注册系统，这会导致 sys 的生命周期函数不生效。
未处理服务器数据，并说因为不知道数据结构，实际上是有的。
项目中的属性值类型比较特殊，有百分比、万分比和纯数值，Minimax 只处理了百分比和纯数值。
总结：由于编造了代码，所以项目无法编译，感觉 Minimax 并未参考足够的项目代码，且出现了很多幻觉，可能还有更多问题，但是没有再继续审查。

Kimi K2.5:

未注册系统，这会导致 sys 的生命周期函数不生效。
未修改皮肤按钮的响应事件，无法打开皮肤管理界面。
未对 m_textTitleUserLevel 赋值。
没有使用 AddUIEvent 注册事件。
未对服务器 Type 做转换。
总结：有一些没有正确处理的细节，但总体上还行。

GLM 4.7:

需求案没有说要做这个赋值：m_textPreviewTypeSelect.text = _isWorldPreview ? "世界" : "城镇";，本意是好的，但这不应该做。
未按照需求案的要求显示 m_goBuildingPreview。
加载资源使用 AssetLoader.Instance.LoadAsset，项目中并不存在这个接口。
未修改皮肤按钮的响应事件，无法打开皮肤管理界面。
总结：本来刚开始 GLM 4.7 大部分代码都做的感觉挺好，但是竟然出现了好几个幻觉错误，使我没有继续审查下去。

DeepSeek V3.2:

需求案没有说要做这个赋值：m_textPreviewTypeSelect.text = _isWorldPreview ? "世界" : "城镇";，本意是好的，但这不应该做。
编写了 LoadSprite 函数，但是调用处是注释的：// m_imgTitleBg.sprite = LoadSprite(bgPath);。
对 m_textTitleUserLevel 赋值 Lv.99，但项目中存在用户等级数据，应该使用真实数据。
有一些奇怪的代码，看起来绝对不太对劲。
用错了 CloseWindow 函数，应该使用 Close 关闭界面，这个函数根本不存在。
未描述红点如何实现，自行实现了错误的红点逻辑。
总结：存在很多幻觉错误，唯一一个感觉它在注释里进行自我讨论，出现一些偏差较大的代码，没必要继续审查。

Gemini 3 Pro:

自言自语的注释很多，比 DeepSeek V3.2 更严重。
未实现跳转逻辑，留下了一堆我看不明白的自言自语的注释。
虽然并不是错误，但对网络数据的处理明显未参考项目已有代码，处理得不太规范。
未注册系统，这会导致 sys 的生命周期函数不生效。
未正确实现属性展示，留下了一大堆自言自语的注释。
出现幻觉 GameModule.Resource.LoadImageAsync 调用，项目中并不存在这个接口。
唯一一个未在要求的文件续写文件的模型，自己拷贝了一份内容创建了一个新的文件到自认为正确的位置。
总结：与 DeepSeek V3.2 半斤八两，更加自言自语，比 Gemini 3 Flash 更差，没必要继续审查。

Gemini 3 Flash:

使用了不存在的 UIManager.Instance.OpenWindow 函数打开界面，项目中并不存在这个接口。
未实现跳转逻辑，留下了 TODO 注释，但我在指令中提到不允许 TODO 需直接报告。
未注册系统，这会导致 sys 的生命周期函数不生效。
未修改皮肤按钮的响应事件，无法打开皮肤管理界面。
虽然并不是错误，但对网络数据的处理明显未参考项目已有代码，处理得不太规范。
未对 m_textTitleUserLevel 和 m_textTitleUserName 赋值，但编写了注释。
总结：Gemini 3 Flash 代码注释非常少，且写法非常简洁直接，能看到一些自言自语的注释：// Title preview also shows building? Yes, according to requirements.。由于出现了幻觉错误，所以没必要继续审查。

GPT 5.2(xhigh):

存在重复事件接收，但只会造成性能问题。
总结：严谨、细节周到、虽然还达不到完美，但是已是最好的一个。

GPT 5.2(medium):

出现重复事件接收，但只会造成性能问题。
总结：没有仔细审查，部分代码编写的没有 5.2 好，但总体是一致的。

GPT 5.2 Codex(xhigh):

未注册系统，这会导致 sys 的生命周期函数不生效。
总结：没有仔细审查，只是粗略看了一下与 5.2 的区别，可以发现部分代码编写的没有 5.2 好，有些代码结构也与 5.2 有所不同，但总体是一致的。

GPT 5.1 Codex mini(medium):

做了一半，突然跟我说 抱歉，我没能将 SkinUI 的实现按计划完成。你希望我继续吗？，我问为什么，他只是说了一下当前的工作进度，然后我回复继续，就继续直到完成了。
出现了直接在原有文件内容上直接新增导致出现两个相同的类的情况。
总结：没有仔细审查，总体而言代码质量还可以，由于出现两个相同的类导致无法编译。

Claude Opus 4.5:

未对服务器 Type 做转换。
未在显示称号时更新建筑的预览。
总结：代码风格看着舒服，在细节上有些缺失。

Claude Sonnet 4.5:

未对服务器 Type 做转换。
未在显示称号时更新建筑的预览。
总结：本次与 Opus 4.5 写的没有什么差距。

无关对错的选择：

需求案未提到属性总览弹窗在没有属性加成的情况下该如何处理：Minimax: 做了隐藏所有内容的处理，也就是会弹出一个空弹窗。Kimi K2.5: 由于没准备空提示节点，使用了一个列表项隐藏背景和图标，只显示“暂无激活的皮肤属性”文本。GLM 4.7: 没有做任何处理，也就是会弹出一个空弹窗。DeepSeek V3.2: 有做判断，但是仅仅是 return 并且继续在进行自我讨论：// 没有属性加成，显示空状态？。Gemini 3 Flash: 没有做任何处理，也就是会弹出一个空弹窗。Gemini 3 Pro: 没有做任何处理，但留下了自言自语的注释。GPT 5.2 系列: 没有做任何处理，也就是会弹出一个空弹窗。Claude 4.5 系列: 由于没准备空提示节点，使用了一个列表项隐藏背景和图标，只显示“暂无皮肤属性加成”文本。
颜色处理：Kimi K2.5: 选择了 new Color32(0x2B, 0x73, 0xB6, 0xFF) 性能最好的写法。GLM 4.7: 参考了项目最常见的写法 ColorUtility.TryParseHtmlString("#" + outlineColor, out color)。DeepSeek V3.2: 参考了项目最常见的写法 ColorUtility.TryParseHtmlString("#" + outlineColor, out color)。Gemini 3 Flash: 参考了项目最常见的写法 ColorUtility.TryParseHtmlString("#" + outlineColor, out color)。Gemini 3 Pro: 参考了项目最常见的写法 ColorUtility.TryParseHtmlString("#" + outlineColor, out color)。GPT 5.2 系列: 参考了项目最常见的写法 ColorUtility.TryParseHtmlString("#" + outlineColor, out color)。Claude 4.5 系列: 参考了项目最常见的写法 ColorUtility.TryParseHtmlString("#" + outlineColor, out color)。
注释：Kimi K2.5: 基本都注释了，注释只有描述，没有参数、返回值等字段。GLM 4.7: 基本注释了，注释的详细程度好像有一定的规则，私有函数只有描述，公共函数则有参数和返回值等字段。DeepSeek V3.2: 在注释里进行自我讨论。Gemini 3 Flash: 注释很少，并且未发现明显规律，并不是靠函数的访问权限来区分注释详细程度。Gemini 3 Pro: 有意义的注释很少，比 Flash 更少，但行间自言自语的注释最多。GPT 5.2(xhigh): 注释比较规范，公共函数有参数和返回值等字段，私有函数只有描述。Claude 4.5 系列: 编写了很多行间注释，文档级别的注释中，私有函数要不没有，要不只有描述，公共函数则有参数和返回值等字段。
判空处理与防御性编程：Kimi K2.5: 正常。GLM 4.7: 大量的判空，在我看来，绑定预制体组件的判空不必要：if (m_goBuildingPreview != null)。DeepSeek V3.2: 正常。GPT 5.2(xhigh): 极其严谨，做了很多很好的处理，虽然少数地方显得有一点冗余。Gemini 3 Flash: 最乐观了，几乎没有任何判空处理，像人写的。Gemini 3 Pro: 和 Flash 差不多。Claude 4.5 系列: 正常。
虽然并未要求，但 GPT 5.2(xhigh)：为 SkinAttrUI 增加了数据刷新同步更新界面的处理。应该是读取到了项目中存在功能解锁系统，把解锁逻辑也写上了（Kimi K2.5 也做了）。