一、AI 测试的分水岭 从“使用”到“治理”现在市面上的 AI 测试落地尝试,基本分两个流派。一派是把 Claude Code 当外包小弟,人写提示词,它出脚本,人再复制粘贴到框架里。看起来快,实则返工率高得惊人。因为每一轮对话都是独立的,没有版本约束,没有上下文锁定,出问题只能从聊天记录里翻证据。 另一派,已经开始用交付流水线的思维治理 AI。不再把 Claude Code 当成一个聊天窗口,而是当成流水线里一个“生成步骤”。这个步骤有固定的输入源、参数化模板、审批节点、质量阈值,跑完自动进入下一环节。后一种做法的核心已经不是“用 AI”,而是把 AI 输出变成可治理的资产。这就是 Harn...