agent实习都干什么之为什么需要SFT微调

实习期间参与的项目，聚焦于合同审核场景，本文以合同审核为例，针对在垂直落地场景中，为什么需要做sft微调展开简单的讨论和个人的一点见解。

传统合同审核系统依赖规则编写和关键词匹配，局限性突出：

一是规则需人工逐条维护，新增合同类型（如技术许可合同）时，需重新梳理数百条规则，迭代效率极低；

二是无法处理模糊表述，如“合理期限内整改”“适当补偿”等条款，关键词匹配会直接漏判；

三是不具备推理能力，无法关联多条款风险，如管辖地与争议解决方式的逻辑冲突。

二、为什么需要SFT——教模型学会“思维”

对合同审核场景而言，基座模型就像刚掌握法律基础的实习生，懂术语但不懂业务判断，SFT本质就是用高质量业务数据“带教”模型，让其模仿专家的审核思维。我们的核心思路的是，构建“合同条款+风险标签+修改建议”的三元问答对，让模型学会从条款中提取关键信息、判断风险等级、给出可落地的修改方案。

三、QLoRA——低成本微调的技术选型

QLoRA核心思想是“量化压缩+低秩适配”，既降低显存占用，又保留模型性能：先将基座模型量化为4位（4-bit），大幅压缩显存占用，再通过低秩适配（LoRA）仅微调模型的部分参数，而非全参数微调。

其优势在于，除了显存占用低，整体时间流程速度快，对于资源受限或需要快速MVP快速验证的场景下可以取得性能和收益较好的平衡。

四、合同审核微调的完整Demo

以下以“争议解决”条款为例，展示个人的微调Demo(完全脱敏，仅做举例使用)。

1. 条款示例：“因本合同引起的或与本合同有关的任何争议，由北京市朝阳区人民法院管辖。”（我方为甲方，注册地为上海市浦东新区）

2. 微调前输出：“条款明确争议解决管辖法院为北京市朝阳区人民法院，符合法律规定，无风险。”（未结合我方注册地判断，忽略管辖地不利风险）

3. 微调后输出：“风险等级：高风险；原因：我方（甲方）注册地为上海市浦东新区，约定管辖地为北京市朝阳区，后续若产生争议，需到外地应诉，增加我方时间、人力成本；修改建议：因本合同引起的或与本合同有关的任何争议，由甲方注册地（上海市浦东新区）人民法院管辖。”

4. 训练数据样例（对应该条款）：

{
  "条款原文": "因本合同引起的或与本合同有关的任何争议，由北京市朝阳区人民法院管辖。",
  "我方信息": "甲方，注册地上海市浦东新区",
  "风险标签": "高风险",
  "错误原因": "管辖地与我方注册地不一致，增加我方应诉成本",
  "修改建议": "因本合同引起的或与本合同有关的任何争议，由甲方注册地（上海市浦东新区）人民法院管辖。"
}

训练脚本核心片段（伪代码）：

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments

# 加载量化后的基座模型
model = AutoModelForCausalLM.from_pretrained(
    "model_name",
    load_in_4bit=True,
    device_map="auto",
    torch_dtype=torch.bfloat16
)
# 配置QLoRA参数
lora_config = LoraConfig(
    r=64,
    lora_alpha=16,
    target_modules=["c_attn"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)
# 训练配置
training_args = TrainingArguments(
    per_device_train_batch_size=4,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_steps=10,
    output_dir="./contract_audit_qlora",
    save_strategy="epoch"
)