agent实习都干什么之为什么需要SFT微调
实习期间参与的项目,聚焦于合同审核场景,本文以合同审核为例,针对在垂直落地场景中,为什么需要做sft微调展开简单的讨论和个人的一点见解。
传统合同审核系统依赖规则编写和关键词匹配,局限性突出:
一是规则需人工逐条维护,新增合同类型(如技术许可合同)时,需重新梳理数百条规则,迭代效率极低;
二是无法处理模糊表述,如“合理期限内整改”“适当补偿”等条款,关键词匹配会直接漏判;
三是不具备推理能力,无法关联多条款风险,如管辖地与争议解决方式的逻辑冲突。
二、为什么需要SFT——教模型学会“思维”
对合同审核场景而言,基座模型就像刚掌握法律基础的实习生,懂术语但不懂业务判断,SFT本质就是用高质量业务数据“带教”模型,让其模仿专家的审核思维。我们的核心思路的是,构建“合同条款+风险标签+修改建议”的三元问答对,让模型学会从条款中提取关键信息、判断风险等级、给出可落地的修改方案。
三、QLoRA——低成本微调的技术选型
QLoRA核心思想是“量化压缩+低秩适配”,既降低显存占用,又保留模型性能:先将基座模型量化为4位(4-bit),大幅压缩显存占用,再通过低秩适配(LoRA)仅微调模型的部分参数,而非全参数微调。
其优势在于,除了显存占用低,整体时间流程速度快,对于资源受限或需要快速MVP快速验证的场景下可以取得性能和收益较好的平衡。
四、合同审核微调的完整Demo
以下以“争议解决”条款为例,展示个人的微调Demo(完全脱敏,仅做举例使用)。
1. 条款示例:“因本合同引起的或与本合同有关的任何争议,由北京市朝阳区人民法院管辖。”(我方为甲方,注册地为上海市浦东新区)
2. 微调前输出:“条款明确争议解决管辖法院为北京市朝阳区人民法院,符合法律规定,无风险。”(未结合我方注册地判断,忽略管辖地不利风险)
3. 微调后输出:“风险等级:高风险;原因:我方(甲方)注册地为上海市浦东新区,约定管辖地为北京市朝阳区,后续若产生争议,需到外地应诉,增加我方时间、人力成本;修改建议:因本合同引起的或与本合同有关的任何争议,由甲方注册地(上海市浦东新区)人民法院管辖。”
4. 训练数据样例(对应该条款):
{
"条款原文": "因本合同引起的或与本合同有关的任何争议,由北京市朝阳区人民法院管辖。",
"我方信息": "甲方,注册地上海市浦东新区",
"风险标签": "高风险",
"错误原因": "管辖地与我方注册地不一致,增加我方应诉成本",
"修改建议": "因本合同引起的或与本合同有关的任何争议,由甲方注册地(上海市浦东新区)人民法院管辖。"
}
训练脚本核心片段(伪代码):
from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
# 加载量化后的基座模型
model = AutoModelForCausalLM.from_pretrained(
"model_name",
load_in_4bit=True,
device_map="auto",
torch_dtype=torch.bfloat16
)
# 配置QLoRA参数
lora_config = LoraConfig(
r=64,
lora_alpha=16,
target_modules=["c_attn"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)
# 训练配置
training_args = TrainingArguments(
per_device_train_batch_size=4,
learning_rate=2e-4,
num_train_epochs=3,
logging_steps=10,
output_dir="./contract_audit_qlora",
save_strategy="epoch"
)
五、总结与后续优化方向
受限于模型性能发展,仍然存在以下问题:
一是模型偶尔会出现“幻觉”,如编造不存在的法律条款作为修改依据;
二是对极小众的合同条款(如涉外合同适用法律),审核效果较差;
三是未引入反馈机制,无法根据人工审核反馈持续优化模型。
后续优化思考点:
一是引入RLHF技术,结合人工审核反馈构建奖励模型,让模型输出更贴合业务需求;
二是借助multi - Agent协同架构,将合同审核拆分为条款提取、风险判断、修改建议三个模块,由不同Agent分工协作,进一步提升审核准确率和鲁棒性。
全文为个人思考,无涉密内容及公司真实案例数据,仅供参考学习使用。
