agent实习都干什么之为什么需要SFT微调

实习期间参与的项目,聚焦于合同审核场景,本文以合同审核为例,针对在垂直落地场景中,为什么需要做sft微调展开简单的讨论和个人的一点见解。

传统合同审核系统依赖规则编写和关键词匹配,局限性突出:

一是规则需人工逐条维护,新增合同类型(如技术许可合同)时,需重新梳理数百条规则,迭代效率极低;

二是无法处理模糊表述,如“合理期限内整改”“适当补偿”等条款,关键词匹配会直接漏判;

三是不具备推理能力,无法关联多条款风险,如管辖地与争议解决方式的逻辑冲突。

二、为什么需要SFT——教模型学会“思维”

对合同审核场景而言,基座模型就像刚掌握法律基础的实习生,懂术语但不懂业务判断,SFT本质就是用高质量业务数据“带教”模型,让其模仿专家的审核思维。我们的核心思路的是,构建“合同条款+风险标签+修改建议”的三元问答对,让模型学会从条款中提取关键信息、判断风险等级、给出可落地的修改方案。

三、QLoRA——低成本微调的技术选型

QLoRA核心思想是“量化压缩+低秩适配”,既降低显存占用,又保留模型性能:先将基座模型量化为4位(4-bit),大幅压缩显存占用,再通过低秩适配(LoRA)仅微调模型的部分参数,而非全参数微调。

其优势在于,除了显存占用低,整体时间流程速度快,对于资源受限或需要快速MVP快速验证的场景下可以取得性能和收益较好的平衡。

四、合同审核微调的完整Demo

以下以“争议解决”条款为例,展示个人的微调Demo(完全脱敏,仅做举例使用)。

1. 条款示例:“因本合同引起的或与本合同有关的任何争议,由北京市朝阳区人民法院管辖。”(我方为甲方,注册地为上海市浦东新区)

2. 微调前输出:“条款明确争议解决管辖法院为北京市朝阳区人民法院,符合法律规定,无风险。”(未结合我方注册地判断,忽略管辖地不利风险)

3. 微调后输出:“风险等级:高风险;原因:我方(甲方)注册地为上海市浦东新区,约定管辖地为北京市朝阳区,后续若产生争议,需到外地应诉,增加我方时间、人力成本;修改建议:因本合同引起的或与本合同有关的任何争议,由甲方注册地(上海市浦东新区)人民法院管辖。”

4. 训练数据样例(对应该条款):

{
  "条款原文": "因本合同引起的或与本合同有关的任何争议,由北京市朝阳区人民法院管辖。",
  "我方信息": "甲方,注册地上海市浦东新区",
  "风险标签": "高风险",
  "错误原因": "管辖地与我方注册地不一致,增加我方应诉成本",
  "修改建议": "因本合同引起的或与本合同有关的任何争议,由甲方注册地(上海市浦东新区)人民法院管辖。"
}

训练脚本核心片段(伪代码):

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments

# 加载量化后的基座模型
model = AutoModelForCausalLM.from_pretrained(
    "model_name",
    load_in_4bit=True,
    device_map="auto",
    torch_dtype=torch.bfloat16
)
# 配置QLoRA参数
lora_config = LoraConfig(
    r=64,
    lora_alpha=16,
    target_modules=["c_attn"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)
# 训练配置
training_args = TrainingArguments(
    per_device_train_batch_size=4,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_steps=10,
    output_dir="./contract_audit_qlora",
    save_strategy="epoch"
)

五、总结与后续优化方向

受限于模型性能发展,仍然存在以下问题:

一是模型偶尔会出现“幻觉”,如编造不存在的法律条款作为修改依据;

二是对极小众的合同条款(如涉外合同适用法律),审核效果较差;

三是未引入反馈机制,无法根据人工审核反馈持续优化模型。

后续优化思考点:

一是引入RLHF技术,结合人工审核反馈构建奖励模型,让模型输出更贴合业务需求;

二是借助multi - Agent协同架构,将合同审核拆分为条款提取、风险判断、修改建议三个模块,由不同Agent分工协作,进一步提升审核准确率和鲁棒性。

全文为个人思考,无涉密内容及公司真实案例数据,仅供参考学习使用。

#AI求职实录#
全部评论

相关推荐

昨天 01:39
南昌大学 Java
重剑Ds:感觉不太可能 后端都减飞了 根本不缺人
点赞 评论 收藏
分享
02-14 07:38
已编辑
门头沟学院 Java
2.4 一面2.6 二面2.9 三面(hr面)2.13 oc1.15号收到面试电话那会就开始准备,因为一开始没底所以选择推迟一段时间面试,之后开始准备八股,准备实习可能会问的东西,这期间hot100过了有六七遍,真的是做吐了快,八股也是背了忘,忘了背,面经也看了很多,虽然最后用上的只有几道题,可是谁知道会问什么呢自从大二上开始学java以来,一路走来真的太痛了,一开始做外卖,点评,学微服务,大二下五六月时,开始投简历,哎,投了一千份了无音讯,开始怀疑自己(虽然能力确实很一般),后来去到一家小小厂,但是并不能学到什么东西,而且很多东西都很不规范,没待多久便离开,大二暑假基本上摆烂很怀疑自己,大三上因为某些原因开始继续学,期间也受到一俩个中小厂的offer,不过学校不知道为啥又不允许中小厂实习只允许大厂加上待遇不太好所以也没去,感觉自己后端能力很一般,于是便打算转战测开,学习了一些比较简单的测试理论(没有很深入的学),然后十二月又开始继续投,java和测开都投,不过好像并没有几个面试,有点打击不过并没有放弃心里还是想争一口气,一月初因为学校事比较多加上考试便有几天没有继续投,10号放假后便继续,想着放假应该很多人辞职可能机会大一点,直到接到字节的面试,心里挺激动的,总算有大厂面试了,虽然很开心,但同时压力也很大,心里真的很想很想很想进,一面前几天晚上都睡不好觉,基本上都是二三点睡六七点醒了,好在幸运终于眷顾我一次了(可能是之前太痛了),一面三十几分钟结束,问的都不太难,而且面试官人挺好但是有些问题问的很刁钻问到了测试的一些思想并不是理论,我不太了解这方面,但是也会给我讲一讲他的理解,但是面完很伤心觉得自己要挂了。但是幸运的是一面过了(感谢面试官),两天后二面,问的同样不算难,手撕也比较简单,但也有一两个没答出来,面试官人很好并没有追问,因为是周五进行的二面,没有立即出结果,等到周一才通知到过了,很煎熬的两天,根本睡不好,好在下周一终于通知二面过了(感谢面试官),然后约第二天三面,听别的字节同学说hr面基本上是谈薪资了,但是我的并不是,hr还问了业务相关的问题,不过问的比较浅,hr还问我好像比较紧张,而且hr明确说了还要比较一下,我说我有几家的面试都拒了就在等字节的面试(当然紧张,紧张到爆了要),三面完后就开始等结果,这几天干啥都没什么劲,等的好煎熬,终于13号下午接到了电话通知oc了,正式邮件也同时发了,接到以后真的不敢信,很激动但更重要的是可以松一口气了,可以安心的休息一下了终于可以带着个好消息过年了,找实习也可以稍微告一段落了,虽然本人很菜,但是感谢字节收留,成为忠诚的节孝子了因为问的比较简单,面经就挑几个记得的写一下一面:1.实习项目的难点说一下2.针对抖音评论设计一下测试用例3.手撕:合并两个有序数组二面:1.为什么转测开2.线程进程区别,什么场景适合用哪个3.发送一个朋友圈,从发出到别人看到,从数据流转的角度说一下会经历哪些过程4.针对抖音刷到广告视频设计测试用例5.手撕:无重复字符的最长字串
查看8道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务