agent实习都干什么?深入了解项目构成(二)

在前文agent实习都干什么?深入了解项目构成(一) 对日常工作进行了大概的分享后,本文是我在工作中对于方案设计的一些小思考和对于架构的粗浅理解,希望和大家共同讨论进步(完全脱敏)。

一、方案设计(以敏感词为例)

敏感词审核作为功能模块的组成,其本身多聚焦于与文档进行交互,需同时满足“实时响应”和“高覆盖率”,因此架构设计阶段确定AC自动机+AI双轨方案:

  • AC自动机做基础筛查:合同审核场景下敏感词库规模庞大,AC自动机针对文档识别时间复杂度为O(n)(n为文档长度),能以低于10s的延迟完成固定敏感词的字面匹配,满足高并发下的效率要求,但仅能识别精准匹配的词汇,无法处理谐音、变体或语义衍生的隐性违规表达,同时受限于本身机制,仅能匹配完整的敏感词,如果存在AABB和AA类型的敏感词,则AA通常无法识别。
  • AI做补充校验:基于行业微调的大模型能识别“套现→套取现金”等语义衍生违规、“氵包 娼”等变体表达,弥补AC自动机的覆盖率短板;双轨结果交叉验证,既保证基础审核效率,又将敏感词漏检率降低80%以上。

二、文档切块策略:语义切块+最长一页限制

在POI解析文档内容、AI模型处理文本的全流程中,token限制是核心约束:

  1. token限制的核心影响:一方面,POI解析长文档时,单次处理过长篇幅易导致内存溢出;另一方面,主流大模型(如Qwen3、deepseek)存在token上限(如4096),超出上限会触发截断,导致上下文丢失。
  2. 语义切块+最长一页的设计逻辑: 按语义切块:以段落、条款为最小单位拆分文档,避免将“合同有效期”“违约责任”等完整语义单元截断,防止AI误判或POI解析遗漏关键信息;最长一页限制:单块内容最长不超过一页(约500-800字),既保证单块token数远低于模型上限(预留冗余空间),又控制切块数量,避免多次调用AI导致响应延迟增加。

三、AI效果评估体系

在agent开发中,目前的测试方法极多,如困惑度测试等等,但在指定任务中,通常采取传统评估方法,即通过多维度评估指标量化审核效果,:

  • 核心指标:精准率(避免误判合规条款)、召回率(降低漏检违规内容)、F1值(平衡精准率与召回率);
  • 效率指标:单文档审核延迟、单块文本处理耗时;
  • 覆盖率指标:敏感词变体识别率、行业特规匹配率。 评估方法采用“人工标注测试集+自动化对比”,确保模型效果达标。

总结

架构设计阶段的核心决策均围绕MCP+Agent架构的核心目标展开:AC自动机+AI双轨兼顾效率与覆盖率,语义切块规避token限制,多维度评估体系保障效果可控。这些决策既解决了传统微服务的耦合问题,又适配AI原生特性,最终实现“工具层标准化、逻辑层灵活化”的重构目标。

一图流

#AI求职实录#
全部评论
学到了 催更
点赞 回复 分享
发布于 02-19 21:19 广东

相关推荐

03-21 04:30
门头沟学院 Java
发点面经攒攒人品~1.实习介绍2.拷打第一个项目3.拷打第二个项目4.在向量化之前,为什么要对长文档进行切片?如果不切片会有什么后果?5.切片时设置重叠区域的作用是什么?这个比例你通常怎么来确定?6.讲一下稠密向量与稀疏向量的区别,分别适合处理什么样的搜索需求?7.向量库检索出的Top-K结果,如果K值设置得过大,对后续的生成质量有哪些负面影响?8.余弦相似度和欧氏距离在衡量文本相似性时,各自的优缺点是什么?9.为什么在初筛召回之后,还要加一个Rerank模型?它能解决向量搜索的哪些局限?10.如果文档发生了局部更新,如何通过增量索引来避免全量重新向量化?11.在RAG的生成阶段,如何在Prompt中设定边界条件来防止模型在没搜到内容时产生幻觉?12.了解HyDE吗?介绍一下原理,它在处理模糊提问时有哪些优势?13.随着超长上下文模型的出现,你认为传统RAG架构的必要性是否降低了?14.你了解哪些大模型推理框架?SGLang相比vLLM的PagedAttention在推理延迟上有哪些优势?15.调用大模型API时,为什么要使用asyncio异步编程?它在处理高并发请求时有何优势?16.针对大规模PDF解析这种任务,你选择多线程还是多进程?17.如何确保Agent返回的结果是标准的JSON格式?如果模型输出中有多余的说明文字,你在后端如何提取?18.场景题:对于RAG,如果检索到了针对同一故障的两份手册,内容相互冲突,请你设计一套逻辑,让模型能够识别冲突并优先选择时效性更高的信息?19.手撕:第k大元素
查看19道真题和解析
点赞 评论 收藏
分享
评论
3
1
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务