亚信科技 - 大模型开发一面

1. 个人介绍

2. 实习拷打

3. RAG 的优化,项目中 Agent 的流程

RAG 的核心链路是:文档处理 -> 建索引 -> 检索召回 -> 重排筛选 -> 上下文拼接 -> 大模型生成。它的优化也主要围绕这几步展开。

先说文档处理。原始文档不能直接粗暴切块,要先做清洗,比如去掉无效页眉页脚、目录、乱码、重复段落。然后做合理切分。切分太大,会带入噪声;切分太小,上下文会断。常见做法是按段落、标题层级、语义边界切 chunk,并适当设置 overlap。

再说检索阶段。RAG 不一定只用向量检索,通常会把 BM25、向量召回、关键词召回混合起来。向量召回解决语义相似,BM25 对精确术语命中更好,混合检索通常比单一路径稳。召回后最好加 rerank,因为向量检索返回的是“可能相关”,rerank 才是在更细粒度上排序。

然后是上下文拼接。不是把召回结果全塞给模型,而是要做截断、去重、排序、字段过滤,尽量把最有用的信息放前面。Prompt 里也要限制模型必须基于检索内容回答,如果找不到就明确说不知道,这样能减少幻觉。

常见优化点有这些:一是优化 chunk 切分策略;二是换更适合垂域的 embedding 模型;三是加入 rerank;四是做 query 改写,比如把用户问题标准化;五是多路召回融合;六是对高频问题做缓存;七是对答案做引用溯源。

Agent 的项目流程一般是:用户输入 -> 意图识别 -> 任务规划 -> 工具选择 -> 工具调用 -> 结果汇总 -> 模型生成最终回复。如果是简单单 Agent,可以由模型直接决定是否调用检索、数据库、搜索接口等工具。如果是复杂流程,前面还会加一个 Planner,把任务拆成几个子任务,再由 Executor 去执行。执行完之后把工具返回的结构化结果重新组织,再交给模型生成自然语言答案。

一个典型流程是:

用户提问后,系统先判断是闲聊、知识问答还是需要外部工具。如果是知识问答,就走 RAG;如果是查业务数据,就走数据库或 API 工具;如果问题复杂,就分步骤执行。最后把所有结果汇总成统一上下文,由大模型生成最终回答。

4. 数据处理

数据处理在大模型项目里非常关键,因为很多效果问题本质上不是模型不行,而是数据不干净、结构不合理。

常见流程包括:先采集和解析原始数据,比如 PDF、Word、网页、Excel、数据库记录;然后做清洗,去除空行、乱码、广告、模板性内容、重复内容;再做标准化,比如时间格式统一、字段名统一、中文全半角统一、标点清洗;如果是训练数据,还要做标注校验、去重、类别平衡、异常样本过滤;如果是 RAG 数据,则要做 chunk 切分、元数据补充、向量化入库。

Pandas 是最常用的工具之一,适合做表格清洗和统计。

import pandas as pd

df = pd.read_csv("data.csv")

# 去重
df = df.drop_duplicates()

# 去掉关键字段为空的数据
df = df.dropna(subset=["question", "answer"])

# 文本清洗
df["question"] = df["question"].str.strip()
df["answer"] = df["answer"].str.replace(r"\s+", " ", regex=True).str.strip()

print(df.head())

如果是文本数据,通常还会配合正则表达式做清洗,比如去特殊符号、编号、HTML 标签。

5. 正则表达式

正则表达式主要用于文本模式匹配和清洗,在 NLP 项目里很常见,尤其是做预处理、字段抽取、规则过滤的时候。它适合处理格式比较固定的内容,比如手机号、邮箱、日期、证件号、日志模板、标签内容等。

常见元字符有这些:

  • .:匹配任意字符,除了换行
  • \d:匹配数字
  • \w:匹配字母数字下划线
  • \s:匹配空白字符
  • *:前一个字符出现 0 次或多次
  • +:前一个字符出现 1 次或多次
  • ?:前一个字符出现 0 次或 1 次
  • []:字符集合
  • ():分组
  • ^:匹配开头
  • $:匹配结尾

Python 里一般用 re 模块。

import re


phone = re.findall(r"1[3-9]\d{9}", text)
email = re.findall(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}", text)

print(phone)
print(email)

正则的优点是快、直观、可控,缺点是泛化能力差,格式一变就容易失效。所以在实际项目里,正则更适合和模型方法结合使用,而不是完全替代模型。

6. NER

NER 就是命名实体识别,目标是从文本中识别人名、地名、组织机构名、时间、金额、疾病、药品等实体。它本质上是一个序列标注任务,也就是给句子里的每个 token 打标签。

传统方法包括 CRF、HMM;深度学习方法包括 BiLSTM-CRF、BERT-CRF;现在也常用大模型做指令抽取。如果追求稳定和结构化输出,BERT-CRF 这类监督方法仍然很常见;如果追求快速适配新领域,也可以用大模型配合 few-shot 或规则后处理。

NER 的难点主要在实体边界、实体歧义、长尾实体和嵌套实体。比如“北京大学医学部”到底整体算一个机构,还是“北京大学”和“医学部”分开标,这是边界问题。像“苹果”到底是水果还是公司,这是歧义问题。

7. 条件随机场

条件随机场,CRF,常用于序列标注任务,比如分词、词性标注、NER。它的作用不是单独提特征,而是在已有特征基础上,对标签序列做全局建模。

如果一个句子中每个位置都独立分类,模型可能输出不合理标签,比如一个位置是 I-PER,前面却不是 B-PER。CRF 的价值就在于它不仅看当前位置得分,还考虑标签转移得分,从而让整个标签序列

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

03-16 16:19
已编辑
长沙学院 Java
如果你现在想入行AI,别一上来就啃什么反向传播、数学推导,大概率坚持不下来。直接奔着RAG去,这是企业最缺、上手最快、简历最好写的方向。RAG到底是啥?全称检索增强生成,说白了就一句话:让AI学会翻资料再回答问题。以前的大模型全凭“脑子里的知识”答题,问它“咱们公司年假怎么休”,它直接懵——它又没在你公司上过班。RAG不一样:你先把自己公司的员工手册、技术文档、会议纪要、客服聊天记录全喂进去,存在一个叫“向量数据库”的地方。员工来问问题,系统先去库里找相关材料,然后把材料+问题一起给大模型,模型照着材料回答。效果立竿见影:客服不用翻几百页手册了,秒回客户问题新员工入职,自己问AI就能熟悉业务代码报错了,AI自动查历史bug库给解决方案销售要写方案,AI去库里翻过往中标文档做参考为啥企业抢着要?因为每个公司都有自己的知识积累,通用的GPT用不上。而RAG能把公司内部经验和AI能力打通,成本低、见效快、不出错。老板一听就两眼放光。入门学啥?就两样:1. 向量数据库——存知识的地方。学学怎么把文档切碎、转成向量、存进去、搜出来。主流的Chroma、Milvus、Pinecone挑一个玩熟。2. LangChain——搭流程的工具。学学怎么把“查资料+问模型”串成一条流水线,文档怎么切、怎么搜、怎么拼给模型。怎么做项目?就做一个:公司内部知识库问答机器人。拿几百页员工手册或者技术文档,搭一个能回答任何内部问题的机器人。部署到飞书、钉钉或者企业微信上,真能让同事用起来。这个项目往简历上一写,面试官一看:这人来了就能干活。
现在入门AI应该走哪些方...
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
正在热议
更多
# AI面会问哪些问题? #
24273次浏览 477人参与
# 中国电信笔试 #
30906次浏览 283人参与
# 开放七大实习专项,百度暑期实习值得冲吗 #
13974次浏览 208人参与
# 你的实习产出是真实的还是包装的? #
18515次浏览 329人参与
# 如果秋招能重来,我会____ #
96446次浏览 499人参与
# 春招至今,你的战绩如何? #
59119次浏览 535人参与
# 厦门银行科技岗值不值得投 #
7393次浏览 185人参与
# i人适合做什么工作 #
36645次浏览 123人参与
# 我是面试官,请用一句话让我破防 #
79291次浏览 219人参与
# 哪些公司真双非友好? #
69118次浏览 287人参与
# 找AI工作可以去哪些公司? #
7456次浏览 177人参与
# 从事AI岗需要掌握哪些技术栈? #
7444次浏览 234人参与
# 五一之后,实习真的很难找吗? #
102790次浏览 584人参与
# 投递几十家公司,到现在0offer,大家都一样吗 #
339699次浏览 2163人参与
# 你做过最难的笔试是哪家公司 #
29459次浏览 179人参与
# 你小时候最想从事什么职业 #
159824次浏览 2072人参与
# 阿里笔试 #
175926次浏览 1299人参与
# 金三银四,你的春招进行到哪个阶段了? #
21389次浏览 274人参与
# 一张图晒出你司的标语 #
3777次浏览 71人参与
# 面试被问期望薪资时该如何回答 #
382422次浏览 2163人参与
# 晶盛机电求职进展汇总 #
35209次浏览 318人参与
# 应届生第一份工资要多少合适 #
20439次浏览 84人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务