亚信科技 大模型开发 一面
1、自我介绍
我主要做的是大模型应用开发和 NLP 相关工作,技术栈以 Python 和 Java 为主。平时做得比较多的是 RAG、知识库问答、Agent 流程编排、数据清洗、信息抽取和模型服务化部署。之前接触过 FAQ 问答、命名实体识别、文本处理、检索召回优化、多轮对话上下文管理这些方向,也做过一些评测和效果优化工作。我希望找一份偏大模型应用落地的岗位,把模型能力和业务场景结合起来,重点做效果、工程和稳定性的平衡。
2、实习经历
3、RAG 的优化,项目中 Agent 的流程
RAG 的优化一般可以分成数据侧、检索侧、重排侧、上下文构造侧和生成侧。数据侧主要是文档清洗、去噪、切 chunk、补充标题和元数据,因为原始知识质量会直接影响最终问答效果。检索侧常见优化是向量检索和关键词检索结合,也就是混合检索,这样既保留语义召回能力,也保留精确词匹配能力。重排侧一般会加 rerank 模型,对召回回来的候选文档重新打分,提高前几个结果的相关性。上下文构造阶段会做去重、压缩、截断和顺序调整,避免无关内容占掉太多 token。生成侧则会通过 Prompt 约束模型必须基于证据回答,并且在证据不足时明确说不知道,从而降低幻觉。
项目里的 Agent 流程本质上是让模型做决策,让系统做执行。典型流程是用户先输入问题,系统先判断任务类型,如果只是 FAQ 或知识问答,就走 RAG 检索链路;如果问题涉及查接口、查数据库、调用外部工具,就由模型决定调用哪个工具,并生成结构化参数;工具执行后把结果返回给模型,再由模型组织最终答案。整个过程中通常还会有记忆管理、上下文拼接、工具结果校验和异常兜底。简单说就是先理解问题,再决定要不要调用工具,调用后再汇总结果并返回。
4、数据处理
数据处理在大模型项目里非常重要,因为很多效果问题最后都不是模型本身的问题,而是数据问题。一般流程是先拿到原始文本,然后做去重、去空、去特殊符号、编码统一、字段清洗、脏数据过滤、无效样本剔除。对于知识库类数据,还要做结构化拆分,比如标题、正文、标签、来源、时间这些字段分开处理。进入 RAG 场景后,还要做 chunk 切分,chunk 不能太短,不然语义不完整,也不能太长,不然召回和上下文利用率都不好。对于训练任务,还要检查标签分布、类别不平衡、标注一致性和数据泄漏问题。数据处理做得好,后面的召回、分类、NER、问答都会更稳。
5、NER 是什么
NER 就是命名实体识别,目标是从文本中识别人名、地名、机构名、时间、产品名这类有明确语义边界的实体。它本质上是一个序列标注任务,输入是一段文本,输出是每个 token 或字对应的标签。常见标注方式是 BIO 或 BIOES,比如 B-PER 表示人物实体的开始,I-PER 表示人物实体内部,O 表示不属于任何实体。传统方法有 CRF、HMM,后来常见的是 BiLSTM-CRF,再到现在更多是 BERT-CRF 或直接用大模型做抽取。NER 的难点主要在实体边界识别、嵌套实体、歧义实体和领域迁移。
6、条件随机场
条件随机场也就是 CRF,是一种判别式概率图模型,常用于序列标注任务。它建模的是在给定输入序列X的条件下,输出标签序列Y的条件概率。它和逐 token 独立分类最大的区别是,CRF 会同时考虑当前标签和前后标签之间的转移关系,所以更适合处理像 BIO 这种带结构约束的标签序列。
线性链 CRF 的条件概率可以写成:

这里 fk 是特征函数,λk是对应权重,Z(X) 是归一化因子。训练时最大化真实标签序列的对数似然,预测时通常用维特比算法找到得分最高的标签路径。CRF 的价值在于它不是只看当前位置,而是让整个标签序列整体最优。
7、某 FAQ 知识库问答项目
这个项目本质上是一个面向固定业务场
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
