度小满大模型开发一面

1、知道 GPT 和 BERT 这种模型的基础框架是怎样的吗

BERT 和 GPT 都是基于 Transformer 的预训练模型，但结构和任务目标不一样。BERT 一般采用 Transformer Encoder 堆叠起来的双向编码结构，在预训练时主要做 MLM，也就是随机遮盖一部分 token，让模型根据上下文去恢复被遮掉的词，因此它更适合理解类任务，比如分类、匹配、抽取、检索表示学习。GPT 采用 Transformer Decoder 堆叠起来的单向自回归结构，在预训练时做 next token prediction，也就是根据前面的 token 预测下一个 token，因此它更适合生成类任务，比如对话、写作、代码生成和通用补全。BERT 的核心是双向建模，GPT 的核心是自回归生成。前者擅长表征，后者擅长生成。现在很多大语言模型本质上都是 GPT 路线，只是在训练数据、训练规模、指令微调和对齐阶段做了大量增强。

2、Transformer 的各个模块分别有啥，每个模块的功能、输入输出分别是什么

Transformer 的基础模块包括输入嵌入、位置编码、多头自注意力、前馈网络、残差连接和 LayerNorm。输入首先会经过 Embedding，把 token id 映射成稠密向量，如果是大模型，还可能加上词表外特殊符号、系统提示、角色信息等。位置编码的作用是补充序列位置信息，因为纯注意力本身不具备顺序概念。早期 Transformer 用绝对位置编码，现在很多大模型会用 RoPE 这类相对位置编码方式。多头自注意力的输入是上一层的隐藏状态，先线性映射得到 Q、K、V，然后计算注意力分数：

输出还是一组新的序列表示。多头机制的作用是让模型从不同子空间学习不同关系。前馈网络一般是两层线性层加激活函数，常见是 GELU 或 SiLU，用于对每个位置做非线性变换。残差连接和 LayerNorm 用于稳定训练、防止梯度问题。如果是 Encoder，注意力通常是双向的；如果是 Decoder，还会加 causal mask，保证当前位置只能看见前文。

3、这个 RAG 微调项目的难点在哪里

RAG 项目的难点通常不在把大模型接起来，而在把检索、重排、生成和业务数据真正打通。第一个难点是数据质量。知识库里往往有重复、冲突、失效和格式不统一的数据，文档解析、切分和清洗做不好，后面的召回和生成都会受影响。第二个难点是召回链路设计。包括 chunk 怎么切、embedding 模型怎么选、索引怎么建、topk 取多少、是否需要混合检索、是否加 rerank，这些都会直接影响召回质量。第三个难点是生成阶段的可控性。即使检索到了相关内容，模型也可能忽略证据、过度发挥或者拼接出错误答案，所以 prompt 约束、引用约束和输出格式控制都很重要。第四个难点是评估。RAG 不能只看最终回答是否流畅，还要看召回率、重排质量、答案是否基于证据、是否出现幻觉。第五个难点是线上性能。检索、重排和生成串起来以后延迟会变高，尤其是高并发场景下，索引查询、rerank 推理和大模型推理都要做优化。

4、基础模型你是怎么选择的，为什么要用 7B 作为 baseline

选择基础模型通常会综合看任务类型、中文能力、指令跟随能力、上下文长度、部署成本、微调成本和线上延迟。如果是金融、客服、知识问答这一类偏企业应用场景，模型不一定越大越好，关键是看在业务数据上的效果、可控性和成本能不能平衡。7B 作为 baseline 比较常见，原因是它在效果、显存占用和训练成本之间相对均衡。13B、34B 甚至更大的模型虽然上限更高，但训练和推理成本明显更大，对显卡资源、吞吐和时延要求也更高。做项目时一般会先用 7B 跑通数据流程、微调链路、评估体系和线上部署方案。如果 7B 已经能达到业务目标，就没有必要一开始就上更大模型。另外 7B 更适合做多轮实验，比如 LoRA、QLoRA、DPO、蒸馏和量化，对团队来说迭代速度更快。

5、你的这些训练数据是怎么来的，样本全都是自己在网上爬的吗

训练数据一般不会只靠单一来源，而是多源组合。常见来源包括公开语料、开源指令数据、内部业务数据、人工整理数据、历史问答日志、客服工单、知识库文档、规则模板生成数据以及模型自生成再筛选的数据。如果是做 RAG 或问答类项目，很多时候还会把已有文档切分后构造成问答对，或者让模型先根据文档生成候选问题，再由人工审核。网上爬的数据只能作为补充，一方面版权和合规要注意，另一方面网络数据噪声很大，领域适配性也不一定够。真正效果稳定的数据，通常还是业务相关数据、人工清洗数据和高质量合成数据。如果涉及金融场景，还要注意脱敏、权限隔离、用户隐私和合规审计，不能把原始敏感信息直接拿去训练。

6、你的这些训练数据是怎么评判它是高质量数据集的

高质量数据集一般从相关性、准确性、一致性、多样性和可用性这几个维度判断。相关性是看数据是否贴近目标任务，比如金融问答、贷款咨询、营销客服、风控解释等，不能拿大量泛化闲聊数据去做强领域任务。准确性是看答案有没有事实错误、逻辑错误或者标签错误。一致性是看同类样本的标注标准是否统一，不能同一种问题前后口径不一致。多样性是看是否覆盖不同表达方式、不同场景、不同长度和不同难度，避免模型只学会模板。可用性是看脏数据比例、重复率、无意义样本比例和异常格式比例。实际项目里一般会结合人工抽检和自动指标一起看，

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.