度小满 大模型开发 一面
1、知道 GPT 和 BERT 这种模型的基础框架是怎样的吗
BERT 和 GPT 都是基于 Transformer 的预训练模型,但结构和任务目标不一样。BERT 一般采用 Transformer Encoder 堆叠起来的双向编码结构,在预训练时主要做 MLM,也就是随机遮盖一部分 token,让模型根据上下文去恢复被遮掉的词,因此它更适合理解类任务,比如分类、匹配、抽取、检索表示学习。GPT 采用 Transformer Decoder 堆叠起来的单向自回归结构,在预训练时做 next token prediction,也就是根据前面的 token 预测下一个 token,因此它更适合生成类任务,比如对话、写作、代码生成和通用补全。BERT 的核心是双向建模,GPT 的核心是自回归生成。前者擅长表征,后者擅长生成。现在很多大语言模型本质上都是 GPT 路线,只是在训练数据、训练规模、指令微调和对齐阶段做了大量增强。
2、Transformer 的各个模块分别有啥,每个模块的功能、输入输出分别是什么
Transformer 的基础模块包括输入嵌入、位置编码、多头自注意力、前馈网络、残差连接和 LayerNorm。输入首先会经过 Embedding,把 token id 映射成稠密向量,如果是大模型,还可能加上词表外特殊符号、系统提示、角色信息等。位置编码的作用是补充序列位置信息,因为纯注意力本身不具备顺序概念。早期 Transformer 用绝对位置编码,现在很多大模型会用 RoPE 这类相对位置编码方式。多头自注意力的输入是上一层的隐藏状态,先线性映射得到 Q、K、V,然后计算注意力分数:

输出还是一组新的序列表示。多头机制的作用是让模型从不同子空间学习不同关系。前馈网络一般是两层线性层加激活函数,常见是 GELU 或 SiLU,用于对每个位置做非线性变换。残差连接和 LayerNorm 用于稳定训练、防止梯度问题。如果是 Encoder,注意力通常是双向的;如果是 Decoder,还会加 causal mask,保证当前位置只能看见前文。
3、这个 RAG 微调项目的难点在哪里
RAG 项目的难点通常不在把大模型接起来,而在把检索、重排、生成和业务数据真正打通。第一个难点是数据质量。知识库里往往有重复、冲突、失效和格式不统一的数据,文档解析、切分和清洗做不好,后面的召回和生成都会受影响。第二个难点是召回链路设计。包括 chunk 怎么切、embedding 模型怎么选、索引怎么建、topk 取多少、是否需要混合检索、是否加 rerank,这些都会直接影响召回质量。第三个难点是生成阶段的可控性。即使检索到了相关内容,模型也可能忽略证据、过度发挥或者拼接出错误答案,所以 prompt 约束、引用约束和输出格式控制都很重要。第四个难点是评估。RAG 不能只看最终回答是否流畅,还要看召回率、重排质量、答案是否基于证据、是否出现幻觉。第五个难点是线上性能。检索、重排和生成串起来以后延迟会变高,尤其是高并发场景下,索引查询、rerank 推理和大模型推理都要做优化。
4、基础模型你是怎么选择的,为什么要用 7B 作为 baseline
选择基础模型通常会综合看任务类型、中文能力、指令跟随能力、上下文长度、部署成本、微调成本和线上延迟。如果是金融、客服、知识问答这一类偏企业应用场景,模型不一定越大越好,关键是看在业务数据上的效果、可控性和成本能不能平衡。7B 作为 baseline 比较常见,原因是它在效果、显存占用和训练成本之间相对均衡。13B、34B 甚至更大的模型虽然上限更高,但训练和推理成本明显更大,对显卡资源、吞吐和时延要求也更高。做项目时一般会先用 7B 跑通数据流程、微调链路、评估体系和线上部署方案。如果 7B 已经能达到业务目标,就没有必要一开始就上更大模型。另外 7B 更适合做多轮实验,比如 LoRA、QLoRA、DPO、蒸馏和量化,对团队来说迭代速度更快。
5、你的这些训练数据是怎么来的,样本全都是自己在网上爬的吗
训练数据一般不会只靠单一来源,而是多源组合。常见来源包括公开语料、开源指令数据、内部业务数据、人工整理数据、历史问答日志、客服工单、知识库文档、规则模板生成数据以及模型自生成再筛选的数据。如果是做 RAG 或问答类项目,很多时候还会把已有文档切分后构造成问答对,或者让模型先根据文档生成候选问题,再由人工审核。网上爬的数据只能作为补充,一方面版权和合规要注意,另一方面网络数据噪声很大,领域适配性也不一定够。真正效果稳定的数据,通常还是业务相关数据、人工清洗数据和高质量合成数据。如果涉及金融场景,还要注意脱敏、权限隔离、用户隐私和合规审计,不能把原始敏感信息直接拿去训练。
6、你的这些训练数据是怎么评判它是高质量数据集的
高质量数据集一般从相关性、准确性、一致性、多样性和可用性这几个维度判断。相关性是看数据是否贴近目标任务,比如金融问答、贷款咨询、营销客服、风控解释等,不能拿大量泛化闲聊数据去做强领域任务。准确性是看答案有没有事实错误、逻辑错误或者标签错误。一致性是看同类样本的标注标准是否统一,不能同一种问题前后口径不一致。多样性是看是否覆盖不同表达方式、不同场景、不同长度和不同难度,避免模型只学会模板。可用性是看脏数据比例、重复率、无意义样本比例和异常格式比例。实际项目里一般会结合人工抽检和自动指标一起看,
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
