大模型常考面试题100道(第1～25道)

这份题不是随便凑出来的 100 道，而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题，又结合公开平台上反复出现的问题，把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢，最后形成这套 大模型常考面试题100道

1. Transformer 的整体结构是什么？

答：Transformer 最早是 Encoder-Decoder 结构。Encoder 每层主要是多头自注意力和前馈网络，Decoder 每层除了 masked self-attention 和前馈网络，还多了一个 cross-attention，用来关注 Encoder 的输出。不过现在大模型大多用的是 Decoder-only 结构，因为它更适合做自回归生成，训练目标统一，扩展到超大规模也更自然。每层通常都包含注意力模块、MLP 模块、残差连接和归一化层。

2. BERT 和 GPT 的核心区别是什么？

答：BERT 是 Encoder-only，训练目标主要是 MLM，所以它是双向建模，更适合理解类任务，比如分类、匹配、抽取。GPT 是 Decoder-only，训练目标是 next token prediction，也就是根据前文预测下一个 token，所以它天然适合生成类任务。简单说，BERT 更偏“看懂”，GPT 更偏“续写”。

3. Self-Attention 的原理和公式是什么？

答：Self-Attention 的核心是让序列里的每个 token 都能和其他 token 建立关系。输入 (X) 经过线性变换得到：Q=XW_Q,K=XW_K,V=XW_V 注意力计算公式是：其中 QK^t表示 query 和 key 的相似度，softmax 后得到权重，再对 V加权求和。本质上就是“我当前这个 token，应该重点看哪些 token”。

4. 为什么 Attention 里要除以？

答：因为如果 d_k很大，Q和K 点积后的值会变得很大，softmax 容易进入饱和区，导致梯度很小，训练不稳定。除以相当于把分数做一个缩放，让数值范围更平稳，训练更容易收敛。这是一个很典型的数值稳定性处理。

5. Multi-Head Attention 为什么有效？

答：单头注意力只能在一个子空间里建模关系，多头注意力相当于把表示空间拆成多个子空间，每个头可以学不同类型的信息，比如局部依赖、长程依赖、语法关系、语义关系。最后把多个头的结果拼接起来，再做一次线性映射。这样模型表达能力会更强，不同头能关注不同角度的信息。

6. 位置编码是干什么的？为什么 Transformer 需要它？

答：因为 Attention 本身不包含顺序概念，如果不给位置信息，模型只知道这是一堆 token，不知道谁在前谁在后。位置编码就是把“顺序”告诉模型。最早 Transformer 用的是正弦余弦位置编码，后面很多模型用可学习位置编码，再往后大模型里很常见的是 RoPE，因为它在长文本建模上通常更好。

7. RoPE 是什么？它和传统位置编码有什么区别？

答：RoPE 是 Rotary Position Embedding，也就是旋转位置编码。传统位置编码一般是直接把位置向量加到 token embedding 上，RoPE 则是把位置信息作用在 (Q) 和 (K) 上，通过旋转变换把相对位置信息编码进注意力分数。这样做的好处是更适合建模相对位置关系，而且在长上下文外推时通常比绝对位置编码更稳定。所以现在很多大模型都偏向用 RoPE。