大模型常考面试题 100 道（第 51～75 道）

这份题库不是随便凑出来的 100 道题，而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题，又结合公开平台上反复出现的问题，把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢，最后形成这套 大模型常考面试题100道

51. MoE 里的路由机制是怎么工作的？

答：MoE 里不是所有 expert 都参与计算，而是先通过一个 router 或 gate 网络，对当前 token 打分，再选出 top-k 个 expert 去处理。也就是说，总参数虽然很多，但每个 token 实际只激活少量专家，所以计算量不会和总参数量线性增长。路由机制的核心问题有两个，一个是“选得准不准”，另一个是“负载均不均衡”。如果很多 token 都挤到少数几个 expert，那训练和推理都会出问题。所以 MoE 里通常还会配合负载均衡损失来避免 expert 使用不均。

52. 大模型参数增长为什么会带来能力提升？

答：参数更多，本质上意味着模型容量更大，可以表示更复杂的函数，也能存储更丰富的统计规律。随着参数、数据和训练算力一起增长，模型通常会在语言理解、生成、推理、泛化这些方面出现持续提升，这就是常说的 scaling law 现象。不过参数增长不是无限有效的，如果数据质量不够、训练方法不对、架构不合适，单纯堆参数收益也会下降。所以大模型能力增强，通常是参数、数据、训练策略共同作用的结果。

53. 你怎么理解 Scaling Law？

答：Scaling Law 说的是，当模型参数量、训练数据量、计算量按一定规律增加时，模型损失会呈现可预测的下降趋势。简单理解就是，模型不是随便做大才变强，而是存在一种比较稳定的规模收益规律。这也是为什么近几年大模型发展这么快，因为业界逐渐验证了“更大模型 + 更多高质量数据 + 更多算力”确实能稳定带来能力提升。但这不是说只要无脑变大就行，后面还会遇到训练成本、数据瓶颈和推理成本的问题。

54. 大模型训练一般分哪几个阶段？

答：一般会分成 预训练、监督微调、对齐训练、部署优化 这几步。预训练是让模型学语言规律和通用知识；监督微调是让模型更会按指令做任务；对齐训练是让输出更符合人类偏好和安全要求；部署优化则是为了让模型能真正上线，比如量化、蒸馏、推理加速这些。有的团队会把 SFT 和对齐做得很重，有的则更强调预训练底座。但大方向上，这几个阶段基本是通用的。

55. 预训练数据为什么这么重要？

答：因为预训练决定了模型的知识边界、语言能力和底层分布。如果数据质量差、重复多、噪声大、领域偏差严重，模型学到的能力就会受限，后续再怎么微调也很难完全补回来。而且大模型很多“看起来像推理”的能力，实际上也建立在大规模高质量语料的统计学习之上。所以预训练数据通常比很多人想象中更重要，甚至经常比模型结构本身还更影响上限。

56. 数据清洗在大模型训练里主要做什么？

答：数据清洗主要是去重、去噪、去低质量、过滤非法内容和统一格式。因为原始互联网数据里有很多乱码、广告、模板页、重复网页、错乱标点、低信息密度文本，如果这些数据大量混进来，会显著影响训练效率和模型质量。清洗不是单纯“删垃圾”，还包括保留高价值文本、控制领域分布和语言分布。很多大模型训练效果差，问题未必在模型，而是在数据没清好。

57. 训练大模型时为什么要去重？

答：去重主要有两个原因。第一，重复数据太多会浪费训练算力，模型反复看同样内容，收益很低。第二，重复样本过多会让模型过拟合某些分布，甚至影响泛化。尤其网页语料里模板页、转载页、镜像页非常多，如果不去重，数据表面上很大，实际有效信息并没有那么多。所以高质量预训练数据一定会做一定程度的去重处理。

58. Token 是什么？Tokenizer 在大模型里起什么作用？

答：大模型不能直接处理字符串，它处理的是离散 token 序列。Tokenizer 的作用就是把原始文本切成 token，再映射成词表里的 id；生成时再把 id 反解成文本。token 不一定等于一个词，也不一定等于一个字，它可以是词、子词、字节片段等。Tokenizer 会直接影响序列长度、训练效率和跨语言表现，所以它不是一个无关紧要的小模块。

59. BPE、WordPiece、SentencePiece 有什么区别？

答：它们本质上都是子词切分方法，但实现思路略有不同。BPE 是不断合并高频字符对，WordPiece 更强调合并后对语言模型概率的提升，SentencePiece 则更灵活，它可以直接在原始文本上训练，不强依赖空格分词。现在很多大模型喜欢用 SentencePiece 或类似方案，因为它对多语言和不同文本格式更友好。面试里一般回答到“都是子词级别 tokenization 方法，差别主要在训练和切分策略”就够了。