大模型常考面试题 100 道(第 51~75 道)

这份题库不是随便凑出来的 100 道题,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道

51. MoE 里的路由机制是怎么工作的?

答:MoE 里不是所有 expert 都参与计算,而是先通过一个 router 或 gate 网络,对当前 token 打分,再选出 top-k 个 expert 去处理。也就是说,总参数虽然很多,但每个 token 实际只激活少量专家,所以计算量不会和总参数量线性增长。路由机制的核心问题有两个,一个是“选得准不准”,另一个是“负载均不均衡”。如果很多 token 都挤到少数几个 expert,那训练和推理都会出问题。所以 MoE 里通常还会配合负载均衡损失来避免 expert 使用不均。

52. 大模型参数增长为什么会带来能力提升?

答:参数更多,本质上意味着模型容量更大,可以表示更复杂的函数,也能存储更丰富的统计规律。随着参数、数据和训练算力一起增长,模型通常会在语言理解、生成、推理、泛化这些方面出现持续提升,这就是常说的 scaling law 现象。不过参数增长不是无限有效的,如果数据质量不够、训练方法不对、架构不合适,单纯堆参数收益也会下降。所以大模型能力增强,通常是参数、数据、训练策略共同作用的结果。

53. 你怎么理解 Scaling Law?

答:Scaling Law 说的是,当模型参数量、训练数据量、计算量按一定规律增加时,模型损失会呈现可预测的下降趋势。简单理解就是,模型不是随便做大才变强,而是存在一种比较稳定的规模收益规律。这也是为什么近几年大模型发展这么快,因为业界逐渐验证了“更大模型 + 更多高质量数据 + 更多算力”确实能稳定带来能力提升。但这不是说只要无脑变大就行,后面还会遇到训练成本、数据瓶颈和推理成本的问题。

54. 大模型训练一般分哪几个阶段?

答:一般会分成 预训练、监督微调、对齐训练、部署优化 这几步。预训练是让模型学语言规律和通用知识;监督微调是让模型更会按指令做任务;对齐训练是让输出更符合人类偏好和安全要求;部署优化则是为了让模型能真正上线,比如量化、蒸馏、推理加速这些。有的团队会把 SFT 和对齐做得很重,有的则更强调预训练底座。但大方向上,这几个阶段基本是通用的。

55. 预训练数据为什么这么重要?

答:因为预训练决定了模型的知识边界、语言能力和底层分布。如果数据质量差、重复多、噪声大、领域偏差严重,模型学到的能力就会受限,后续再怎么微调也很难完全补回来。而且大模型很多“看起来像推理”的能力,实际上也建立在大规模高质量语料的统计学习之上。所以预训练数据通常比很多人想象中更重要,甚至经常比模型结构本身还更影响上限。

56. 数据清洗在大模型训练里主要做什么?

答:数据清洗主要是去重、去噪、去低质量、过滤非法内容和统一格式。因为原始互联网数据里有很多乱码、广告、模板页、重复网页、错乱标点、低信息密度文本,如果这些数据大量混进来,会显著影响训练效率和模型质量。清洗不是单纯“删垃圾”,还包括保留高价值文本、控制领域分布和语言分布。很多大模型训练效果差,问题未必在模型,而是在数据没清好。

57. 训练大模型时为什么要去重?

答:去重主要有两个原因。第一,重复数据太多会浪费训练算力,模型反复看同样内容,收益很低。第二,重复样本过多会让模型过拟合某些分布,甚至影响泛化。尤其网页语料里模板页、转载页、镜像页非常多,如果不去重,数据表面上很大,实际有效信息并没有那么多。所以高质量预训练数据一定会做一定程度的去重处理。

58. Token 是什么?Tokenizer 在大模型里起什么作用?

答:大模型不能直接处理字符串,它处理的是离散 token 序列。Tokenizer 的作用就是把原始文本切成 token,再映射成词表里的 id;生成时再把 id 反解成文本。token 不一定等于一个词,也不一定等于一个字,它可以是词、子词、字节片段等。Tokenizer 会直接影响序列长度、训练效率和跨语言表现,所以它不是一个无关紧要的小模块。

59. BPE、WordPiece、SentencePiece 有什么区别?

答:它们本质上都是子词切分方法,但实现思路略有不同。BPE 是不断合并高频字符对,WordPiece 更强调合并后对语言模型概率的提升,SentencePiece 则更灵活,它可以直接在原始文本上训练,不强依赖空格分词。现在很多大模型喜欢用 SentencePiece 或类似方案,因为它对多语言和不同文本格式更友好。面试里一般回答到“都是子词级别 tokenization 方法,差别主要在训练和切分策略”就够了。

60. 上下文窗口是什么?为什么它重要?

答:上下文窗口就是模型一次能看到的 token 长度上限。窗口越大,

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
03-30 18:50
门头沟学院 Java
给我面没招了,发点面经攒攒人品~1. 实习拷打2. 项目拷打3. 你的检索是否基于向量实现,搭建完整的 RAG 系统会涉及哪些核心部分?4. RAG 项目的文档上传和分块是怎么实现的?5. 向量检索召回的单次耗时是多久,有没有用到Rerank模型?6. 你如何评估检索召回内容与用户问题的匹配度,有没有做相关的效果评估?7. 你对 Agent 的理解是什么,它包含哪些核心模块?8. 是否了解 Agent 的设计范式,例如ReAct 范式?9. 你的 Agent 循环一般多少步可以完成任务,有没有出现过达到最大步数仍无法完成的情况?10. 你的 Agent 目前接入了哪些工具?11. 你是如何约定并约束大模型进行工具调用的?12. 你的项目推流是否使用 SSE?13. 你的 Agent 编排流程中有没有做 Plan 阶段?14. 从协议层面,介绍 SSE、WebSocket 与 HTTP 的区别和关联?15. 项目为什么限制每个用户只能上传单个文件?16. 项目的图像识别如何实现的,为什么不用多模态大模型,而选择传统的识别模型?17. 你的项目中用到了哪些大语言模型?18. 请介绍 Go 语言的并发和其他语言并发的区别?19. Goroutine 是什么,请介绍一下它的核心原理?20. 你对锁的理解是什么,锁是解决什么问题的?21. 日常开发中用哪种锁更多,还了解哪些后台开发常用的锁?22. 多机器、多进程场景下会涉及到哪些锁,是否了解分布式锁?23. 你对 MCP、Function Call、A2A 分别是怎么理解的?24. 你的项目接入了哪些 MCP 服务?有没有本地手写过 MCP 服务?25. 你日常开发会借助哪些 AI 工具?26. 使用这些工具的心得以及是否有写过相关的 command/skill?27. Claude Code 的实现原理?28. 是否了解OpenClaw以及了解它的实现原理?
LambertCla...:Claude Code实现原理都来了,难道是预测到了这波源码泄露
查看26道真题和解析
点赞 评论 收藏
分享
继续来分享下最近的面经~欢迎友好讨论,信息共享1. Transformer 为什么能替代 RNN 成为大模型主流架构?2. Self-Attention 的计算过程是什么,时间复杂度为什么高?3. Multi-Head Attention 的作用是什么,为什么要分多个头?4. 位置编码为什么必要,绝对位置编码和相对位置编码有什么区别?5. 什么是 KV Cache,它为什么能显著提升推理效率?6. Prefix Cache 和 KV Cache 有什么区别,分别适合什么场景?7. 为什么大模型推理通常是 memory bound,而不是 compute bound?8. Batch 推理和单请求推理的吞吐与延迟 tradeoff 是什么?9. Continuous Batching 解决了什么问题,为什么对推理服务很重要?10. Prefill 和 Decode 两个阶段的性能瓶颈分别在哪里?11. 大模型采样里的 temperature、top-k、top-p 分别会怎样影响输出?12. 贪心解码、束搜索、随机采样分别适合什么生成任务?13. 重复惩罚和长度惩罚分别是为了解决什么问题?14. 为什么模型有时会出现“复读机”现象,通常怎么缓解?15. 量化是什么,INT8、INT4、FP16 的核心区别是什么?16. 推理量化会对模型效果造成什么影响,如何评估是否值得量化?17. 张量并行、流水线并行、数据并行分别适合哪个阶段?18. 单机多卡部署大模型时,通信开销主要来自哪里?19. 为什么 GPU 显存是大模型部署的核心约束之一?20. 模型参数量、上下文长度、并发数三者之间是什么关系?21. 什么是 MoE 模型,为什么它能在参数规模很大时控制推理成本?
查看21道真题和解析
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务