大模型常考面试题 100 道(第 76~100 道)

这份题库不是随便凑出来的 100 道题,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道

76. 训练和推理为什么要区分开看?

答:因为两者关注的目标完全不一样。训练更关注怎么把模型能力学出来,重点在数据、loss、优化器、并行训练和收敛稳定性;推理更关注怎么把模型高效跑起来,重点在延迟、吞吐、显存、并发和成本。很多技术在训练阶段成立,不代表在线推理就划算。所以做大模型不能只会训练或者只会部署,至少要知道这两套问题是分开的。

77. 预填充阶段和解码阶段有什么区别?

答:预填充阶段就是把用户输入的整段 prompt 一次性喂进去,算出首轮 hidden states 和 KV Cache;解码阶段则是模型一个 token 一个 token 往后生成。预填充更像并行处理,计算吞吐高;解码是自回归的,天然串行,通常是延迟瓶颈。所以在推理优化里,大家经常会把 prefilling 和 decoding 分开优化。很多时候用户觉得“模型慢”,其实主要慢在解码阶段。

78. 在线推理里吞吐和时延怎么权衡?

答:吞吐看的是单位时间能处理多少请求,时延看的是单个请求多久返回。如果你把 batch 拉很大,吞吐通常会上去,但单个用户等待时间可能变长;如果 batch 很小,单请求体验会更好,但整体资源利用率不一定高。所以线上一般要根据业务场景折中。比如对话产品更在意首 token 延迟,离线生成任务更在意整体吞吐。

79. 首 token 延迟为什么重要?

答:因为用户对“有没有开始响应”特别敏感。哪怕完整回答总共要几秒,只要首 token 很快出来,用户通常会觉得系统更流畅;反过来,如果前面卡很久,哪怕后面生成很快,体验也会差很多。所以聊天类产品里,首 token 延迟往往比总生成时间更影响体感。很多推理优化最终都是围绕“更快把第一个字吐出来”展开的。

80. 什么是 Continuous Batching?

答:Continuous Batching 可以理解成动态批处理。传统 batch 是一批请求一起进一起出,但在线服务里每个请求长度不同、生成速度不同,如果强行同步,资源利用率会很差。Continuous Batching 允许不同请求在不同时间进入和退出 batch,让 GPU 尽量一直保持忙碌。这是很多大模型推理框架提升吞吐的关键手段。

81. 为什么说大模型服务本质上也是一个系统工程问题?

答:因为真正上线后,问题远不止模型本身。你要考虑请求调度、并发控制、缓存、限流、降级、日志、监控、告警、权限、安全、成本和多机部署。很多线上事故不是模型答错了,而是超时、队列堆积、某个外部工具挂了,或者流量突增把服务打满了。所以会训模型只是第一步,能稳定提供服务是另一套能力。

82. RAG 召回效果不好,你会先排查什么?

答:我一般先看三层。第一层看数据层面,文档清洗是否有问题,chunk 是否切得太碎或者太大,元信息有没有丢。第二层看召回层面,embedding model 是否合适,索引是否更新,召回参数是否过于保守。第三层看排序层面,有没有 rerank,query 是否需要改写。RAG 效果差,很多时候不是模型不会答,而是前面根本没把正确材料拿到。所以排查顺序通常是先看检索链路,再看生成链路。

83. 混合检索为什么常常比单纯向量检索更稳?

答:因为语义检索擅长找“意思接近”的内容,但对一些关键词、术语、数字、版本号、专有名词不一定敏感;关键词检索正好在这些地方有优势。混合检索把向量召回和 BM25 这类词法召回结合起来,通常能兼顾语义匹配和字面匹配。实际业务里,很多查询并不是纯语义问题,而是“关键词 + 语义”混合,所以混合检索往往更稳。尤其企业知识库和文档问答场景,很常见。

84. Rerank 为什么经常能显著提升 RAG 效果?

答:因为粗召回阶段的目标是“别漏”,不是“最精确”。它会先尽量把可能相关的内容都找出来,但顺序不一定准。Rerank 的作用就是对这批候选结果做更细的相关性判断,把最该给模型看的内容排到前面。上下文窗口是有限的,谁排在前面很重要。所以很多时候不是“没召回到”,而是“召回到了但没排上来”。

85. 如果检索到了很多内容,怎么控制上下文拼接?

答:不能简单把所有 chunk 全拼进去,那样会把窗口塞满,还会引入很多噪声。通常会按相关性分数选 top-k,再结合去重、相邻块合并、按

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

03-27 12:17
已编辑
北京中南海业余大学 Java
今天面的依旧是牛客搜不到面经的公司。总结:应该是这段时间面试体验最差的一家公司。面试官提问没有逻辑,口齿也不太清晰,喜欢打断回答。不知道是不是突然被抓来面试的,提问也没有重点,问题也描述不清楚,问就是你简历里写了,说就行了,后面鼠鼠已经有点摆了。(下面的问题列表经过豆包整理过,所以看起来还算挺有逻辑。。。)1:请做一下自我介绍2:关于你的实习经验,你主要做的是哪部分相关的东西?3:你说的营销系统主要指的是什么?4:你们发券会涉及到并发问题吗?是怎么处理的?5:单个用户的串行请求,不会影响响应时间吗?第二个请求来了是直接拦截还是怎么处理?6:你们的券是预热到 Redis 里面的吗?还是实时去查数据库?7:如果有学生信息、课程信息、成绩信息,用 MySQL 设计表结构,你会怎么设计?表之间的关联关系是什么?8:我要查某一门课程(比如计算机编程课)的所有学生平均成绩、最高成绩、最低成绩,你会怎么查?9:你日常使用的 AI 编程工具是哪个?10:设计一个 CSV 数据批量导入及数据展示的简单页面,前后端的设计和开发都是用 AI 编程工具完成的吗?11:针对 CSV 批量导入和数据展示的需求,你的提示词怎么写?第一步告诉 AI 的是什么?需求拆分的逻辑谁来做?12:针对学生、课程、成绩表,要查某课程的平均 / 最高 / 最低成绩,你的第一步提示词是什么?AI 生成 SQL 后,怎么把它落地到 Spring Boot 项目里,完整流程是怎样的?13:你用过哪些消息队列?14:RabbitMQ 怎么保证消息一致性?怎么基于 RabbitMQ 实现分布式系统的最终一致性?15:RabbitMQ 的 ACK 是什么?里面包含哪些信息?消费失败怎么处理?16:Redis 有哪些基本的数据类型?17:Redis 缓存雪崩是什么?怎么预防?18:Redis 缓存穿透是什么?怎么解决?19:Redis 缓存击穿是什么?怎么解决?20:Redis 是怎么实现分布式锁的?原理是什么?21:你比较熟悉哪些设计模式?在项目中怎么用的?22:策略模式和工厂模式的核心区别是什么?策略模式的策略体现在哪里?公共逻辑放在哪里?23:MySQL 的事务 ACID 特性是什么?分别由什么机制保证?Redo log、Undo log、MVCC 分别解决什么问题?24:MySQL 回滚操作依赖什么实现?25:MySQL 的幻读是什么?怎么解决?间隙锁的原理是什么?InnoDB 的锁机制是什么?锁级别有哪些?26:说一下 JVM 的内存模型?27:JVM 运行时数据区中,哪些区域是线程安全的?哪些是线程不安全的?本地方法栈存放的是什么内容?28:Java 中的 synchronized的实现原理是什么?应用场景是什么?29:Redis 分布式锁和 synchronized 单机锁的区别是什么?应用场景有什么不同?反问
查看29道真题和解析
点赞 评论 收藏
分享
说一说之前很火的提示词吧,但是随着AI能力的提升,提示词越来越不重要了。对初级需求,提示词确实越来越 “轻量化”,随便一句 “用 Java 写个简单的用户登录接口”,AI 就能给出能用的代码;但对复杂场景、高要求的 AI Coding 任务,提示词非但没失效,反而升级成了 “精准指令工程”,是拉开效率差距的关键。可一旦碰到复杂业务逻辑、性能优化、架构设计这类硬核需求,就会发现 “会写提示词” 和 “不会写提示词” 的天壤之别。比如同样是让 AI 优化 MySQL 慢查询,普通提示词是 “帮我优化这段 SQL”,AI 可能只会给出加索引的建议;但精准的指令是 “我有一个电商订单查询 SQL,数据量 100 万 +,现在执行时间 2 秒,要求优化到 500ms 内,限制只能调整索引和 SQL 结构,不能改表结构,还要考虑分库分表的兼容性”—— 这种带约束条件、业务背景、性能指标的提示词,才能让 AI 输出真正落地的方案。更重要的是,AI Coding 的核心需求正在从 “生成代码” 转向 “解决问题”。比如你让 AI 排查一个 Spring Boot 接口的超时问题,只说 “接口超时了,帮我看看”,AI 大概率会罗列一堆通用原因;但如果你在提示词里加上 “接口调用了第三方支付 API,超时发生在高峰期,日志显示有大量数据库锁等待”,AI 就能直接定位到 “第三方 API 熔断机制缺失”“数据库事务过长” 等具体问题,甚至给出代码级的解决方案。还有一个容易被忽略的点:提示词是帮你 “驯服 AI 幻觉” 的关键。AI Coding 最头疼的就是生成 “看起来对但实际跑不通” 的代码,比如引用不存在的类、用错框架 API。这时候,在提示词里加上 “代码必须符合 Spring Boot 2.7 版本规范,禁止使用废弃 API,给出完整的依赖配置和测试用例”,就能大幅降低幻觉概率 —— 这种 “精准约束”,本质就是高级提示词技巧。说到底,AI 能力提升后,提示词的 “复杂度” 降低了,但 “精准度” 要求更高了 。它不再需要华丽的模板,却需要你把业务需求、技术约束、性能指标讲清楚。对初级开发者来说,随便写写就能用;但对想靠 AI 提升核心工作效率的工程师,“写好提示词” 依然是 AI Coding 的核心实战技巧。
AI Coding实战技...
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务