03-19 18:07 已编辑中国科学技术大学附属中学后端工程师发布于江苏

关注

某互联网二线公司，大模型推理面经

1. 请做一个两分钟左右的自我介绍
2.  你了解 KV Cache 是什么吗，可以简单介绍一下
3.  KV Cache 的大小是怎么计算的
4.  MHA 和 GQA 有什么区别
5.  在 GQA 情况下 KV Cache 的大小会有什么变化，能减少多少
6.  DeepSeek V3 的注意力机制是怎么实现的，你了解吗
7.  这个设计（MLA）有什么好处，MLA 存的是哪些内容
8.  你了解 Paged Attention 吗
9.  Paged Attention 的 Page Size 一般是怎么选择的，vLLM 里面大概多大
10.  如果 Page Size 选 1 可以吗，相比 Page Size 是 16 或 32，有什么优势或劣势
11.  如果一个 Page 只用了 15 个 token 剩下空间还能继续用吗
12.  你对 PD 分离有多少了解，可以讲一下吗
13.  Prefill 和 Decode 分别是什么瓶颈
14.  做了 PD 分离之后可以采用哪些优化策略
15.  你听过 Chunked Prefill 吗
16.  Chunked Prefill 和直接一次性 Prefill 有什么区别或好处
17.  单机情况下可以用 Chunked Prefill 吗
18.  一个很长的序列用固定 chunk size 做 Prefill，整个计算过程是怎样的
19.  多个 chunk 能不能并行计算，为什么
20.  你在推理优化里用到的这些优化手段，是理解原理还是只是调参数
21.  MTP 多 token 预测的大致流程是什么
22.  在你的测试中 MTP 的接受率大概是多少
23.  TTFT 是什么，TPOT 是什么，MTP 优化的是哪一部分指标
24.  MTP 引入额外计算后为什么还能提升吞吐
25.  Flash Attention 是什么，核心思想是什么
26.  它是怎么分块计算的，在线 softmax 是怎么做的，softmax 的分母是什么
27.  DBO 是什么推理优化技术，DBO 中的通信主要来自哪里
28.  DBO 是不是通过 microbatch 实现计算和通信的 overlap
29.  AM 分离适用于什么场景
30.  AM 分离中 Attention 节点和 FFN 节点分别是什么瓶颈
31.  AM 分离有什么收益
32.  单机部署模型出现显存不足可以怎么解决
33.  模型推理时显存主要由哪些部分组成
34.  针对权重和 KV Cache 分别可以怎么优化
35.  Offload 一般卸载的是哪些部分
36.  Offload 是在 CPU 上计算还是再加载回 GPU
37.  你了解其他高效 attention 方法吗，比如 linear attention 或窗口 attention
38.  你了解模型量化吗
39.  常见精度比如 FP16、FP8、FP4 是什么
40.  你用到的 NVFP4 是对什么进行量化
41.  量化是提前做好的还是加载后再做的
42.  如果权重是低精度而 activation 是 FP16，计算是怎么进行的
43.  你对哪些 decode-only 大模型比较熟
44.  你了解 LLaMA 吗
45.  选一个你熟悉的模型，从输入到输出讲一下推理过程中的 shape 变化
46.  你对这个岗位有什么想了解的吗

全部评论

推荐最新楼层

南昌大学算法工程师

被问题量吓哭了

点赞回复分享

发布于 03-23 10:30 江西

门头沟学院 C++

问那么多哦

点赞回复分享

发布于 03-20 09:43 广东

04-16 16:10

已编辑

南京航空航天大学算法工程师

26届春招寒武纪 AIGC推理框架研发工程师

2025.4.13，二面，20minC++函数模板、规避内存泄露的方法torch compiler、cuda graph是否了解 ptx2026.3.25，一面，1h推理框架研发工程师岗位的理解降低大模型推理成本手段为什么要做算子融合cuda graph 原理、作用、使用场景3D 并行 & EP & CP & SP 原理、作用模型量化类型、原理、作用介绍MTPvllm的整体架构，请求在内部是如何流转的kvcache的空间如何计算prefix cache介绍vllm V0/V1 比较TP下，不同的模块如何汇总结果口述multi head attention一些git、py...

查看19道真题和解析

点赞评论收藏

分享

03-25 22:45

江南大学 golang

快手AI infra(偏推理)暑期留用实习，一面

1.拷打项目推理框架算子如何优化的如何构建Memory pool的如何对框架进行测试的？数据量有多少2.八股Vllm的page attention了解吗？chunk prefill是如何实现的？continous batching了解吗？3.leetcode二维数组每行有序，求第K小的元素（prioirty_queue，只写出来暴力）

查看7道真题和解析

点赞评论收藏

分享

04-07 09:44

浙江大学算法工程师

高德地图-汽车业务-C++开发-一面面经

1. 实习期间主要负责什么模块？遇到过最难解决的问题是什么？怎么解决的？这类问题考察实际动手能力和解决问题的思路。回答时建议用 STAR 法则：背景（做什么项目）、任务（负责哪块）、行动（怎么做的）、结果（效果如何）。重点突出：主动承担的部分、遇到的技术难点、自己的思考过程，而不是只描述"我参与了某某项目"。如果有跨团队协作经验，也可以提一下沟通协调的方式。2. 项目中有没有用到多线程？如何保证线程安全？多线程是汽车业务中高频场景，比如地图数据加载、定位信息更新、路径规划并发计算等。线程安全的常见手段：互斥锁（mutex）：保护共享资源，注意避免死锁，推荐用 lock_gu...

查看14道真题和解析

点赞评论收藏

分享

03-24 10:25

门头沟学院人工智能

百度文策大模型二面面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的？如果数据质量参差不齐会对 RAG 系统产生哪些影响？3.文档切分策略是如何设计的？chunk size 和 overlap 会如何影响召回质量和生成效果？4.如果用户的问题在知识库中确实存在，但系统经常没有召回正确文档，你会如何排查？5.如果检索到的文档是正确的，但模型最终生成的答案仍然是错误的，你会如何定位问题？6.实际系统中，如果召回结果经常语义相似但事实不相关，你会如何优化检索模块？7.如果一个问题需要跨多个文档的信息才能回答，你的 RAG 系统如何处理这种情况？8.在 RAG 系统中如何判断问题出在检索模块还是生成模块？9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构，这种设计对模型表达能力有什么作用？11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异？12.为什么推理阶段 KV Cache 只缓存 K 和 V，而不缓存 Q？13.RoPE 的核心原理是什么，它在长上下文场景下会遇到什么问题？14.instruction tuning 中多轮对话数据训练时，loss mask 应该如何设计？15.如果 SFT 之后模型在特定任务上能力增强，但通用能力明显下降，你会如何解决？16.LoRA 的低秩分解为什么能够逼近全参数微调的效果？17.如果 LoRA 的 rank 设置不合理，在模型表现上会出现什么现象？18.DPO 训练后模型输出明显变长，在实际系统中你会如何处理？19.如果对齐之后模型变得过于保守，经常拒绝回答，你会如何调整训练策略？20.大模型出现复读机现象通常由哪些因素导致？

点赞评论收藏

分享

04-11 12:44

香港中文大学（深圳）人工智能

【暑期实习】蚂蚁 AI Infra 三面复盘

这一轮更偏大模型、量化和推理基础理解这场蚂蚁 AI Infra 三面，整体感觉和前两轮又不太一样。前两轮更多是在深挖我已经做过的项目，这一轮虽然也会问项目，但明显更关注我对大模型推理、量化、KV Cache、attention 这些基础问题到底理解到什么程度。开头还是先做自我介绍，我主要讲了自己现在在做的几个方向：一段偏工程化的软件开发经历，一段偏算子和图优化的实习经历，以及自己在做的一个基于 Python extension 的量化推理 runtime 小项目。这一轮项目部分问得相对直接。面试官先让我展开讲了自己做的那个量化推理 runtime。我这边讲的是，基于一个开源 runtime 做...

查看15道真题和解析

点赞评论收藏

分享

评论

3

15

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

米哈游2026校园招聘

应届生春招&全年实习生专项

招商银行信用卡中心

2027届暑期训练营

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

35700次浏览 442人参与

# 想从事Agent应该学习哪些技术？ #

8717次浏览 296人参与

# 有哪些公司在面试时考察AICoding？ #

19779次浏览 352人参与

# 你的第一家实习公司是什么档次？ #

70331次浏览 335人参与

# HR面都在聊什么？ #

13951次浏览 165人参与

# 大学生该如何认清当下的就业环境？ #

162574次浏览 889人参与

# 26届春招投递记录 #

3672次浏览 42人参与

# 从投递到OC，你用了多久 #

24166次浏览 241人参与

# 什么人最适合大厂？ #

12963次浏览 134人参与

# 哪些公司面试还在问八股？ #

14332次浏览 125人参与

# 父母问你工作找得怎么样，怎么回 #

23362次浏览 285人参与

# 我的求职进度条 #

1118947次浏览 8074人参与

# 如何快速融入团队？ #

50136次浏览 306人参与

# 校招生月薪1W算什么水平 #

143460次浏览 493人参与

# 你觉得什么岗位会被AI替代 #

57297次浏览 371人参与

# 多益网络工作体验 #

68599次浏览 310人参与

# 薪资爆料 #

412730次浏览 2209人参与

# 美团开奖 #

407854次浏览 1805人参与

# 运营来爆料 #

98855次浏览 508人参与

# 你觉得机械有必要实习吗 #

83705次浏览 529人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务