某互联网二线公司,大模型推理面经

1. 请做一个两分钟左右的自我介绍
2.  你了解 KV Cache 是什么吗,可以简单介绍一下
3.  KV Cache 的大小是怎么计算的
4.  MHA 和 GQA 有什么区别
5.  在 GQA 情况下 KV Cache 的大小会有什么变化,能减少多少
6.  DeepSeek V3 的注意力机制是怎么实现的,你了解吗
7.  这个设计(MLA)有什么好处,MLA 存的是哪些内容
8.  你了解 Paged Attention 吗
9.  Paged Attention 的 Page Size 一般是怎么选择的,vLLM 里面大概多大
10.  如果 Page Size 选 1 可以吗,相比 Page Size 是 16 或 32,有什么优势或劣势
11.  如果一个 Page 只用了 15 个 token 剩下空间还能继续用吗
12.  你对 PD 分离有多少了解,可以讲一下吗
13.  Prefill 和 Decode 分别是什么瓶颈
14.  做了 PD 分离之后可以采用哪些优化策略
15.  你听过 Chunked Prefill 吗
16.  Chunked Prefill 和直接一次性 Prefill 有什么区别或好处
17.  单机情况下可以用 Chunked Prefill 吗
18.  一个很长的序列用固定 chunk size 做 Prefill,整个计算过程是怎样的
19.  多个 chunk 能不能并行计算,为什么
20.  你在推理优化里用到的这些优化手段,是理解原理还是只是调参数
21.  MTP 多 token 预测的大致流程是什么
22.  在你的测试中 MTP 的接受率大概是多少
23.  TTFT 是什么,TPOT 是什么,MTP 优化的是哪一部分指标
24.  MTP 引入额外计算后为什么还能提升吞吐
25.  Flash Attention 是什么,核心思想是什么
26.  它是怎么分块计算的,在线 softmax 是怎么做的,softmax 的分母是什么
27.  DBO 是什么推理优化技术,DBO 中的通信主要来自哪里
28.  DBO 是不是通过 microbatch 实现计算和通信的 overlap
29.  AM 分离适用于什么场景
30.  AM 分离中 Attention 节点和 FFN 节点分别是什么瓶颈
31.  AM 分离有什么收益
32.  单机部署模型出现显存不足可以怎么解决
33.  模型推理时显存主要由哪些部分组成
34.  针对权重和 KV Cache 分别可以怎么优化
35.  Offload 一般卸载的是哪些部分
36.  Offload 是在 CPU 上计算还是再加载回 GPU
37.  你了解其他高效 attention 方法吗,比如 linear attention 或窗口 attention
38.  你了解模型量化吗
39.  常见精度比如 FP16、FP8、FP4 是什么
40.  你用到的 NVFP4 是对什么进行量化
41.  量化是提前做好的还是加载后再做的
42.  如果权重是低精度而 activation 是 FP16,计算是怎么进行的
43.  你对哪些 decode-only 大模型比较熟
44.  你了解 LLaMA 吗
45.  选一个你熟悉的模型,从输入到输出讲一下推理过程中的 shape 变化
46.  你对这个岗位有什么想了解的吗
全部评论
被问题量吓哭了
点赞 回复 分享
发布于 03-23 10:30 江西
问那么多哦
点赞 回复 分享
发布于 03-20 09:43 广东

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
评论
3
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务