某互联网二线公司,大模型推理面经
1. 请做一个两分钟左右的自我介绍
2. 你了解 KV Cache 是什么吗,可以简单介绍一下
3. KV Cache 的大小是怎么计算的
4. MHA 和 GQA 有什么区别
5. 在 GQA 情况下 KV Cache 的大小会有什么变化,能减少多少
6. DeepSeek V3 的注意力机制是怎么实现的,你了解吗
7. 这个设计(MLA)有什么好处,MLA 存的是哪些内容
8. 你了解 Paged Attention 吗
9. Paged Attention 的 Page Size 一般是怎么选择的,vLLM 里面大概多大
10. 如果 Page Size 选 1 可以吗,相比 Page Size 是 16 或 32,有什么优势或劣势
11. 如果一个 Page 只用了 15 个 token 剩下空间还能继续用吗
12. 你对 PD 分离有多少了解,可以讲一下吗
13. Prefill 和 Decode 分别是什么瓶颈
14. 做了 PD 分离之后可以采用哪些优化策略
15. 你听过 Chunked Prefill 吗
16. Chunked Prefill 和直接一次性 Prefill 有什么区别或好处
17. 单机情况下可以用 Chunked Prefill 吗
18. 一个很长的序列用固定 chunk size 做 Prefill,整个计算过程是怎样的
19. 多个 chunk 能不能并行计算,为什么
20. 你在推理优化里用到的这些优化手段,是理解原理还是只是调参数
21. MTP 多 token 预测的大致流程是什么
22. 在你的测试中 MTP 的接受率大概是多少
23. TTFT 是什么,TPOT 是什么,MTP 优化的是哪一部分指标
24. MTP 引入额外计算后为什么还能提升吞吐
25. Flash Attention 是什么,核心思想是什么
26. 它是怎么分块计算的,在线 softmax 是怎么做的,softmax 的分母是什么
27. DBO 是什么推理优化技术,DBO 中的通信主要来自哪里
28. DBO 是不是通过 microbatch 实现计算和通信的 overlap
29. AM 分离适用于什么场景
30. AM 分离中 Attention 节点和 FFN 节点分别是什么瓶颈
31. AM 分离有什么收益
32. 单机部署模型出现显存不足可以怎么解决
33. 模型推理时显存主要由哪些部分组成
34. 针对权重和 KV Cache 分别可以怎么优化
35. Offload 一般卸载的是哪些部分
36. Offload 是在 CPU 上计算还是再加载回 GPU
37. 你了解其他高效 attention 方法吗,比如 linear attention 或窗口 attention
38. 你了解模型量化吗
39. 常见精度比如 FP16、FP8、FP4 是什么
40. 你用到的 NVFP4 是对什么进行量化
41. 量化是提前做好的还是加载后再做的
42. 如果权重是低精度而 activation 是 FP16,计算是怎么进行的
43. 你对哪些 decode-only 大模型比较熟
44. 你了解 LLaMA 吗
45. 选一个你熟悉的模型,从输入到输出讲一下推理过程中的 shape 变化
46. 你对这个岗位有什么想了解的吗
2. 你了解 KV Cache 是什么吗,可以简单介绍一下
3. KV Cache 的大小是怎么计算的
4. MHA 和 GQA 有什么区别
5. 在 GQA 情况下 KV Cache 的大小会有什么变化,能减少多少
6. DeepSeek V3 的注意力机制是怎么实现的,你了解吗
7. 这个设计(MLA)有什么好处,MLA 存的是哪些内容
8. 你了解 Paged Attention 吗
9. Paged Attention 的 Page Size 一般是怎么选择的,vLLM 里面大概多大
10. 如果 Page Size 选 1 可以吗,相比 Page Size 是 16 或 32,有什么优势或劣势
11. 如果一个 Page 只用了 15 个 token 剩下空间还能继续用吗
12. 你对 PD 分离有多少了解,可以讲一下吗
13. Prefill 和 Decode 分别是什么瓶颈
14. 做了 PD 分离之后可以采用哪些优化策略
15. 你听过 Chunked Prefill 吗
16. Chunked Prefill 和直接一次性 Prefill 有什么区别或好处
17. 单机情况下可以用 Chunked Prefill 吗
18. 一个很长的序列用固定 chunk size 做 Prefill,整个计算过程是怎样的
19. 多个 chunk 能不能并行计算,为什么
20. 你在推理优化里用到的这些优化手段,是理解原理还是只是调参数
21. MTP 多 token 预测的大致流程是什么
22. 在你的测试中 MTP 的接受率大概是多少
23. TTFT 是什么,TPOT 是什么,MTP 优化的是哪一部分指标
24. MTP 引入额外计算后为什么还能提升吞吐
25. Flash Attention 是什么,核心思想是什么
26. 它是怎么分块计算的,在线 softmax 是怎么做的,softmax 的分母是什么
27. DBO 是什么推理优化技术,DBO 中的通信主要来自哪里
28. DBO 是不是通过 microbatch 实现计算和通信的 overlap
29. AM 分离适用于什么场景
30. AM 分离中 Attention 节点和 FFN 节点分别是什么瓶颈
31. AM 分离有什么收益
32. 单机部署模型出现显存不足可以怎么解决
33. 模型推理时显存主要由哪些部分组成
34. 针对权重和 KV Cache 分别可以怎么优化
35. Offload 一般卸载的是哪些部分
36. Offload 是在 CPU 上计算还是再加载回 GPU
37. 你了解其他高效 attention 方法吗,比如 linear attention 或窗口 attention
38. 你了解模型量化吗
39. 常见精度比如 FP16、FP8、FP4 是什么
40. 你用到的 NVFP4 是对什么进行量化
41. 量化是提前做好的还是加载后再做的
42. 如果权重是低精度而 activation 是 FP16,计算是怎么进行的
43. 你对哪些 decode-only 大模型比较熟
44. 你了解 LLaMA 吗
45. 选一个你熟悉的模型,从输入到输出讲一下推理过程中的 shape 变化
46. 你对这个岗位有什么想了解的吗
全部评论
被问题量吓哭了
问那么多哦
相关推荐
查看7道真题和解析