03-19 18:07 已编辑中国科学技术大学附属中学后端工程师发布于江苏

关注

某互联网二线公司，大模型推理面经

1. 请做一个两分钟左右的自我介绍
2.  你了解 KV Cache 是什么吗，可以简单介绍一下
3.  KV Cache 的大小是怎么计算的
4.  MHA 和 GQA 有什么区别
5.  在 GQA 情况下 KV Cache 的大小会有什么变化，能减少多少
6.  DeepSeek V3 的注意力机制是怎么实现的，你了解吗
7.  这个设计（MLA）有什么好处，MLA 存的是哪些内容
8.  你了解 Paged Attention 吗
9.  Paged Attention 的 Page Size 一般是怎么选择的，vLLM 里面大概多大
10.  如果 Page Size 选 1 可以吗，相比 Page Size 是 16 或 32，有什么优势或劣势
11.  如果一个 Page 只用了 15 个 token 剩下空间还能继续用吗
12.  你对 PD 分离有多少了解，可以讲一下吗
13.  Prefill 和 Decode 分别是什么瓶颈
14.  做了 PD 分离之后可以采用哪些优化策略
15.  你听过 Chunked Prefill 吗
16.  Chunked Prefill 和直接一次性 Prefill 有什么区别或好处
17.  单机情况下可以用 Chunked Prefill 吗
18.  一个很长的序列用固定 chunk size 做 Prefill，整个计算过程是怎样的
19.  多个 chunk 能不能并行计算，为什么
20.  你在推理优化里用到的这些优化手段，是理解原理还是只是调参数
21.  MTP 多 token 预测的大致流程是什么
22.  在你的测试中 MTP 的接受率大概是多少
23.  TTFT 是什么，TPOT 是什么，MTP 优化的是哪一部分指标
24.  MTP 引入额外计算后为什么还能提升吞吐
25.  Flash Attention 是什么，核心思想是什么
26.  它是怎么分块计算的，在线 softmax 是怎么做的，softmax 的分母是什么
27.  DBO 是什么推理优化技术，DBO 中的通信主要来自哪里
28.  DBO 是不是通过 microbatch 实现计算和通信的 overlap
29.  AM 分离适用于什么场景
30.  AM 分离中 Attention 节点和 FFN 节点分别是什么瓶颈
31.  AM 分离有什么收益
32.  单机部署模型出现显存不足可以怎么解决
33.  模型推理时显存主要由哪些部分组成
34.  针对权重和 KV Cache 分别可以怎么优化
35.  Offload 一般卸载的是哪些部分
36.  Offload 是在 CPU 上计算还是再加载回 GPU
37.  你了解其他高效 attention 方法吗，比如 linear attention 或窗口 attention
38.  你了解模型量化吗
39.  常见精度比如 FP16、FP8、FP4 是什么
40.  你用到的 NVFP4 是对什么进行量化
41.  量化是提前做好的还是加载后再做的
42.  如果权重是低精度而 activation 是 FP16，计算是怎么进行的
43.  你对哪些 decode-only 大模型比较熟
44.  你了解 LLaMA 吗
45.  选一个你熟悉的模型，从输入到输出讲一下推理过程中的 shape 变化
46.  你对这个岗位有什么想了解的吗

全部评论

推荐最新楼层

南昌大学算法工程师

被问题量吓哭了

点赞回复分享

发布于 03-23 10:30 江西

门头沟学院 C++

问那么多哦

点赞回复分享

发布于 03-20 09:43 广东

03-31 00:26

广西大学算法工程师

小鹏大模型算法二面

1. 你做过的后训练项目里，最难解决的问题是什么2. SFT 数据你怎么构造，怎样避免模型被训练“油了”SFT 最大的问题不是量不够，而是数据风格太单一，最后把模型训成一种固定腔调：很会说、很圆滑、但信息密度低。构造数据时我一般会先按任务拆层，比如信息抽取、工具调用、复杂问答、拒答、安全、长文总结、结构化输出，每一层的目标都不一样。然后再做难度分桶，避免模型只见过简单样本。另一个关键点是负面风格清理。很多数据表面上没错，但非常模板化，比如“这是一个非常好的问题，让我们一步一步分析”，这类东西在少量数据里没问题，规模一大就会把模型带偏。所以我会专门清掉这种“高礼貌、低信息”的样本，保留更接近真实...

AI-Agent面试实战...

点赞评论收藏

分享

03-25 22:45

江南大学 golang

快手AI infra(偏推理)暑期留用实习，一面

1.拷打项目推理框架算子如何优化的如何构建Memory pool的如何对框架进行测试的？数据量有多少2.八股Vllm的page attention了解吗？chunk prefill是如何实现的？continous batching了解吗？3.leetcode二维数组每行有序，求第K小的元素（prioirty_queue，只写出来暴力）

查看7道真题和解析

点赞评论收藏

分享

03-30 23:54

广西大学算法工程师

飞猪大模型算法一面

1. 介绍一下你做过的一个项目2. 打分模型设计思路是什么打分模型本质上是在多个候选里做排序，重点不是绝对分值，而是相对顺序。设计时先要明确标签来源，如果是检索系统里的重排，一般可以来自人工相关性标注、点击日志、停留时长、复制行为、是否继续追问等；如果是生成答案质量打分，还会加入事实一致性、格式完整性、引用正确性这些目标。特征上通常会混合语义特征和业务特征，比如 query 向量、doc 向量、交叉编码器打分、文档时效性、来源可信度、标题匹配度。训练时常见有 pointwise、pairwise、listwise 三种。pointwise 简单，适合做基础版本；pairwise 更符合排序本质...

AI-Agent面试实战...

点赞评论收藏

分享

03-15 20:01

上海交通大学算法工程师

为什么大模型推理越来越快？聊聊 KV Cache

最近复盘了 KV Cache，给面试/实战一个好记版本：1）Decoder 生成第 k 个 token 时，历史 token 的 K/V 不必重算，缓存后直接复用；2）不做缓存会反复算历史注意力，长度一长延迟明显；3）KV Cache 省算力但吃显存，长上下文时显存压力会成为瓶颈；4）MHA→MQA→GQA→MLA，本质都在做“少缓存/更聪明缓存”，其中 GQA 是当前工程里很常见的平衡点。一句话：KV Cache 是速度的来源，注意力变体是显存账本。

查看4道真题和解析

点赞评论收藏

分享

03-30 19:34

广西大学算法工程师

携程大模型算法开发一面

1. 介绍一下你做过的一个项目2. LoRA 的原理以及初始化方法是什么LoRA 的核心是低秩适配。对于原始权重矩阵 (W \in \mathbb{R}^{d \times k})，全参数微调直接更新整个 (W)，成本高、显存占用大。LoRA 认为下游任务需要的更新往往落在一个低秩子空间里，所以把增量写成：W' = W + \Delta W = W + BA其中，并且r≪min⁡(d,k)r≪min(d,k)。训练时冻结原始参数 (W)，只训练 (A) 和 (B)，这样参数量和优化器状态都能显著下降。初始化时通常让 (A) 随机初始化，(B) 初始化为 0，或者相反。这样一开始 (\Delta...

AI-Agent面试实战...

点赞评论收藏

分享

评论

3

14

招聘动态

客路2026产研校招

AI网申助手

网申字段一键填写

百度

2027届暑期实习

招商银行数字金融训练营

火热报名中

新华三

2026届春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

27届校招宝典

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 面试被问到不会的问题，你怎么应对？ #

23191次浏览 569人参与

# 牛友的志愿填报指南 #

62707次浏览 479人参与

# 招商银行数字金融训练营 #

106568次浏览 917人参与

# 你见过哪些招聘隐形歧视？ #

22868次浏览 193人参与

# uu们，春招你还来吗？ #

61363次浏览 679人参与

# 你觉得大几开始实习最合适？ #

26932次浏览 262人参与

# 厦门银行科技岗值不值得投 #

15412次浏览 355人参与

# 面试中，你被问过哪些奇葩问题？ #

95303次浏览 1208人参与

# 你都用vibe coding做过什么？ #

19872次浏览 762人参与

# 学历VS实习，哪个更重要？ #

1152次浏览 37人参与

# AI Coding实战技巧 #

14539次浏览 291人参与

# 哔哩哔哩笔试 #

34866次浏览 142人参与

# 海康威视求职进展 #

132162次浏览 551人参与

# 你现在一天AI几次？ #

12552次浏览 126人参与

# 机械人你觉得今年行情怎么样？ #

7810次浏览 96人参与

# 如果人生可以debug你会改哪一行? #

11887次浏览 155人参与

# 做完笔试后你收到面试了吗？ #

24831次浏览 214人参与

# Claude Code泄露源码 #

14472次浏览 199人参与

# 恒生电子笔试 #

20674次浏览 156人参与

# Vibe Coding 会干掉初级岗位吗？ #

21564次浏览 217人参与

# 大厂实习和小厂实习最大的区别是什么？ #

40087次浏览 281人参与

# 嵌入式转岗的难度怎么样 #

129250次浏览 2775人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务