这个面经是群里 小伙伴分享的 社招, 2年的工作经验 双非本9硕 将近40分钟都在问项目细节 项目这里我全部砍掉了1. 自我介绍2. 大模型在推理时通常分哪两个阶段,每个阶段关注点是什么一般分成 prefill 和 decode 两个阶段。prefill 阶段主要是把输入 prompt 一次性编码进去,重点看吞吐、并行效率和长序列的计算开销;decode 阶段是逐 token 生成,重点看单步延迟、KV Cache 复用和 batch 调度效率。很多线上推理慢,不是模型本身慢,而是 prefill 太重或者 decode 阶段调度策略不合理。理解这两个阶段,才能知道为什么有些优化只对长输入有效...