最近读了腾讯写的文章,简单自己做了下总结和理解,又有了新的输入,不愧是腾讯👍 一、学到的核心知识 1. 大模型推理的两大基石 Continuous Batching(连续批处理):传统批处理要求一个 batch 内所有请求"同时开始、同时结束",但 LLM 输出长度不可预测,会浪费 GPU。vLLM 把调度粒度从 request level 下沉到 token level——每一步看哪些请求"差几个 token",就调度几个 token,把短请求填进 batch 的空隙里。 Paged Attention:传统做法一次为请求申请全部显存,碎片严重;P...