给我面没招了,发点面经攒攒人品~1.对vllm和cuda算子哪个更感兴趣2.为什么要有KVcache,讲一下continues batching3.Transformer自回归生成流程,从一个文本输入开始,模型是怎么一步一步完成自回归生成的?4.vllm整体架构,介绍核心部件5.tp并行:基本思想,attention和gemm怎么切6.pd分离:架构变化,KVcache变化,数据传输,给定一个常规模型,7.计算生成一个 token 占用的 KV Cache 空间公式8.算子优化:Memory-bound 优化思路,element-wise优化思路9.Prefix Caching,block管理,Chunked Prefill10.gpu/cuda基础:gpu内存结构,sm基本组成,L1、L2 cache权限,reduce优化思路,wrap数据交换11.C++/python八股:C++ 多态、虚函数;Python 深拷贝和浅拷贝、协程。12.手撕 接雨水