推理co_design方向,无实习经历。刚开始麦克一直不好使,后来拉了个腾讯会议,直接共享屏幕讲项目。1.vllm的队列,pd分离中也是这些队列吗。(PD分离不会)2.EP加速原理,vllm 怎么做DP(面试官说没看过vllm源码)3.GEMM优化,sharedmemory和L1Cache的区别。(说到了Z-order优化warp排列,L1 cache没答上来)4.flashattention怎么加速的,计算量相比naive atteniton?(就简单讲了下流程)5.pytorch显存管理?clean cache怎么做,移动之前的显存吗?(应该移动?)6.投机解码看了哪篇论文?流程是怎么样的,大模型怎么验证?计算量怎么变?计算量不变为什么会加速?7.megatron的行列并行。无手撕,感觉也没啥特别八股的东西,项目问的很深,有些东西一知半解的一问就问出来了。还是准备的不是很充分,面了一半就感觉GG了,刚一结束果然G了。面试官说最好有些PR。还得学啊