1.双方自我介绍2.围绕项目提问,这里记一下通用问题项目开展的流程,你在其中负责哪些?用的什么推理框架?FP8 KV Cache是怎么设置的?FP8量化在prefill阶段有多少性能收益?profile用的什么工具,怎么定位性能瓶颈?还有些想不起来了,回忆起来再补充。3.开放性提问你对GPU微架构和cuda了解吗?在sm没用满的情况增加矩阵乘法的大小,为什么延时会增长?除了compute/memory bound还有哪些类型的bound,怎么定位?4.代码题岛屿数量,模版题,但是写的很艰难。面试官帮我减掉了输入处理和队列的初始化,最后写完还有点小毛病5.反问环节问了下他们部分具体是什么方向的推理优化。视频/图片生成类模型重要吗