1.实习介绍2.针对项目提问3.FlashAttention原理,Online softmax,有没有看过cuda kernel,FlashAttention V1,V2,V3,FlashDecoding原理4.推理优化的思路(方法)有哪些5.用没用过vllm/SGLang,原理6.有没有听说过Dynamic Batching7.Coding:写一个ruduce,用block,优化版:用warp shuffle,能不能再优化?8.加载到shared memory和直接从HBM取input比为什么更快9.有没有听说过shared memory的bank conflict10.反问:在哪些地方可以继续提升自己