继续来分享下最近的面经~算子优化1. GEMM 中为什么通常让单个线程处理 8x8 的计算块?2. 使用 CUDA 实现算子时的主要难点有哪些?3. 是否使用 CUDA 实现过前缀和(prefix sum)?4. 什么是 bank conflict?有哪些减少 bank conflict 的方法?5. Little’s Law 中访存延迟与计算延迟的关系是什么?项目经历6. 介绍参与的开源项目。