发点面经攒攒人品~项目经历1. 实习拷打2. 项目拷打量化相关3. 量化策略的选择依据:为何选用 INT8 量化,A100 与 H100 对不同量化精度的支持情况4. 量化对象是模型权重还是 KV-Cache,scale 参数如何确定5. 量化后是否进行过精度损失的评测算子开发6. Triton 算子的实现逻辑,包括分块等策略7. 对比所用的官方 baseline 选择及数据类型8. 性能提升数据的来源,动态分块策略与算子配置9. 是否考虑过使用 CUDA 替代 Triton 进行算子开发,选择 Triton 的原因10. 是否做过 profiling,内存吞吐等性能指标表现如何,后续有何优化思路推理优化11. Attention 模块在整个系统端到端延迟中所占比例12. Decode 阶段属于 compute bound 还是 memory bound,KV-Cache 量化提升的是哪方面性能13. A100 的理论显存带宽上限