继续来分享下之前的面经~欢迎友好讨论,信息共享1. 项目深挖2. 算子优化从 profiling 到落地的完整流程?如何判断一个算子是 memory-bound 还是 compute-bound?3. 用过哪些 profiling 工具?Nsight Systems 能看到指令级流水吗?4. 优化时,Warp利用率低怎么归因?负载不均衡怎么解决?5. 昇腾NPU和 NVIDIA GPU架构差异,内存层级设计6. 多进程和多线程的性能区别7. 还了解哪些模型级优化手段?比如 KV Cache / 算子融合 / 量化8. 模型输出和预期不符,怎么 debug?误差累积怎么解决9. 对第一份工作最看重什么?10. 为什么投卓驭?了解我们技术路线吗?