2025.4.16,感谢信2025.4.13,二面,20minC++函数模板、规避内存泄露的方法torch compiler、cuda graph是否了解 ptx2026.3.25,一面,1h推理框架研发工程师岗位的理解降低大模型推理成本手段为什么要做算子融合cuda graph 原理、作用、使用场景3D 并行 & EP & CP & SP 原理、作用模型量化类型、原理、作用介绍MTPvllm的整体架构,请求在内部是如何流转的kvcache的空间如何计算prefix cache介绍vllm V0/V1 比较TP下,不同的模块如何汇总结果口述multi head atte...