AI infra校招荣耀二面 40min
祝大家都能拿到满意的Offer!发面经攒攒人品
1. 大模型推理瓶颈:LLM在NPU上的最大瓶颈在哪?
2. Prefill vs Decoding的Matmul优化方法
3. 分块策略:如何保证数据在缓存中的连续性?
4. 昇腾NPU架构对Transformer友好吗?
5. 场景题:一个量化后的大模型(如INT8/4)运行时内存占用大概多少
1. 大模型推理瓶颈:LLM在NPU上的最大瓶颈在哪?
2. Prefill vs Decoding的Matmul优化方法
3. 分块策略:如何保证数据在缓存中的连续性?
4. 昇腾NPU架构对Transformer友好吗?
5. 场景题:一个量化后的大模型(如INT8/4)运行时内存占用大概多少
全部评论
相关推荐
查看15道真题和解析