首页 > 试题广场 >

某 LLM 服务分为 Prefill 与 Decode 两阶

[单选题]
某 LLM 服务分为 Prefill 与 Decode 两阶段,关于两个典型请求的耗时瓶颈,正确的是()。
  • 请求A瓶颈在 Decode,因为逻辑复杂
  • 请求B瓶颈在 Prefill,因为需快速响应
  • 请求A主要受 GPU 计算单元吞吐决定;请求B主要受 HBM 带宽决定
  • 优化请求B延迟最有效是用 INT4 量化以减少 Decode 算量

这道题你会答吗?花几分钟告诉大家答案吧!