请求A瓶颈在 Decode,因为逻辑复杂
请求B瓶颈在 Prefill,因为需快速响应
请求A主要受 GPU 计算单元吞吐决定;请求B主要受 HBM 带宽决定
优化请求B延迟最有效是用 INT4 量化以减少 Decode 算量
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题