首页 > 试题广场 >

某 LLM 服务分为 Prefill 与 Decode 两阶

[单选题]

某 LLM 服务分为 Prefill 与 Decode 两阶段，关于两个典型请求的耗时瓶颈，正确的是（）。

请求A瓶颈在 Decode，因为逻辑复杂

请求B瓶颈在 Prefill，因为需快速响应

请求A主要受 GPU 计算单元吞吐决定；请求B主要受 HBM 带宽决定

优化请求B延迟最有效是用 INT4 量化以减少 Decode 算量

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

难度：

0条回答 9收藏 4浏览

热门推荐

相关试题

历史频道《岁时记》纪录片剧组正在梳...

语句表达

评论(1) 来自2025秋招-中国华电集...
请从所给的四个选项中，选择最合适的...

图形推理

评论(2)
AI营养师建议系统生成过敏原冲突菜...

大模型开发

评论(1)
定义如下Python函数，执行f ...

Python

评论(1)
在 UPDATE 语句中基于自身计...

SQL

评论(1)

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号