首页 > 试题广场 >

在LLM推理中，以下哪种策略可以降低"首token延迟"（T

[单选题]

在LLM推理中，以下哪种策略可以降低"首token延迟"（TTFT）同时不显著影响吞吐量？

对Prefill和Decode阶段使用分离部署（Disaggregation）

查看正确选项

qiaosir

PD分离得考虑通信延迟吧，这里做的时候四个都不知道选哪个。另外PD也会影响PD资源分配问题，比如超长序列P做完才能给D，不一定比两张卡同时处理快

发表于 2026-04-19 20:50:27 回复(0)

提交观点

问题信息

推理

难度：

1条回答 2收藏 26浏览

扫一扫，把题目装进口袋