首页 > 试题广场 >

在LLM推理中,以下哪种策略可以降低"首token延迟"(T

[单选题]
在LLM推理中,以下哪种策略可以降低"首token延迟"(TTFT)同时不显著影响吞吐量?
  • 增大batch size
  • 对Prefill和Decode阶段使用分离部署(Disaggregation)
  • 使用更激进的量化
  • 增加beam width
  PD分离得考虑通信延迟吧,这里做的时候四个都不知道选哪个。另外PD也会影响PD资源分配问题,比如超长序列P做完才能给D,不一定比两张卡同时处理快

发表于 2026-04-19 20:50:27 回复(0)