首页 > 试题广场 >

当KV Cache导致显存不足时,PagedAttentio

[单选题]
当KV Cache导致显存不足时,PagedAttention(vLLM)采用了什么策略来优化?
  • 压缩KV Cache中的历史向量
  • 将KV Cache按固定大小的block管理,类似操作系统的虚拟内存分页
  • 只保留最近N个token的KV Cache
  • 使用CPU内存完全替代GPU显存存储KV Cache

这道题你会答吗?花几分钟告诉大家答案吧!