首页 > 试题广场 >

某大模型推理场景要求:实时生成(延迟≤300ms)、生成质量

[不定项选择题]
某大模型推理场景要求:实时生成(延迟≤300ms)、生成质量较高(BLEU-4≥0.6)、内存占用≤8GB,原始模型FP32权重16GB,推理时输入prompt为20个token,需生成60个token,下列优化方案组合最合理的有( )
  • 关闭Prefill阶段,仅保留Decode阶段,减少推理耗时
  • 启用KVCache滑动窗口(窗口大小=30),控制内存占用,同时保证上下文关联性
  • 采用INT8量化,将权重压缩至4GB,满足内存要求
  • 采用束搜索(K=3)+TOP-P=0.8,兼顾生成质量(BLEU-4达标)和推理速度

这道题你会答吗?花几分钟告诉大家答案吧!