某大模型推理场景要求:实时生成(延迟≤300ms)、生成质量较高(BLEU-4≥0.6)、内存占用≤8GB,原始模型FP32权重16GB,推理时输入prompt为20个token,需生成60个token,下列优化方案组合最合理的有( )
关闭Prefill阶段,仅保留Decode阶段,减少推理耗时
启用KVCache滑动窗口(窗口大小=30),控制内存占用,同时保证上下文关联性
采用INT8量化,将权重压缩至4GB,满足内存要求
采用束搜索(K=3)+TOP-P=0.8,兼顾生成质量(BLEU-4达标)和推理速度