首页 > 试题广场 >

某大模型推理场景要求：实时生成（延迟≤300ms）、生成质量

[不定项选择题]

某大模型推理场景要求：实时生成（延迟≤300ms）、生成质量较高（BLEU-4≥0.6）、内存占用≤8GB，原始模型FP32权重16GB，推理时输入prompt为20个token，需生成60个token，下列优化方案组合最合理的有（）

关闭Prefill阶段，仅保留Decode阶段，减少推理耗时

启用KVCache滑动窗口（窗口大小=30），控制内存占用，同时保证上下文关联性

采用INT8量化，将权重压缩至4GB，满足内存要求

采用束搜索（K=3）+TOP-P=0.8，兼顾生成质量（BLEU-4达标）和推理速度

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

难度：

0条回答 31收藏 30浏览

扫一扫，把题目装进口袋