投机采样:为什么能提速还不掉质?
最近复盘推理加速时,终于把投机采样(Speculative Sampling)想明白了:
它不是“让小模型替代大模型”,而是“让小模型先起草,大模型集中验收”。
我自己的理解是三步:
1)小模型先连续给出K个token草稿;
2)大模型一次前向并行校验这K个token;
3)遇到不靠谱token就拒绝并重采样,保证最终分布仍对齐大模型。
核心收益:把大模型“逐token串行调用”改成“批量验收”,吞吐会明显提升。
核心底线:有拒绝采样兜底,不是盲目加速,所以质量不靠运气。
如果你正在做推理优化,这条线很值得深挖:先看接受率,再看K值和草稿模型大小的平衡点。
#大模型# #推理优化# #算法工程师#
它不是“让小模型替代大模型”,而是“让小模型先起草,大模型集中验收”。
我自己的理解是三步:
1)小模型先连续给出K个token草稿;
2)大模型一次前向并行校验这K个token;
3)遇到不靠谱token就拒绝并重采样,保证最终分布仍对齐大模型。
核心收益:把大模型“逐token串行调用”改成“批量验收”,吞吐会明显提升。
核心底线:有拒绝采样兜底,不是盲目加速,所以质量不靠运气。
如果你正在做推理优化,这条线很值得深挖:先看接受率,再看K值和草稿模型大小的平衡点。
#大模型# #推理优化# #算法工程师#
全部评论
相关推荐
查看17道真题和解析 点赞 评论 收藏
分享