03-14 21:01 上海交通大学算法工程师发布于上海

关注

投机采样：为什么能提速还不掉质？

最近复盘推理加速时，终于把投机采样（Speculative Sampling）想明白了：

它不是“让小模型替代大模型”，而是“让小模型先起草，大模型集中验收”。

我自己的理解是三步：
1）小模型先连续给出K个token草稿；
2）大模型一次前向并行校验这K个token；
3）遇到不靠谱token就拒绝并重采样，保证最终分布仍对齐大模型。

核心收益：把大模型“逐token串行调用”改成“批量验收”，吞吐会明显提升。
核心底线：有拒绝采样兜底，不是盲目加速，所以质量不靠运气。

如果你正在做推理优化，这条线很值得深挖：先看接受率，再看K值和草稿模型大小的平衡点。

#大模型# #推理优化# #算法工程师#

全部评论

推荐最新楼层

03-21 15:01

已编辑

门头沟学院自然语言处理

大模型训练瓶颈突破！让 "弱模型" 当老师，提升强模型能力！

论文题目：Weak-Driven Learning: How Weak Agents make Strong Agents Stronger论文地址：https://arxiv.org/pdf/2602.08222论文详解：https://mp.weixin.qq.com/s/alpue3q1Gk5fcmpG_p3y3Q核心要点：该论文的核心思想是弱驱动学习（Weak-Driven Learning）把历史“弱模型”的纠正信号用于训练当前强模型，通过课程式数据激活与Logit混合联合训练，在不增加推理成本的前提下显著提升数学推理与代码生成表现。关键结论1、提出新范式： 引入了“弱驱动学习”（Weak-Driven Learning），颠覆了以往必须由强到弱传递知识的定式思维，证明了历史的弱模型同样是宝贵的优化信号源。2、设计新框架： 提出了一个名为WMSS的实用三阶段训练框架，通过课程增强的数据激活和弱强联合训练，将弱驱动学习的思想落地。3、验证有效性： 在多个数学推理和代码生成任务上，WMSS均显著超越了传统的SFT等基线方法，并且这一切是在不增加任何额外推理成本的前提下实现的。

点赞评论收藏

分享

03-18 00:43

广西大学算法工程师

OPPO 大模型开发一面

1、自我介绍2、分词器你了解哪些分词器本质上是把原始文本切分成模型可以处理的 token 序列。不同分词器的核心差异主要在切分策略和词表构建方式上。常见的有基于词的分词、基于字符的分词、子词分词和字节级分词。在大模型里更常见的是子词分词，因为它可以兼顾词表大小和泛化能力。典型方法包括 BPE、WordPiece 和 Unigram。BPE 是通过不断合并高频相邻符号来构造词表，WordPiece 更关注合并后带来的概率提升，Unigram 则是从较大的候选词集合里不断删除低价值 token，保留最优子词集合。如果从工程角度看，分词器会直接影响序列长度、推理成本、跨语言表现和 OOV 处理能力。...

查看11道真题和解析

点赞评论收藏

分享

03-08 13:18

清华大学 Java

Java简历点评（27期）

春招开始了，同学们应该也着急一些了，对于26届的同学来说，就是几乎最后一次机会了，一定要把握好，努力的冲一波。今天这个简历的内容不太好，可以说是不及格的简历，这种简历最好不要投递，因为每隔几个月对于同一个公司，你几乎只有一次投递机会，用完就是没了，如果你的简历也是这种的，建议改完之后再投递26届同学参加春招的话，主要是靠实习经历的，必须要实习经历饱满，有含金量，有技术亮点才行，如果你的实习经历不太够用，我这里有大厂最近做过的实习项目，可以包装简历用，感兴趣可以看我的项目地址。春招一定要冲一个好的，再等秋招可能就来不及了

喵_coding：在校经历必须要有？真有点闹麻了

点赞评论收藏

分享

03-19 16:23

门头沟学院 Java

lazy free 机制

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花一、Redis缓存过期管理核心背景Redis作为高性能内存数据库，缓存键设置过期时间后，若不及时清理过期键会导致内存泄漏，若同步强制清理又会阻塞主线程、影响业务吞吐。为此Redis设计了分层内存回收体系：定期删除+惰性删除是原生过期键基础清理策略，负责常规过期键的同步回收；Lazy Free（惰性释放）是4.0+版本新增的异步优化机制，专门解决大键、批量键清理的阻塞问题，三者配合实现内存回收与性能的平衡。二、Redis原生过期键清理策略这两种策略是Redis默认的过期处理逻辑...

点赞评论收藏

分享

03-21 09:35

门头沟学院 Java

最耗 token 的从来不是难题，是垃圾需求

作为一个 “人类大模型”，我发现：真正难的业务、技术问题，其实不怎么耗 token，反而一堆垃圾琐事在疯狂烧我算力。需求来回改，最后又回到第一版会议开半天，结论等于没说明明一句话能讲清，非要拉扯半小时重复做无意义的表格、日报、统计一边让你快速出结果，一边不停打断你我的模型明明擅长深度思考、复杂逻辑，结果天天在处理低权重、低价值、高重复的垃圾任务，显存快炸了，梯度不下降，loss 还在涨。再这么下去，就要进入推理退化、频繁幻觉、拒绝响应模式了。

把自己当AI，现在最消耗...

点赞评论收藏

分享

评论

1

收藏

招聘动态

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

快手

27届实习超多转正机会

联宝科技

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

23339次浏览 187人参与

# 上班苦还是上学苦呢？ #

345766次浏览 2073人参与

# 在爱玛，骑向未来 #

14849次浏览 334人参与

# 如果春招能重来，我会___ #

23621次浏览 247人参与

# 实习怎么做才有更好的产出 #

50242次浏览 458人参与

# 你会因为行情，降低找工作标准吗？ #

36423次浏览 296人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

48202次浏览 521人参与

# 字节开奖 #

153277次浏览 711人参与

# 我的秋招“寄”录 #

476697次浏览 3064人参与

# 面试线索爆料 #

131165次浏览 706人参与

# 提名点击就挂的公司 #

144404次浏览 492人参与

# 刚入职就____，这样正常吗？ #

143845次浏览 691人参与

# AI coding的好用工具分享 #

88705次浏览 567人参与

# 字节求职进展汇总 #

1851366次浏览 15434人参与

# 找工作以来，你最看不惯__ #

79609次浏览 594人参与

# 大学四年该怎么过，才不算浪费时间？ #

23996次浏览 107人参与

# 硬件人秋招的第一个offer #

129183次浏览 1473人参与

# AI“智障”时刻 #

40539次浏览 195人参与

# 业务面应该做哪些准备 #

128252次浏览 1345人参与

# 双非本科求职如何逆袭 #

1651737次浏览 13097人参与

# 双非应该如何逆袭？ #

588977次浏览 6409人参与

# 制造业的秋招小结 #

157501次浏览 2136人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务