为什么大模型推理越来越快？聊聊 KV Cache

最近复盘了 KV Cache，给面试/实战一个好记版本：
1）Decoder 生成第 k 个 token 时，历史 token 的 K/V 不必重算，缓存后直接复用；
2）不做缓存会反复算历史注意力，长度一长延迟明显；
3）KV Cache 省算力但吃显存，长上下文时显存压力会成为瓶颈；
4）MHA→MQA→GQA→MLA，本质都在做“少缓存/更聪明缓存”，其中 GQA 是当前工程里很常见的平衡点。

一句话：KV Cache 是速度的来源，注意力变体是显存账本。

#大模型# #推理优化# #面试复盘#

全部评论

推荐最新楼层

04-30 18:42

门头沟学院人工智能

五一学习计划

五天作战计划 Day 0（4/30 晚 1.5h）— 准备 # clone 项目 git clone https://github.com/shareAI-lab/learn-claude-code.git cd learn-claude-code # 装依赖 python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt # 配 API key（重要：这次需要花点钱，详见后文成本估算） cp .env.example .env # 编辑 .env 填入 ANTHROPIC_API_KEY # 跑 ...

点赞评论收藏

昨天 14:08

上海智元新创技术有限公司_强化学习算法工程师(准入职员工)

智元机器人内推，智元机器人内推码

C++面经摘自优秀牛油先介绍了大概八分钟的科研项目然后开始拷打（有一些记不清了2333）C++部分：C++ 编译过程链接过程做了些什么智能指针介绍shared_ptr实现原理shared_ptr引用计数是原子性的吗怎么保证原子性的垃圾回收机制内存泄漏怎么排查内存泄漏排查工具的原理垃圾回收机制内存泄漏排查工具、垃圾回收机制、共享指针三个之间有什么关系stl map可以多线程同时写入吗stl里有容器是线程安全的吗int a,vector<int> b，同时作为函数参数，b存储在栈上还是堆上；操系统部分：协程和线程的区别协程切换的C++底层实现epoll\select\poll的区别为什...

点赞评论收藏

03-19 17:53

武汉大学算法工程师

唉每每看到这张截图总是意难平

为什么面了八次次次都是一面挂，次次都不说原因，问了面试官就是插科打诨，为什么别人一面就过呢，真的没有缘分呀。不考编程就是脑筋急转弯的概率题，考了编程a了也不过没a也不过 总之就是不过，没一次二面，深深的怨念。觉得我不够资格就直接拉黑简历呗，每次都捞起来重新拷打一顿什么意思呢。

暴杀流调参工作者：春招又试了一些岗位，现在投递很有意思，不仅要精心准备简历，投递官网还得把自己写的东西一条一条复制上去，阿里更是各个bu都有自己的官网，重复操作无数次，投完简历卡完学历了，又该写性格测评、能力测评，写完了又要写专业笔试，最近还有些公司搞了AI辅助编程笔试，有些还有AI面试，对着机器人话也听不明白录屏硬说，终于到了人工面试又要一二三四面，小组成员面主管面部门主管面hr面，次次都没出错机会，稍有不慎就是挂。卡学历卡项目卡论文卡实习什么都卡，没有不卡的😂

点赞评论收藏