03-15 20:01 上海交通大学算法工程师发布于江苏

关注

为什么大模型推理越来越快？聊聊 KV Cache

最近复盘了 KV Cache，给面试/实战一个好记版本：
1）Decoder 生成第 k 个 token 时，历史 token 的 K/V 不必重算，缓存后直接复用；
2）不做缓存会反复算历史注意力，长度一长延迟明显；
3）KV Cache 省算力但吃显存，长上下文时显存压力会成为瓶颈；
4）MHA→MQA→GQA→MLA，本质都在做“少缓存/更聪明缓存”，其中 GQA 是当前工程里很常见的平衡点。

一句话：KV Cache 是速度的来源，注意力变体是显存账本。

#大模型# #推理优化# #面试复盘#

全部评论

推荐最新楼层

04-15 18:12

门头沟学院 Java

杭州观妙科技-java岗面经

技术面自我介绍一下。你做过的哪个项目最能体现你的能力。简单介绍一下这个项目。哪个模块最能体现你的能力？点赞系统中说“通过 Lua 脚本保证原子性”，保证的什么原子性？点赞并发处理能力提升了 5 倍，是基于原本什么方案提升了 5 倍？5 倍是怎么测出来的？说一下你的排行榜功能是怎么设计的，这个数据量有必要分表么？XXL-JOB 分片任务干了什么？在这个过程中有异常情况吗？你觉得你哪个方向比较突出？你在上一份工作中的收获是什么？如果不用 Redis 缓存，让你自己实现一个有 TTL 的 K-V 缓存，只能用 Java API，你会怎么设计？你会如设计测试用例来测试这个组件？你平常生活的时间安排是这...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

04-13 14:05

简历求拷打，28届双非本末九硕非科班

目前准备离职试投下中大厂后端以及bat级别大厂测开客户端，同时学下ai应用开发相关，今年年末寒假再投一段大厂后端或者ai应用开发日常，然后明年早点开暑期能给点建议吗，要不要学go呢

点赞评论收藏

分享

04-03 18:59

京东_后端开发(实习员工)

米哈游何意味

鱼专：别投了，我看到有人点了第二个链接投递，还没退出界面，不合适的邮件就发过来了

点赞评论收藏

分享

03-19 10:57

已编辑

百度_Java后端开发(实习员工)

27届首个耐挂王出现

挑战全网最惨27届应届生。十几场面试全挂，道心破碎，后续不打算面了，先调整一下心态了。金三银四感觉和双非无关

李橙子：这是只向往大厂的牛马啊

点赞评论收藏

分享

04-11 13:47

阿里巴巴_后端

校招没去大厂，社招难了吗？？？

收到学弟的一些问题，春招快结束了，有些学弟可能只拿到了中小厂的offer，背大厂泡池子最后没泡出来，有点沮丧。听网上说校招去不了大厂，社招肯定就难了，那么到底社招好不好进大厂呢？我的看法是恰恰相反，据我观察，社招去大厂反而竞争并没有校招那么激烈。首先校招：学历高、人多、坑位少卡学历：简历初筛基本只看985/211，学历是硬通货。人巨多：流程贼标准，一堆学霸卷同样的题目和面试，感觉像高考。名额少得可怜：去年阿里和腾讯加起来才招了不到1000人，但申请有几十万人！僧多粥少，卷到飞起。然后 社招：拼经验、看匹配、能涨薪看经历：主要看你干过啥、项目牛不牛，有大厂背景更加分，但是项目有含金量才是重点。精...

社招保姆级辅导分享

点赞评论收藏

分享

评论

1

2

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

米哈游2026校园招聘

应届生春招&全年实习生专项

招商银行信用卡中心

2027届暑期训练营

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

34105次浏览 431人参与

# 大学生该如何认清当下的就业环境？ #

162240次浏览 886人参与

# 有哪些公司在面试时考察AICoding？ #

19112次浏览 348人参与

# 运营来爆料 #

98797次浏览 508人参与

# HR面都在聊什么？ #

13548次浏览 162人参与

# 美团开奖 #

407734次浏览 1805人参与

# 26届春招投递记录 #

3594次浏览 42人参与

# 百度工作体验 #

325370次浏览 2247人参与

# 想从事Agent应该学习哪些技术？ #

8386次浏览 279人参与

# 实习学到最有价值的工作习惯 #

69620次浏览 552人参与

# OPPO求职进展汇总 #

808972次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143394次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

57212次浏览 371人参与

# 从投递到OC，你用了多久 #

23581次浏览 238人参与

# 什么人最适合大厂？ #

12625次浏览 133人参与

# 父母问你工作找得怎么样，怎么回 #

22889次浏览 282人参与

# 哪些公司面试还在问八股？ #

13918次浏览 123人参与

373847次浏览 2921人参与

# 我与AI的日常 #

3261次浏览 16人参与

# 我的求职进度条 #

1112452次浏览 8040人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务