03-11 11:01 上海交通大学算法工程师发布于河北

关注

FlashAttention到底快在哪？一句话+三个直觉

最近复盘注意力加速，最关键的一点其实不是“少算”，而是“少搬运”。

我的理解：
1）传统 Attention 会把 N×N 的中间矩阵频繁写回显存，IO 成本很高；
2）FlashAttention 用分块计算，把大部分步骤留在 SRAM 里完成；
3）通过在线 softmax（维护 max/sum）避免显式存整张注意力矩阵。

所以它快的本质是：把瓶颈从“显存读写”转回“算力利用”。

如果你也在做长序列训练/推理，优先看 IO 路径，往往比盯 FLOPs 更有收益。

#算法工程师# #深度学习# #大模型#

全部评论

推荐最新楼层

03-22 14:55

广西大学算法工程师

拼多多 AI Agent 开发二面

1、项目里负责的边界是什么？哪些内容是亲手实现和验证的？2、如果要做一套可落地的 Agent 评测体系，整体怎么设计？评测一般要分离线和线上两层。离线评测解决“改动前后谁更好”，线上评测解决“真实用户下效果是否稳定”。离线侧我会先把样本按场景拆开，比如知识问答、工具调用、多轮追问、拒答场景、多语言场景、长文本场景，然后分别看回答正确率、工具调用成功率、检索命中率、拒答准确率和格式稳定性。线上侧看用户行为指标，比如首轮解决率、转人工率、二次追问率、平均耗时、token 成本和异常率。Agent 不能只看最终答案，通常要拆成三层指标：检索层、决策层、生成层。检索层看有没有召回正确证据，决策层看有没...

拼多多集团-PDD二面350人在聊

点赞评论收藏

分享

03-26 07:50

门头沟学院推荐算法

字节大模型算法面经-面麻了已经

攒人品中，祝大家都能拿到满意的Offer！1.项目拷打2生成式推荐本质上是在做隐空间到离散iD的映射，你如何证明你生成的 ID 序列保留了用户意图的最优压缩3.比如广告场景下不仅仅是预估 CTR。如果我们将生成式排序引入 GSP拍卖，大模型生成的候选列表概率分布，如何保证满足激励相容性4如果模型生成的排序导致广告主出现竞价上的博弈呢5.在H100集群上跑生成式重排，现在的瓶颈不在计算而在存储带宽。如果分阶段推理，我在Prefill阶段采用了FlashAttention-3，但在 Decoding 阶段因为 KV Cache 导致的Fragmented Memory太严重，怎么办6.推荐系统要求毫秒级响应对于1B规模的排序模型，如果我要做Speculative Decoding，你如何设计那个Draft Model？这个小模型是该学大模型的 Logits 分布，还是该学用户的Embedding聚类7.假设构建一个端到端生成式广告系统。现在面临一个场景：某个新入驻的土豪广告主投放了一批高质量视频，但由于模型对新 ID 的 Semantic Indexing 尚未完全对齐，导致第一波推荐给了错误的人群，产生了极高的 Negative Feedback，生成式模型的自回归特性会不断放大这种“第一印象”，导致该广告主瞬间被屏蔽你如何设计一套Online Counterfactual Correction这种，在不重新训练模型的前提下，通过修改 KV Cache里的隐藏状态来强行挽回这批广告的生命周期9.在短视频重排阶段使用了一个 10B 的生成式模型但是业务反馈说模型在学会了今天最火的某个梗以后，竟然忘记了如何处理用户对“长尾科普视频”的旧兴趣，发生了明显的 Catastrophic Forgetting，设计一种基于 Gradient Orthogonal Projection的优化器，确保模型在更新实时热点知识时，参数更新量在旧知识的Null Space内。10.都知道生成式模型有位置偏差从 Attention Entropy 的角度来看，为什么 $N$ 个候选 Item 在序列中的排列顺序会直接导致 Logits 的非线性漂移

查看9道真题和解析

点赞评论收藏

分享

03-31 22:37

广西大学算法工程师

小红书 AI应用开发一面

1. 如果知识库原始数据不是 markdown，而是 PDF、PPT、图片或者网页，你会怎么处理进 RAG 系统？PDF 和 PPT 会提取标题、段落、表格和页码，图片先做 OCR，网页先抽正文和元信息，然后统一清洗噪声、去掉页眉页脚、按语义做切片，补上来源、时间、文档层级这些元数据，最后再做 embedding 和索引。这样后面的召回、溯源和权限控制都更稳定。 public List<Chunk> buildChunks(Document doc) { List<Block> blocks = parser.parse(doc); List<Block> ...

AI-Agent面试实战...

点赞评论收藏

分享

04-02 11:35

美团Agent开发一面，攒人品

笔试a 1.83(没开long long不ac的那次)（投的好迟现在才面第一家）1.自我介绍2.实习拷打-agent具体流程-使用什么模型，时延多少-复合多少tool，缺槽具体是怎么处理的-多轮逻辑有吗-RAG怎么做的-记忆怎么更新，删除。权重3.kv cache了解吗，具体是啥，存kv，为啥不存q4.回到实习，kv cache下，你的query怎么构建，顺序如何才能利用好5.即使把query放最后，如果新增小变更 前面的k矩阵还是会变化要重算，怎么办。-乱答flashattention，被指出错误，问是否了解vllm里的解决机制-不是搞infra的，论文也是可解释性相关的，没追问了6.做题top k大的元素，k<<N;-上午面脑子不清醒，一开始写了个堆排序，随后立刻改成k大小的堆排序7.问想来做什么8.反问40min猛攻特勤处，洗洗睡了

查看12道真题和解析

点赞评论收藏

分享

03-25 08:30

西安交通大学算法工程师

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么，怎么去做的10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

查看11道真题和解析

点赞评论收藏

分享

评论

1

收藏

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

62885次浏览 536人参与

# 第一份工作应该选择高薪还是大平台 #

220351次浏览 1035人参与

# 华泰星战营，提前锁定校招offer #

1410次浏览 179人参与

# 考公VS就业，你怎么选？ #

99788次浏览 521人参与

# 卷__卷不过你们，只能卷__了 #

59745次浏览 755人参与

# 小红书求职进展汇总 #

238357次浏览 1397人参与

# 校招第一份工作你干了多久？ #

150000次浏览 630人参与

# 商战，最累的是我们 #

31569次浏览 98人参与

# 大疆求职进展汇总 #

699654次浏览 4351人参与

# AI时代还有必要刷leetcode吗？ #

47764次浏览 563人参与

# 字节7000实习来了，你投了吗？ #

43251次浏览 331人参与

# 想从事Agent应该学习哪些技术？ #

13906次浏览 386人参与

# 大学生该如何认清当下的就业环境？ #

165886次浏览 908人参与

# 海康威视求职进展 #

134552次浏览 555人参与

# 26届春招投递记录 #

4832次浏览 49人参与

# 工作中，努力重要还是选择重要？ #

285842次浏览 2586人参与

# HR面都在聊什么？ #

21433次浏览 236人参与

# 有哪些公司在面试时考察AICoding？ #

27034次浏览 435人参与

# 正在春招的你，也参与了去年秋招吗？ #

394589次浏览 2712人参与

# 校招生月薪1W算什么水平 #

144013次浏览 496人参与

# 从投递到OC，你用了多久 #

36777次浏览 376人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务