最近复盘注意力加速,最关键的一点其实不是“少算”,而是“少搬运”。
我的理解:
1)传统 Attention 会把 N×N 的中间矩阵频繁写回显存,IO 成本很高;
2)FlashAttention 用分块计算,把大部分步骤留在 SRAM 里完成;
3)通过在线 softmax(维护 max/sum)避免显式存整张注意力矩阵。
所以它快的本质是:把瓶颈从“显存读写”转回“算力利用”。
如果你也在做长序列训练/推理,优先看 IO 路径,往往比盯 FLOPs 更有收益。
#算法工程师# #深度学习# #大模型#