滑动窗口注意力(SWA)将每个token的注意力范围限制在固定窗口内,因此无法捕获任何超出窗口长度的长距离依赖
在DeepSeek-V3等模型中,SWA层和全注意力层交替使用,其中SWA层需要独立维护自己的KV Cache,因此总显存占用与纯全注意力模型相同
Flash Attention通过对注意力矩阵进行低秩近似,将计算复杂度从O(n^2)降低到O(n)
线性注意力在推理时可转化为RNN递推形式,生成每个新token的计算量与已生成的上下文长度无关,而标准注意力需要对全部KV Cache做计算

这道题你会答吗?花几分钟告诉大家答案吧!