首页 > 试题广场 >

关于Transformer中注意力机制的优化方案,以下哪一项

[单选题]
关于Transformer中注意力机制的优化方案,以下哪一项描述是正确的?
  • 滑动窗口注意力(SWA)将每个token的注意力范围限制在固定窗口内,因此无法捕获任何超出窗口长度的长距离依赖
  • 在DeepSeek-V3等模型中,SWA层和全注意力层交替使用,其中SWA层需要独立维护自己的KV Cache,因此总显存占用与纯全注意力模型相同
  • Flash Attention通过对注意力矩阵进行低秩近似,将计算复杂度从O(n^2)降低到O(n)
  • 线性注意力在推理时可转化为RNN递推形式,生成每个新token的计算量与已生成的上下文长度无关,而标准注意力需要对全部KV Cache做计算

这道题你会答吗?花几分钟告诉大家答案吧!