首页 > 试题广场 >

关于Transformer中注意力机制的优化方案，以下哪一项

[单选题]

关于Transformer中注意力机制的优化方案，以下哪一项描述是正确的？

滑动窗口注意力（SWA）将每个token的注意力范围限制在固定窗口内，因此无法捕获任何超出窗口长度的长距离依赖

在DeepSeek-V3等模型中，SWA层和全注意力层交替使用，其中SWA层需要独立维护自己的KV Cache，因此总显存占用与纯全注意力模型相同

Flash Attention通过对注意力矩阵进行低秩近似，将计算复杂度从O(n^2)降低到O(n)

线性注意力在推理时可转化为RNN递推形式，生成每个新token的计算量与已生成的上下文长度无关，而标准注意力需要对全部KV Cache做计算

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

难度：

0条回答 41收藏 12浏览

扫一扫，把题目装进口袋