首页 > 试题广场 >

Flash Attention的核心优化思想是什么?

[单选题]
Flash Attention的核心优化思想是什么?
  • 使用近似注意力计算代替精确计算
  • 通过分块(tiling)计算和利用GPU内存层次结构减少HBM访问次数
  • 将注意力计算从GPU卸载到CPU
  • 使用稀疏注意力模式减少计算量

这道题你会答吗?花几分钟告诉大家答案吧!