使用近似注意力计算代替精确计算
通过分块(tiling)计算和利用GPU内存层次结构减少HBM访问次数
将注意力计算从GPU卸载到CPU
使用稀疏注意力模式减少计算量
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题