首页 > 试题广场 >

给我讲讲多头注意力的计算流程与复杂度瓶颈;常见的降复杂度做法

[问答题]
给我讲讲多头注意力的计算流程与复杂度瓶颈;常见的降复杂度做法(比如低秩、稀疏、线性注意力)各有什么代价?

这道题你会答吗?花几分钟告诉大家答案吧!