首页 > 试题广场 >

序列输入长度 s=256,隐藏维度 d=1024,注意力头数

[单选题]
序列输入长度 s=256,隐藏维度 d=1024,注意力头数 h=16。多头注意力中 Q/K/V 三个投影矩阵的总参数量是( )。
  • 3*s*d*h
  • d*d*h
  • 3*d*d*h
  • 3*d*d

这道题你会答吗?花几分钟告诉大家答案吧!