首页 > 试题广场 >

在大语言模型中,缩放点积注意力(Scaled Dot-Pro

[单选题]
在大语言模型中,缩放点积注意力(Scaled Dot-Product Attention)中的"缩放"操作主要解决什么问题?
  • 减少注意力计算的内存消耗
  • 防止梯度消失
  • 防止softmax函数进入饱和区域导致梯度过小
  • 加速注意力权重的计算
缩放点积注意力(Scaled Dot-Product Attention)是Transformer模型的核心机制,通过点积计算查询(Q)、键(K)、值(V)的相似性,再乘以缩放因子(如键维度平方根的倒数),解决高维下梯度消失问题。
发表于 2025-06-05 20:55:19 回复(0)