首页 > 试题广场 >

Scaled Dot‑Product Attention 为

[问答题]
Scaled Dot‑Product Attention 为啥要除以 √dk?如果不除会出什么数值或训练问题。
因为这个放缩比是为了减小小目标和大目标时之间的差距,从而减少一些噪声对整体的影响。如果不除就会造成大目标的权重占主导,放大了噪声的影响,影响模型的鲁棒性
发表于 2025-09-11 19:44:06 回复(0)