首页 > 试题广场 >

在大语言模型中，缩放点积注意力(Scaled Dot-Pro

[单选题]

在大语言模型中，缩放点积注意力(Scaled Dot-Product Attention)中的"缩放"操作主要解决什么问题？

防止softmax函数进入饱和区域导致梯度过小

查看正确选项

在写总结的外卷侠很爱吃肉

缩放点积注意力（Scaled Dot-Product Attention）是Transformer模型的核心机制，通过点积计算查询（Q）、键（K）、值（V）的相似性，再乘以缩放因子（如键维度平方根的倒数），解决高维下梯度消失问题。

发表于 2025-06-05 20:55:19 回复(0)

提交观点

问题信息

大模型开发

难度：

1条回答 10收藏 71浏览

扫一扫，把题目装进口袋