想象你有一叠 3D 彩色纸片(张量),而 unsqueeze() 就像给这些纸片偷偷增加一层隐形夹层,让它们能和其他纸片对齐拼接! 🎲 1. 为什么需要 unsqueeze()? 在加性注意力机制中,我们需要计算 查询(queries)和键(keys) 的相似度。但它们的形状不匹配: queries 形状:(batch_size, 查询个数, num_hiddens) keys 形状:(batch_size, “键-值”对个数, num_hiddens) 为了让它们能逐元素相加(广播机制),我们需要让它们的形状变成: queries → (batch_size, 查询个数, 1, nu...