07-04 09:33 杭州超限数动科技有限公司_大模型数据安全部_研发专家

发布于浙江

关注

加性注意力中的 unsqueeze() 魔法：给张量"长高"的趣味解释

alt

想象你有一叠 3D 彩色纸片（张量），而 unsqueeze() 就像给这些纸片偷偷增加一层隐形夹层，让它们能和其他纸片对齐拼接！

🎲 1. 为什么需要 `unsqueeze()`？

在加性注意力机制中，我们需要计算 查询（queries）和键（keys） 的相似度。但它们的形状不匹配：

queries 形状：(batch_size, 查询个数, num_hiddens)
keys 形状：(batch_size, “键-值”对个数, num_hiddens)

为了让它们能逐元素相加（广播机制），我们需要让它们的形状变成：

queries → (batch_size, 查询个数, 1, num_hiddens) （增加一个维度）
keys → (batch_size, 1, “键-值”对个数, num_hiddens) （增加一个维度）

这样，queries + keys 就能自动扩展成 (batch_size, 查询个数, “键-值”对个数, num_hiddens)，实现批量计算相似度！

📦 2. `unsqueeze()` 的具体操作

(1) `queries.unsqueeze(2)`

作用：在 queries 的第 2 个维度（从 0 开始数）插入一个长度为 1 的维度。
形状变化：
- 原始 queries：(batch_size, 查询个数, num_hiddens)
- queries.unsqueeze(2)：(batch_size, 查询个数, 1, num_hiddens)

小白比喻：

原本 queries 是一叠 平铺的纸片（3D）。
unsqueeze(2) 相当于在这叠纸片里偷偷塞了一层透明塑料膜（新增一个维度），变成 4D 纸片堆！

(2) `keys.unsqueeze(1)`

作用：在 keys 的第 1 个维度插入一个长度为 1 的维度。
形状变化：
- 原始 keys：(batch_size, “键-值”对个数, num_hiddens)
- keys.unsqueeze(1)：(batch_size, 1, “键-值”对个数, num_hiddens)

小白比喻：

原本 keys 是另一叠 平铺的纸片（3D）。
unsqueeze(1) 相当于在这叠纸片里横向插入一层透明塑料膜（新增一个维度），变成 4D 纸片堆！

🧙 3. 广播机制的魔法

现在：

queries.unsqueeze(2)：(batch_size, 查询个数, 1, num_hiddens)
keys.unsqueeze(1)：(batch_size, 1, “键-值”对个数, num_hiddens)

当它们相加时，PyTorch 会自动扩展维度，变成：

(batch_size, 查询个数, “键-值”对个数, num_hiddens)

效果：

每个查询（query）会自动和所有键（keys）计算相似度，无需写循环！

💡 4. 为什么不能直接 `queries + keys`？

如果直接相加：

queries 形状：(batch_size, 查询个数, num_hiddens)
keys 形状：(batch_size, “键-值”对个数, num_hiddens)

PyTorch 无法自动对齐，会报错！
必须用 unsqueeze() 让它们维度匹配，才能触发广播机制。

🎯 5. 总结（小白记忆口诀）

操作	作用	类比
`queries.unsqueeze(2)`	给查询纸片偷偷加一层夹层	从 3D → 4D，让查询能和所有键对齐
`keys.unsqueeze(1)`	给键纸片横向加一层夹层	从 3D → 4D，让键能和所有查询对齐
`queries + keys`	广播计算相似度	自动扩展维度，批量计算注意力分数

幽默总结：

unsqueeze() 就像给张量**"长高"，让它们能站在一起对齐**！
没有它，查询和键就像不同高度的积木，没法拼在一起；有了它，就能自动搭建注意力大厦！ 🏗️

这样，加性注意力就能高效计算查询和键的相似度啦！ ✨

大模型小白拆解站文章被收录于专栏

想和大模型零障碍对话？这里是你的入门急救站！从大模型到底是啥到训练时都在干啥，用大白话拆解技术原理；从参数是个啥到微调怎么玩，用生活案例讲透核心概念。拒绝枯燥公式，只有能听懂的干货和冷到爆的梗;帮你从大模型小白变身入门小能手，轻松get前沿AI知识！

全部评论

推荐最新楼层

07-16 14:32

门头沟学院 Java

大疆26届秋招在线测评经验贴

个人感觉偏难一共60道题，限时80分钟，全程需要开摄像头行测和性格测试混在一起，没有单独分开。比如上一道是性格测试下一道可能是语言理解也可能是图形推理也可能是计算第一题是性格测试里面有很多道题：大概12道二选一性格测试和两大道拖拉性格测试，然后第二道是图形四选一，第三道性格测试四选一，第四道计算，第五道语言理解...以此类推图形题不多，有一两个实在发现不了规律，瞎蒙了；计算题也不多，但是有几道计算偏复杂

投递大疆等公司7个岗位

点赞评论收藏

分享

07-16 18:58

海康威视_自动化开发工程师(准入职员工)

海康威视内推

岗位：武汉 嵌入式开发timeline：8.30 测评，10.9 一面，10.11 二面一面技术：自我介绍讲下实习经历平常怎么debug项目中有没有遇到什么问题，怎么解决的介绍一下学校经历了解数据结构吗？基本的数据结构？查找搜索效率？有什么方法可以提高效率？具体围绕数据结构问了很多RTOS，多任务操作反问：做存储固件的，具体的进来再分二面HR：北京线下，地点在北京研发中心，具体内容就是唠家常，一些HR面的基本问题销售工程师工作体验，总结累但成长很多。1.大家最先关注的就是HIK的工作压力，只能说体面厂没有辜负盛名！名不虚传！我来这边是销售岗，基本上每天都要差不多11点下班。因为销售不仅需要对接...

点赞评论收藏

分享

06-03 16:55

广州工商学院单片机

各位大佬，这个简历找实习都拒绝了，哪里有问题还是说哪里可以加强修改

码砖：求职岗位要突出，一眼就能看到，教育背景放到最后，学校经历没那么重要，项目要重点突出

点赞评论收藏

分享

06-21 17:53

华南师范大学 Java

26届找暑期实习，求大佬们指点

从3月份开始投，各种厂都试过了，要么面试没通过要么挂，没收到一份offer马上就要暑假了，求大佬们指点指点😭😭😭

BlitzIron：校园经历去了

点赞评论收藏

分享

07-16 13:53

苏州大学集成电路IC设计

月薪10K？在北上广深只能算"呼吸自由"！

说真的，月入1万在一线城市也就刚够喘口气！房租上来就给你一刀狠的——市中心合租个次卧？3000块没了；五环外整租个老破小？5000起步还得抢破头。再算上吃饭交通这些刚需：外卖顿顿30+，一月干掉2000块；地铁通勤挤成罐头，月卡又刷走400。还没等买件新衣服，工资卡已经快被掏空，直接享受"月光呼吸权"。想攒钱？得把生存模式调成"极限挑战"！深圳有人住城中村单间（月租700）、顿顿自己煮（月均1200），硬把开销压到4200，结果月底就剩10块钱喝奶茶。可这种日子过久了，朋友喊聚餐都不敢接话，生怕破防了钱包先破洞。

月薪多少能在一线城市生存

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 风评不好的公司，你会去吗？ #

37596次浏览 230人参与

# 假如你的老板掉河里，你的工作能为他做什么 #

31257次浏览 380人参与

# 第一份工作应该选高薪还是热爱？ #

72291次浏览 699人参与

# 职场新人体验 #

4148次浏览 55人参与

# 你觉得第一学历对求职有影响吗？ #

95743次浏览 675人参与

# 外包能不能当跳板？ #

38021次浏览 228人参与

# 你觉得早上几点上班合适？ #

73752次浏览 308人参与

# 学历贬值真的很严重吗？ #

26550次浏览 180人参与

# 推荐一首陪你工作的歌吧 #

15339次浏览 99人参与

# 秋招签约后的心态变化 #

84155次浏览 821人参与

# 双非能在秋招上岸吗？ #

223417次浏览 1180人参与

# 听劝，这个公司值得去吗 #

487848次浏览 1709人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

93528次浏览 692人参与

# 打工人的工作餐日常 #

55073次浏览 436人参与

# 反问环节如何提问 #

93853次浏览 1938人参与

# 大学最后一个寒假，我想…… #

47463次浏览 576人参与

# 面试被问第一学历差时该怎么回答 #

138042次浏览 853人参与

# 一人推荐一个值得去的通信/硬件公司 #

187235次浏览 1861人参与

# 月薪多少能在一线城市生存 #

37442次浏览 357人参与

# 机械制造秋招总结 #

54707次浏览 513人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务