算法面经:Transformer为什么要除以根号d?
🤔 这道题是经典中的经典,超容易被问到,如果答不出来是很减分的!作者参加过的暑期实习和秋招的面试中这道题考了得有7次以上了(大多数为一面考察的)。每当面试官问到Transformer相关的八股,这道题几乎是必问的。
📖 此题的答案是:由于Query和Key的点积操作使得结果方差变大d倍,导致模型容易出现梯度消失现象,因此需要除以根号d减小方差,避免梯度消失问题。详细的分析如图1所示。
📈 图3和图4为验证不除以根号d会导致的注意力分数靠近0或1现象的代码。图2为结果。
#秋招# #算法岗面经# #深度学习# #大模型#
📖 此题的答案是:由于Query和Key的点积操作使得结果方差变大d倍,导致模型容易出现梯度消失现象,因此需要除以根号d减小方差,避免梯度消失问题。详细的分析如图1所示。
📈 图3和图4为验证不除以根号d会导致的注意力分数靠近0或1现象的代码。图2为结果。
#秋招# #算法岗面经# #深度学习# #大模型#
全部评论
字节内推码自取:JNFKRHG
{"pureText":"","imgs":[{"height":"3114.0","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010167/ADD3F44118F4B21385C0EAB938AEC4A7","alt":"9CYT3oIpeRxHUANAna05rws3292acKUn.jpg","width":"1440.0"},{"alt":"QJ0w27ez2edaSDeNYy62i4ny6apa6S2c.jpg","width":"1440.0","height":"3114.0","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010138/8BC90C8380BB34B279156DBCC3A5FAB6"},{"width":"1440.0","height":"2511.0","alt":"dq56P4NSXKiACTGQdHpfCYwY3OZ985St.jpg","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010090/B98A43F45E24A992B5B6804C7D8ED653"}]}
相关推荐
05-05 12:57
门头沟学院 前端工程师
记着呢:说的很对,已经工作近7年,就是觉得年轻的时候太多忧虑,没有好好玩一玩,虽然现在我也是很多忧心事,但是真的感觉年轻的时光才是最宝贵的,玩的开心,做自己喜欢的事,全力以赴,这才是应该做的 点赞 评论 收藏
分享
点赞 评论 收藏
分享
03-22 16:43
西北工业大学 Java
钱嘛数字而已: 点赞 评论 收藏
分享