算法面经:Transformer为什么要除以根号d?
🤔 这道题是经典中的经典,超容易被问到,如果答不出来是很减分的!作者参加过的暑期实习和秋招的面试中这道题考了得有7次以上了(大多数为一面考察的)。每当面试官问到Transformer相关的八股,这道题几乎是必问的。
📖 此题的答案是:由于Query和Key的点积操作使得结果方差变大d倍,导致模型容易出现梯度消失现象,因此需要除以根号d减小方差,避免梯度消失问题。详细的分析如图1所示。
📈 图3和图4为验证不除以根号d会导致的注意力分数靠近0或1现象的代码。图2为结果。
#秋招# #算法岗面经# #深度学习# #大模型#
📖 此题的答案是:由于Query和Key的点积操作使得结果方差变大d倍,导致模型容易出现梯度消失现象,因此需要除以根号d减小方差,避免梯度消失问题。详细的分析如图1所示。
📈 图3和图4为验证不除以根号d会导致的注意力分数靠近0或1现象的代码。图2为结果。
#秋招# #算法岗面经# #深度学习# #大模型#
全部评论
{"pureText":"","imgs":[{"height":"3114.0","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010167/ADD3F44118F4B21385C0EAB938AEC4A7","alt":"9CYT3oIpeRxHUANAna05rws3292acKUn.jpg","width":"1440.0"},{"alt":"QJ0w27ez2edaSDeNYy62i4ny6apa6S2c.jpg","width":"1440.0","height":"3114.0","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010138/8BC90C8380BB34B279156DBCC3A5FAB6"},{"width":"1440.0","height":"2511.0","alt":"dq56P4NSXKiACTGQdHpfCYwY3OZ985St.jpg","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010090/B98A43F45E24A992B5B6804C7D8ED653"}]}
相关推荐