我之前投锐明的感知实习,然后问我self attention里面的公式,然后问我为什么qxk的转置是算两个的相似度,还有问我为啥除的是根号d而不是两个模的乘积

相关推荐

牛客网
牛客企业服务