我之前投锐明的感知实习,然后问我self attention里面的公式,然后问我为什么qxk的转置是算两个的相似度,还有问我为啥除的是根号d而不是两个模的乘积

相关推荐

不愿透露姓名的神秘牛友
12-05 20:41
中科光电 fpga研究员 29x13 硕士985
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务