24春招小红书机器学习算法工程师
全程25分钟
手撕:lc5 只需要输出长度,中心扩展秒了
项目
Transformer中缩放点击注意力为什么要除以根号下dk(这个问题被问到好多次了,给出了原文解释)
为什么值是根号下dk而不是dk,dk的2/3次方等?(这里李沐的动手学深度学习给出了一个解释:假设查询和键的所有元素都是独立的随机变量,并且都满足零均值和单位方差,那么两个向量的点积的均值为0,方差为d。为确保无论向量长度如何,点积的方差在不考虑向量长度的情况下仍然是1,我们再将点积除以根号下dk)
反问:业务,没有相关背景是不是劣势(是的,谈到一般会去实习,可是中科院不让实习
)
面完五分钟就感谢信了,问的都答出来了,没有相关背景、实习经历还是不行。
手撕:lc5 只需要输出长度,中心扩展秒了
项目
Transformer中缩放点击注意力为什么要除以根号下dk(这个问题被问到好多次了,给出了原文解释)
为什么值是根号下dk而不是dk,dk的2/3次方等?(这里李沐的动手学深度学习给出了一个解释:假设查询和键的所有元素都是独立的随机变量,并且都满足零均值和单位方差,那么两个向量的点积的均值为0,方差为d。为确保无论向量长度如何,点积的方差在不考虑向量长度的情况下仍然是1,我们再将点积除以根号下dk)
反问:业务,没有相关背景是不是劣势(是的,谈到一般会去实习,可是中科院不让实习
面完五分钟就感谢信了,问的都答出来了,没有相关背景、实习经历还是不行。
全部评论
这种不想要还捞真的恶心。
没有相关背景、实习经历还是不行。校招现在都要实习经验这么匹配了嘛,要求好高啊。。
相关推荐
程序员小白条:还是那句话,实习不懂就问,饭搭子这玩意看人的,实习生要是就一个,那你咋整,有些东西非必要,实习主要看自己适应能力,否则正式了,你更适应不过来,毕竟上班和上学可不一样
点赞 评论 收藏
分享
要发财的coder很...:快手内推是诈骗,骗钱你改简历呢

点赞 评论 收藏
分享