小红书社区推荐算法实习一面

一面:
1.科研项目(知识图谱):具体是怎么实现的,前沿模型现在都在用什么网络?你的网络具体怎么做的?延伸出来几个分问题:
(1)KL散度和CE的区别?不考虑loss,只看结果评价指标用哪个有影响吗?
(2)解释一下MRR,HIt@k,nDCG指标是什么
2.由科研项目问到了Transformer,接下来拷打了一个小时Transformer:
(1)跟RNN的区别在哪里?理论上的区别,在实际计算上的区别?
(2)位置embedding用什么方法实现的?除了基础方法你还听过哪些方法?
(3)多头和单头的区别在哪里?
(4)为什么softmax前要除以根号d?为什么是根号d不是别的数?在这个问题上我们的基础假设是每个值服从标准正态分布,还是只要均值0方差1即
可?为什么?
(5)如果我现在不除以根号d,想一想换一种方法怎么处理QKT的结果来避免上一问中提到的问题?
(6)对layer Norm和Batch Norm的理解
(7)Encode和Decoder部分的区别是什么?
3.手撕代码。给一个浮点数开平方保留k位小数的结果。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务