26秋招抖音推荐算法面经

1.实习介绍
2.问学校、为什么考研?
3.以后的职业发展?
4.神经网络初始参数能不能全设成0,为什么?只有一层的神经网络也不能吗?
5.写一下0、1分类问题的损失函数
6.为什么不能用MSE?手推MSE梯度计算回传
7.了解transformer吗?介绍一下
8.Encoder与decoder的中Attention区别?
9.Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?
10.为什么要用位置编码?为什么要用sin_cos?
11.介绍一下你做的最好的项目?项目的背景,动机? 你觉得哪里能进行优化?时间效率上?整体效果上?
12.code:
best_k,时间复杂度要求O(n), 空间复杂度能做到O(1)吗?
全部评论

相关推荐

一面/二面 压力都不大,只有一些八股值得参考:1.交叉熵损失的物理含义是什么?2.KL散度的本质是什么?3.用什么loss比较多?我说一般就mse,又通过focal loss,让我接着介绍,如何平衡正负样本。三面,我以为轻松了结果是最硬核的技术面,问了一堆八股,并且要求现写公式,不到最后都不能放松警惕啊:1.讲讲python的dict底层是怎么实现的?hash实现2.如何解决hash碰撞?说了个线性探测(其他真不记得了)3.C++的STL还熟悉吗?完全不会,3年没写了。4.好吧那不问了,flash-attention了解吗,讲讲原理?5.kv cache了解吗?6.Q要cache吗?7.讲讲常见的标准化,LayerNorm,RMSNorm?8.实际应用你觉得什么区别吗,现在哪个用的多?9.问了这么多才开始讲项目,等我讲完面试官直接总结,你的项目是在高维特征添加了一些low-level的视觉信息做work,现在有个开放的问题想问你:大模型的语料是有限的,但是搜推链路上token可能是无限的,比如可能一个蛋糕,每个用户的每一次蛋糕购买记录都是独立的,蛋糕1,2...100,你要如何解决?10.似乎我没理解对,追问不对不是这个意思,重新问:大模型的数据是非常多的,但是搜推的数据可能很高维度而且不多,比如用户看到图->点击右上角->再点到推荐购买->.......,整个特征链路非常长,这种数据量不像大模型训有非常丰富的语料,你如何解决这个训练问题?
查看14道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务