抖音推荐算法三面面经
自我介绍
问学校、为什么考研?
以后的职业发展?
神经网络初始参数能不能全设成0,为什么?只有一层的神经网络也不能吗?
写一下0、1分类问题的损失函数
为什么不能用MSE?手推MSE梯度计算回传
了解transformer吗?介绍一下
Encoder与decoder的中Attention区别?
Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?
为什么要用位置编码?为什么要用sin_cos?
介绍一下你做的最好的项目?项目的背景,动机? 你觉得哪里能进行优化?时间效率上?整体效果上?
code:
best_k,时间复杂度要求O(n), 空间复杂度能做到O(1)吗?