抖音推荐算法三面面经

自我介绍

问学校、为什么考研?

以后的职业发展?

神经网络初始参数能不能全设成0,为什么?只有一层的神经网络也不能吗?

写一下0、1分类问题的损失函数

为什么不能用MSE?手推MSE梯度计算回传

了解transformer吗?介绍一下

Encoder与decoder的中Attention区别?

Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?

为什么要用位置编码?为什么要用sin_cos?

介绍一下你做的最好的项目?项目的背景,动机? 你觉得哪里能进行优化?时间效率上?整体效果上?

code:

best_k,时间复杂度要求O(n), 空间复杂度能做到O(1)吗?

全部评论
aml吗,感觉问的有点像
点赞 回复 分享
发布于 09-29 11:38 河北

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务