移动研究院面经
自我介绍
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。
反问。
部门以及团队情况。
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。
反问。
部门以及团队情况。
全部评论
大佬你是啥岗位,一面吗
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
10-22 12:03
山东大学 Java
程序员小白条:26届一般都得有实习,项目可以随便写的,如果不是开源社区的项目,随便包装,技术栈也是一样,所以本质应该找学历厂,多投投央国企和银行,技术要求稍微低一点的,或者国企控股那种,纯互联网一般都得要干活 点赞 评论 收藏
分享
点赞 评论 收藏
分享