滴滴算法面经一面

reward迭代的意义和收益(项目相关)买卖股票的最佳时机

一面感觉一直在聊项目没什么通用的二面:

一场八股纯享我还没介绍完我的第一个项目面试官0帧起手开始拷打八股

了解哪些掩码和attention

self attention和cross attention分别介绍

有什么异同transformer的encoder和decoder都用了什么

介绍一下batchnorm训练预测有什么不同

为什么预测要用全局的均值方差

数据预处理的归一化可以替代batchnorm吗为什么 transform用bn了吗 bn和In有什么不同

transformer为什么用In

实习或者学校中常用的模型是什么详细介绍一下 transformer如何刻画时序

介绍一下你了解的位置编码各自优缺点

代码题太长了就是类似一个有规则的序列找最大值

全部评论

相关推荐

查看20道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务