Oppo 搜推凉经

无手撕,30min

很快的过了一下实习项目,开始八股拷打

1. 分桶的作用,离散化特征的好处

2. sigmoid 做激活函数的情况下,用交叉熵为什么比 mse 好

3. 注意力机制里为什么要用到 qkv 矩阵,从 qkv 各自的作用说了一下,但面试官说他想听到的是其实是用三个矩阵做线性变化,投到不同的子空间,增强表达

4.注意力的复杂度,有没有办法优化?说了下 lora,面试官说窗口注意力

5.transformer 的并行性

6.做过模型量化吗,讲一下你的理解

无反问,面试官说具体业务细节可以问二面面试官,结果今天查系统已挂

全部评论

相关推荐

09-19 12:15
门头沟学院 Java
迷茫的大四🐶:这下是真的打牌了,我可以用感谢信和佬一起打牌吗
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务