Oppo 搜推凉经
无手撕,30min
很快的过了一下实习项目,开始八股拷打
1. 分桶的作用,离散化特征的好处
2. sigmoid 做激活函数的情况下,用交叉熵为什么比 mse 好
3. 注意力机制里为什么要用到 qkv 矩阵,从 qkv 各自的作用说了一下,但面试官说他想听到的是其实是用三个矩阵做线性变化,投到不同的子空间,增强表达
4.注意力的复杂度,有没有办法优化?说了下 lora,面试官说窗口注意力
5.transformer 的并行性
6.做过模型量化吗,讲一下你的理解
无反问,面试官说具体业务细节可以问二面面试官,结果今天查系统已挂