面试题
深度学习基础
1.为什么使用多头注意力机制?
2.Transformers中positional embedding为什么要使用sin,cos设计,可以直接用1到512代替吗?
3.介绍一下dropout和normalization以及他们在训练和预测时的区别,如何解决batch normalization在训练和预测时统计量不一致的问题?
4.L1正则化与L2正则化的区别?
5.反向传播递推式
6、self-attention的Q·K如果不除以根号d_k而是除以最大值怎么样?
7、现在有一万亿个矩阵相乘,使用python运算那么应该使用线程还是使用进程?
8、电脑是怎么把代码转换成可执行程序的,比如python?
9、skipgram?
10、selft attention是有resnet的结构的,现在有不同流派一个是加在LN层后一个是加在前面,各有什么优势之类的?
11、什么时候用GPT什么时候用bert?
12、用Pytorch实现一下BN层?
13、BN和Dropout一起用的时候会出现什么问题?
14、多少种排序算法,哪些是O(n)的复杂度,哪些是O(logn)的复杂度?
15、K-means和GMM原理,两个有什么联系和区别?
16、进程/线程/协程区别。python的GIL机制了解吗?讲一讲为什么有GIL,有什么坏处,怎么解决?
17、问了RNN的原理;LSTM的原理;除了LSTM还知道哪些gate RNN;写一下LSTM的公式,gate是怎么样的?
18、条件概率题:讲的是扔硬币,m个假硬币只有正面,n个真硬币有正面有反面。现在挑了一个硬币,扔了r次硬币全都是正面,问这个硬币是真硬币的概率。(需要在那个面试系统里面边写边讲)
19、resnet的思想?
20、relu的公式,relu在0的位置可导吗,不可导怎么处理?ReLU可不可导,怎么反向传播?
21、Transformer可以用在视觉任务吗,怎么用的,是用BN还是LN?
22、attention和全连接层的区别是啥?
23、神经网络有哪些初始化的方法、为什么要初始化?
24、详细介绍机器翻译和Transformer?
26、深挖打过的比赛,有了解过top方案吗,和你的差别在哪里?
27、LightGBM和xgboost的区别,LightGBM怎么调参?
28、逻辑回归损失函数推导;逐步回归是怎么做的?
29、LSTM推导,RNN梯度问题证明,比较这两个的优劣?
30、优化器介绍,知道什么前沿的优化器么,adam有什么问题该怎么改进?
31、 SVM相关,怎么理解SVM,对偶问题怎么来的,核函数是怎么回事?
32、集成学习的方式,随机森林讲一下,boost讲一下,XGBOOST是怎么回事讲一下?
33、关于样本不平衡都有什么方法处理,如果样本极其不平衡,几乎都是正样本,该怎么办?
34、问kmeans的原理和时间复杂度?
35、常见的排序算法以及时间复杂度?
36、word2vec为什么用哈夫曼树编码,还可以用什么编码?
37、decoder的mask层是如何设计的?
38、欠拟合怎么处理?
39、dropout、normalazation、激活函数的先后顺序?
40、交叉熵伪代码?
41、AUC是什么? ROC横纵坐标的含义? PR曲线下的面积代表什么意思?
42、序列特征怎么处理/怎么用?
43、为什么 Bert 的三个 Embedding 可以进行相加?
44、权重初始化为相同值会怎么样?
45、CNN卷积核中权重怎么更新?
46、BN公式,怎么解决梯度爆炸的?正则化如何解决梯度爆炸?
算法题
1、走楼梯(N阶楼梯一次1步或者2步,走完多少种方法,LC简单题),就是简单的动态规划。但是他会追问,如何优化空间(两个变量);如何优化时间(快速幂乘法)?
2、最长公共子序列
3、手撕交叉熵损失 输入:logits(N×C)、GT(N×C), 输出:损失值 要求只能使用numpy
4、手撕卷积 输入:特征图(C×H 1×W 1),卷积核(C×K×K×O),步长(S),padding(P) 输出:卷积后的特征图(O×H 2×W 2) 要求:实现整个计算过程,只能用numpy
5、手写实现堆、归并排序?
6、BatchNorm的代码实现?
7、用pytorch实现多头注意力机制?
python
1、多进程和多线程;python迭代器和生成器;
HR
1、你不是计算机专业的,那你的优势是什么
2、觉得自己的优势在哪里?
其他
1、docker镜像和容器的区别,问了些docker命令
2、一根绳子分三段能组成三角形的概率?