SHEIN数据挖掘面经

因为投递的比较早吧，两次面试我都忘了投递的简历跟我当前自我介绍的简历不一样，难受...）

一面30分钟

自我介绍。
GBDT算法原理；xgboost与其有什么区别。
不平衡样本的处理方法；怎么从一万个候选中选出定量。（rf输出概率）
召回策略；怎么做embedding。
过拟合欠拟合。
AUC的意义。
怎么做模型融合。
sql题。考察两表连接。

二面30分钟

1.自我介绍。
2.逻辑回归和线性回归的联系和区别。
线性回归和逻辑回归都是广义线性回归模型的特例
线性回归只能用于回归问题，逻辑回归用于分类问题（可由二分类推广至多分类）
线性回归无联系函数或不起作用，逻辑回归的联系函数是对数几率函数，属于Sigmoid函数
线性回归使用最小二乘法作为参数估计方法，逻辑回归使用极大似然法作为参数估计方法
3.讲一下cart回归树；和分类树的区别，分裂方式有什么不同。
图片说明
4.梯度消失产生的原因（网络太深；激活函数选择不当，如sigmoid）；为何选用sigmoid，会导致梯度消失（因为在x趋向无穷大的时候，其导数趋向于零，链式求导时会导致梯度消失）；为何链式求导时，导数为0会梯度消失。
梯度消失是因为反向传播过程中对梯度的求解会产生sigmoid导数和参数的连乘，sigmoid导数的最大值为0.25，权重一般初始都在0，1之间，乘积小于1，多层的话就会有多个小于1的值连乘，导致靠近输入层的梯度几乎为0，得不到更新。梯度爆炸是也是同样的原因，只是如果初始权重大于1，或者更大一些，多个大于1的值连乘，将会很大或溢出，导致梯度更新过大，模型无法收敛。
5.讲一下deepFM模型；<vi,vj>，可以理解为DeepFM结构中计算embedding vector的权矩阵；FM部分的时间复杂度O(kn)，n是特征数、k是隐向量维度。
6.讲一下knn的算法；有什么优化方法。
KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。
优化：第一KNN只关心哪类样本的数量最多，而不去把距离远近考虑在内，因此可以采用权值的方法来改进。和该样本距离小的邻居权值大，和该样本距离大的邻居权值则相对较小，由此，将距离远近的因素也考虑在内，避免因一个样本过大导致误判的情况；第二，构造kd树，树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。
7.讲一个做的最深入的项目。
8.评估指标为什么要采用RMSE，指的是什么。
MSE 公式有一个问题是会改变量纲。因为公式平方了，比如说 y 值的单位是万元，MSE 计算出来的是万元的平方，对于这个值难以解释它的含义。所以为了消除量纲的影响，我们可以对这个MSE 开方，得到的结果就第二个评价指标：均方根误差 RMSE。

SHEIN数据挖掘面经

全站热榜