SHEIN数据挖掘面经

因为投递的比较早吧,两次面试我都忘了投递的简历跟我当前自我介绍的简历不一样,难受...)

  • 一面30分钟
  1. 自我介绍。
  2. GBDT算法原理;xgboost与其有什么区别。
  3. 不平衡样本的处理方法;怎么从一万个候选中选出定量。(rf输出概率)
  4. 召回策略;怎么做embedding。
  5. 过拟合欠拟合。
  6. AUC的意义。
  7. 怎么做模型融合。
  8. sql题。考察两表连接。

  • 二面30分钟

1.自我介绍。
2.逻辑回归和线性回归的联系和区别。
线性回归和逻辑回归都是广义线性回归模型的特例
线性回归只能用于回归问题,逻辑回归用于分类问题(可由二分类推广至多分类)
线性回归无联系函数或不起作用,逻辑回归的联系函数是对数几率函数,属于Sigmoid函数
线性回归使用最小二乘法作为参数估计方法,逻辑回归使用极大似然法作为参数估计方法
3.讲一下cart回归树;和分类树的区别,分裂方式有什么不同。
图片说明
4.梯度消失产生的原因(网络太深;激活函数选择不当,如sigmoid);为何选用sigmoid,会导致梯度消失(因为在x趋向无穷大的时候,其导数趋向于零,链式求导时会导致梯度消失);为何链式求导时,导数为0会梯度消失。
梯度消失是因为反向传播过程中对梯度的求解会产生sigmoid导数和参数的连乘,sigmoid导数的最大值为0.25,权重一般初始都在0,1之间,乘积小于1,多层的话就会有多个小于1的值连乘,导致靠近输入层的梯度几乎为0,得不到更新。梯度爆炸是也是同样的原因,只是如果初始权重大于1,或者更大一些,多个大于1的值连乘,将会很大或溢出,导致梯度更新过大,模型无法收敛。
5.讲一下deepFM模型;<vi,vj>,可以理解为DeepFM结构中计算embedding vector的权矩阵;FM部分的时间复杂度O(kn),n是特征数、k是隐向量维度。
6.讲一下knn的算法;有什么优化方法。
KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。
优化:第一KNN只关心哪类样本的数量最多,而不去把距离远近考虑在内,因此可以采用权值的方法来改进。和该样本距离小的邻居权值大,和该样本距离大的邻居权值则相对较小,由此,将距离远近的因素也考虑在内,避免因一个样本过大导致误判的情况;第二,构造kd树,树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。
7.讲一个做的最深入的项目。
8.评估指标为什么要采用RMSE,指的是什么。
MSE 公式有一个问题是会改变量纲。因为公式平方了,比如说 y 值的单位是万元,MSE 计算出来的是万元的平方,对于这个值难以解释它的含义。所以为了消除量纲的影响,我们可以对这个MSE 开方,得到的结果就第二个评价指标:均方根误差 RMSE。

全部评论
老哥oc了吗
点赞
送花
回复
分享
发布于 2021-10-18 07:44

相关推荐

点赞 评论 收藏
转发
5 35 评论
分享
牛客网
牛客企业服务