2018秋招算法面经记录贴

cvte 一面直接凉

自我介绍

本科研究生都做了什么

偏医疗软硬件方向的为什么要做数据挖掘
介绍实习项目具体怎么做，设置abtest怎么搞的，看什么指标，有没有统计过显著性
比赛项目里负责什么
让我在他的电脑上写python代码，给了一个数据集让计算一下特征相关性，我直接pandas读进去numpy调一个corroef函数就可以计算了，现场notebook可以跑一下（里面有个click_button字段，里面写的数值，1，2，3这种，他问我这字段的值应该是连续的还是离散的，我一开始想着看意思应该是哪个按钮吧，但是又觉得这也太弱智了，都写在上面了还用来问你？我就回答了个应该是连续的？然后他居然跟我说意思都写在上面了，这就是点击的哪个按钮。我心里真是卧槽了）
对于连续的数据是这样算，离散的数据怎么计算相关性
xgboost比其他模型好的原因是什么

xgb和lgb的主要不同点在什么地方

他们在构建树的时候相同吗

gbdt 和 adaboost的区别

adaboost更新权重是在哪一步（太久没看，也有些忘了）

讲一下rf训练的过程是怎样的
行采样和特征采样是怎样的
行采样的时候会有多少被采样过的数据进入到下一轮被采到，比如1000个样本过采样10000次，有多少的已采样过的数据在下一轮会被采到（貌似是这样的，这个问题迷迷糊糊的），我说了一个百分之六十多那个，他问我怎么算的，我的确忘记怎么算了。。。只有个印象。
rf特征采样时有几个固定的参数可以选，是哪几个（我印象中就一个可以设置的比例。。。忘记了有什么）回来之后查了一下还有下面几个

max_features: 选择最适属性时划分的特征不能超过此值。

当为整数时，即最大特征数；当为小数时，训练集特征数*小数；
if “auto”, then max_features=sqrt(n_features).
If “sqrt”, thenmax_features=sqrt(n_features).
If “log2”, thenmax_features=log2(n_features).
If None, then max_features=n_features.

最后纸上写一下常用的对付过拟合和欠拟合的手段（我说了几个常用的策略，增大训练集，换模型，加特征之类的，他后面还提醒我忘记说l1,l2了，我总是觉得这些太基础的东西不用怎么强调吧，看来还是得尽量答全一点，不然他以为你真不知道这个，迷），还问了深度学习里面是怎么解决这个问题的。

然后就问我还有什么要问他的

面试结束，直接说有车送我离开。

这是秋招第一面，太久没复习了，之前以为在实习单位可以稳稳留下，结果到了offer待报批后面居然直接报批流程放弃，吓得我赶紧到处投简历，完美错过所有内推，实习的时候也一点都没看书，面试的前一天刚看了点书推了一下svm就来面试了，的确很多知识忘记了。

上面带括号的我都回答得不是很满意吧，所以就凉了，也情有可原，菜，是原罪。

总结一下就是感觉的确自己有些细节忘记了，不过很多都是我没怎么用到的，比如rf那个，用得比较少，他还问我有几种固定的采样比例，我是真的服气，面试官比较注意细节吧，很多平时看书都不怎么在意的东西都被他问到了，认认真真再刷两遍书还是很有必要的。

以后有面经也会记录在这里，也算是一份小小的贡献了。

另，求求老天爷给我个ofo，讨生活太艰难了。（这几天平均每天1.5场笔试，今天还在地铁站做了yy的笔试，回来又被百度的变态笔试题虐惨了，心力交瘁，明天小红书笔试，后天腾讯和网易笔试，妈耶。。。）

#广州视源电子科技股份有限公司##数据挖掘##秋招##面经#