渣渣春招实习数据挖掘,数据分析,算法岗面经
渣渣春招实习数据挖掘,数据分析,算法岗面经
腾讯:数据分析,被推到微信部门,一面挂
1、异常数据处理(假设年龄和性别缺失,应该怎么处理)
2、独立和不相关的区别
3、T分布
4、几种距离度量公式
5、knn原理,如何做回归,如何做多分类
6、k-means,如何选取最佳k值
7、spark数据倾斜
8、mapreduce对数据实现从大到小排序
9、给你一个比较急的项目,如何安排,如何规划直至如期完成?(考验抗压能力)
海康,算法岗,一面挂
1、数据挖掘的流程,你最熟悉那个流程(我选的特征工程)
2、算法层面讲一下为什么用LabelEncoder编码之后比较好
3、一个离散属性,有三个类别,离散之后训练,这时候如果来个测试集,新来了3个类别,如何做?
4、xgboost如何防止过拟合?如何输出概率?算法上怎么输出概率的?
5、海量数据寻找Topk
6、sql语句,子查询,具体忘了
7、xgboost gblinear和gbtree的区别
8、xgboost min_child_weight为什么可以防止过拟合?
9、特征选择分为几种,优缺点
10、特征有几种编码方式?优缺点
11、特征选择选出来的特征是全局最优解吗?为什么?
12、样本不平衡对什么评价指标不影响?为什么
13、模型上线了解吗?
小米:总共三面,数据挖掘岗(已发offer)
一面:
1、hdfs和别的数据库的区别,hdfs的特点
2、mapreduce详细原理
3、Hivesql内置函数
4、xgboost欠拟合如何解决?
5、拉格朗日因子的作用
6、svm的损失函数(让我说公式)
7、讲一下项目,创新点
8、java后台有没有了解?
9、写过spark没有?spark原理
10、ID3,c4.5,cart的区别
二面:经理面,简历,项目
没有问原理性的东西,都是问一下项目流程,从中学到了什么等等问题。
三面:
1、链表逆置
2、scala写代码
地平线:数据挖掘,二面(等通知)
一面:mr手写topk,项目流程,为什么这么做等等问题
二面:继续怼项目,两个sql问题,链表去重,折半查找原理
简历投了好多,由于是菜鸡,所以给面试机会的公司寥寥无几,目前阿里还在等电话,华为4月9号现场面
#阿里巴巴##腾讯##小米##华为##数据挖掘##实习##算法工程师#