机器学习与数据挖掘-7
31.决策树模型用到的xgboost(腾讯)
参考答案
首先,介绍背景(包括项目背景+所用数据集特征+预设目标)。随后根据这个数据集的特征再结合xgb的优势,所以才用xgb(为什么要用xgb)。最后说明用了之后的效果,是否达成了预设目标/达成了其他的目标。
答案解析
需要结合简历上的项目来介绍,包括为什么要用以及用了之后的效果。
32.xgboost的特性(腾讯)
参考答案
1.梯度下降,利用损失函数的二阶导数作为学习目标,采用牛顿法进行优化。2.正则项,利用L2正则来防止过拟合。
3.树节点分裂方法,不是简单地按照样本个数进行分位,而是以二阶导数值作为权重。
4。shrinkage(收缩)方法,相当于学习系数eta。对每颗子树都要乘上该系数,防止过拟合。
33.为什么选择xgboost而不是其他(腾讯)
参考答案
介绍项目背景(主要是数据集特征),再说明xgb的优点(符合你的项目背景和数据集特征的优点),实在没有符合项目背景的优点可以直接介绍xgb与其他集成学习优势的地方(利用了损失函数的二阶导数,L2正则,缺失值处理等)来说明自己了解这个算法的优点。
34.xgboost的优点(腾讯)
参考答案
1.利用了损失函数的二阶导数,使得最终值逼近真实值。
2.out-of-core, cache-aware优化内存等方法来加速计算。
3.利用L2正则来防止过拟合。
4.shrinkage(收缩)方法,相当于学习系数eta。对每颗子树都要乘上该系数,防止过拟合。
5.缺失值处理:通过枚举所有缺失值在当前节点是进入左子树,还是进入右子树更优来决定一个处理缺失值默认的方向。
6.支持并行处理,提高了处理速度。
答案解析
选3-4个即可
35.xgboost常用的调参参数有哪些(腾讯)
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
数据分析面试宝典 文章被收录于专栏
本面试宝典均来自校招面试题目大数据进行的整理