牛客296377942号

2021-04-13 19:22 Java

关注

GBDT算法(Gradient Boosting Decision Tree）梯度提升树

引入梯度下降的思想

将每一个小树加在一起

函数空间的梯度下降

无论GBDT处理的是回归问题还是二分类问题还是多分类问题，GBDT使用的都是CART回归树，因为GBDT每次要拟合的是梯度值，是连续值所以要用回归树。

每颗回归树都是拟合负梯度，gbdt在应用于回归问题的时候，正好损失函数用的是mse的时候，拟合的就是残差（负梯度），使用残差作为标签去训练一棵新的树，

gbdt的loss函数如果是mse，则gbdt用来做回归问题，
不同的损失函数可以做不同的问题，但是损失函数必须是可导的。

shrinkage衰减系数，可以迭代训练更多的树，其实就是学习率，走的更稳健。

gbdt做二分类，拟合的也是残差，logistics regression逻辑回归

boosting是串行
多元线性回归
逻辑回归（LR）是做非线性变换，gbdt也是同样的思想，两者的loss都是交叉熵
图片说明

gbdt做二分类，model的使用，把新的样本放在每一棵小树里边，把每一棵小树进行加和，求得z，然后做非线性变换，得到预测值。
训练的时候才会用到求梯度。
如何训练model：
训练集数据带进model，得到预测值，做非线性变换然后与真实值比较得到loss，然后利用loss求得负梯度，再反向传播调节模型，反复这样迭代。
对于gbdt来说model是许多小树，加和。
对于LR来书model是θ

gbdt做回归的流程：
随机森林做回归，用的basemodel是每一棵树，有数据，对数据进行随机采样，得到不同的数据集，又放回的采样，不同的数据集可以得到不同的树，最终结果求平均。
用随机森林做分类，用的是gini系数，少数服从多数，进行投票
adaboost分类，用的是决策桩，不断地变化权重

gbdt做回归的流程：
根据x和第0时刻的残差训练第一课树，依次训练后边多棵树，每棵树不同之处在于残差（负梯度）。每次迭代，每次都是尽可能的将loss减少。
图片说明

gbdt做多分类；
model得出的是z，对z进行sigmod函数，进行非线性变换就可以做二分类。
假设数据服从多项式分布，每一次迭代要训练k个数，
gbdt做多分类，每一个决策树会给出一个预测结果，对应不同的one-hot编码，

gbdt做特征选择：
特征和特征值不是一回事，

逻辑回归就是线性的分类器，

做推荐的时候就是gbdt+LR这个算法。

gbdt做多分类时候，有几个类就需要训练几棵树，x数据相同，y不相同

要训练小树，根据什么生成树，要根据特征和特征值用mse，mse怎么算的呢？一个样本无法实现分类，训练集肯定有很多样本，
gbdt如果做分类，节点里边的是概率值的期望和概率值本身

图片说明
图中y1对应公式中的c1
y1为label的均值，label不是1就是0，只有这两种情况，c1则为label的均值，
用不同的特征维度的特征值训练树，会得到不同的叶子节点，根据叶子节点做总的mse，要最小才最好。得到最小的mse之后，这个特征维度对应的特征值就是最合适的分开点。

以mse为指标生成决策树，这个最小的mse就是经过训练之后训出的，利用了某个特征维度，里边的最合适的特征值，是一步步训练迭代出来的。

全部评论

推荐最新楼层

05-13 16:12

太原理工大学计算机类

26届，求拷打

点赞评论收藏

转发

写minkey的bug

05-13 11:03

已编辑

门头沟学院电子信息类

帮帮Java菜鸡选选offer吧

Java菜鸡暑期实习目前只拿了两个还行的offer，大厂全挂啦，求大佬给点建议。1、众安国际hr面的时候说是核心业务核心部门，是国际里面的PROD & TECH，具体不知道是不是真的，面试官有提到是写通用中间件的，已发了offer，Java后端开发。2、腾讯云智要转Golang，部门好像叫 边缘产品中心，业务和CDN相关的好像，目前hr面完，学长说挺稳的ball ball 各各位位大大佬佬给给点点建建议议

投递众安保险等公司10个岗位 >

点赞评论收藏

转发

04-05 13:38

重庆邮电大学计算机类

25实习，求解答

个人情况，两个项目分别是，黑马点评和苍穹外卖，目前还未背八股，只投了一两家，目标小厂就行，请问这样够找小厂吗，我还需要准备什么，麻烦牛友们提出宝贵意见，十分感激

点赞评论收藏

转发

昨天 00:23

西安电子科技大学计算机类

拼多多主管面

面了一小时，没手撕，感觉面试官也挺好的，5.9面的，已经约了16号hr面自我介绍介绍完之后，因为我简历没写实验室项目，他问我研究生方向和研究生做了什么项目；我就介绍了一下给研究所做的项目，说了项目背景、难点、技术选型、技术选型的考虑、开发过程、结果。研究所项目项目在做的时候的难点是什么？怎么解决的？怎么去解决问题的？你的思维过程，试错的过程是怎么样的？有没有去改源码来解决问题？这个项目时间比较紧，你是怎么解决这个时间的问题的？你自己会加班做么？强度多大（跟我说工作的话，时间12、13小时还是正常的，我有点懵逼了）？问我如果实习的话能接受这个时间么（他们希望实习生也是这样的，如果要留的话）？你怎...

点赞评论收藏

转发

点赞收藏评论

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

728076次浏览 11713人参与

# 非技术岗是怎么找实习的 #

74595次浏览 1397人参与

# 海康威视求职进展汇总 #

91449次浏览 1091人参与

# 浅聊一下我实习的辛苦费 #

81487次浏览 761人参与

# 如何写一份好简历 #

262836次浏览 3963人参与

# 硬件人求职现状 #

184792次浏览 2707人参与

# 通信硬件人笔面经互助 #

111503次浏览 2253人参与

# 面试等了一周没回复，还有戏吗 #

40557次浏览 500人参与

# 机械制造面试记录 #

37583次浏览 505人参与

# 24届营销人拿到了几个offer #

4234次浏览 62人参与

# 铜五铁六真的存在吗？ #

28222次浏览 298人参与

# 实习生应该准时下班吗 #

76771次浏览 569人参与

# 打工人的辛酸 #

8604次浏览 134人参与

# 运营人的第一份offer应该如何选 #

35266次浏览 642人参与

# 美的求职进展汇总 #

38898次浏览 418人参与

# 如何看待offer收割机的行为 #

223946次浏览 3254人参与

# 产品实习，你更倾向大公司or小公司 #

36424次浏览 558人参与

# 数据人offer决赛圈怎么选 #

44765次浏览 727人参与

# 实习与准备秋招该如何平衡 #

171709次浏览 3108人参与

# 通信硬件薪资爆料 #

200455次浏览 1819人参与

牛客网
牛客企业服务