rf和gbdt基分类器区别,里面的决策树分别长啥样,怎么剪枝
模型 | RF | 传统GBDT | XGBoost |
基分类器 | 分类树、回归树 | 回归树,但也可以解决分类问题(设置阈值) | 回归树、线性分类器(LR)、线性回归 |
节点分裂的方式 | ID3用信息增益,C4.5用信息增益率,CART分类用基尼指数,CART回归用选择最优切分特征和值对(j,s) | 选择最优切分特征和值对(j,s) | 优化推导,详见附注 |
cost函数 | - | 只用到一阶导数信息(梯度) | 代价函数加入正则项(树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和),且同时用到了一阶g和二阶导数h |
行采样与列采样 | 自采样(样本随机)和属性随机(每个节点都会随机选择一些特征),详见附注 | - | 支持行采样、列采样 |
集成方法 | bagging | boosting | boosting |
并行化处理 | 树并行生成 | 树串行生成 | 树串行生成,特征粒度上的并行,各个特征的增益计算可以开多线程进行 |
附注:
(2)RF的列采样