rf和gbdt基分类器区别，里面的决策树分别长啥样，怎么剪枝

[问答题]

查看答案及解析

jujujizi

仅供参考。

模型	RF	传统GBDT	XGBoost
基分类器	分类树、回归树	回归树，但也可以解决分类问题（设置阈值）	回归树、线性分类器（LR）、线性回归
节点分裂的方式	ID3用信息增益，C4.5用信息增益率，CART分类用基尼指数，CART回归用选择最优切分特征和值对(j,s)	选择最优切分特征和值对(j,s)	优化推导，详见附注
cost函数	-	只用到一阶导数信息（梯度）	代价函数加入正则项（树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和），且同时用到了一阶g和二阶导数h
行采样与列采样	自采样（样本随机）和属性随机（每个节点都会随机选择一些特征），详见附注	-	支持行采样、列采样
集成方法	bagging	boosting	boosting
并行化处理	树并行生成	树串行生成	树串行生成，特征粒度上的并行，各个特征的增益计算可以开多线程进行

附注：

（1）xgboost的节点分裂方式

（2）RF的列采样

该图是random forest算法建立一棵树的伪代码。第一行表示创造一个新节点。第5行表示随机选取一些特征。之后在10-11行表示递归创造该节点的左右子节点，于是每个子节点又会随机选取不同的特征。注意：不是每棵树选相同的子特征，也不是每棵树随机选不同的子特征，而是每个节点都会随机选择一些特征。根据经验，这个选择子特征的个数的经验值一般是原特征个数的平方根（分类问题）或原特征个数的三分之一（回归问题)。