首页 > 试题广场 >

比较LR和GBDT,什么情景下GBDT不如LR

[问答题]

比较LRGBDT,什么情景下GBDT不如LR

1.比较LR和GBDT:
(1) LR是一种线性模型,而GBDT是一种非线性的树模型,因此通常为了增强模型的非线性表达能力,使用LR模型之前会有非常繁重的特征工程任务;
(2) LR是单模,而GBDT是集成模型,通常来说,在数据低噪的情况下,GBDT的效果都会优于LR;
(3) LR采用梯度下降方法进行训练,需要对特征进行归一化操作,而GBDT在训练的过程中基于gini系数选择特征,计算最优的特征值切分点,可以不用做特征归一化。
2.GBDT不如LR的地方:
一方面,当需要对模型进行解释的时候,GBDT显然会比LR更加“黑盒”,因为我们不可能去解释每一棵树。相比之下,LR的特征权重能够很直观地反映出特征对不同类样本的贡献程度,也正因为如此好理解,很多时候我们可以根据LR模型得到的分析结论做出更有说服力的营销和运营策略;
另一方面,LR模型的大规模并行训练已经非常成熟,模型迭代速度很快,业务人员可以很快得到模型的反馈,并对模型进行针对性的修正。而GBDT这样的串行集成方式让它的并行十分困难,在大数据规模下训练速度十分缓慢;
最后,对于高维的稀疏数据,GBDT往往很容易过拟合,将这些无用信息学习到模型,得到很深的树;而LR这样的线性模型可以通过加入正则化,来对特征进行筛选,降低弱特征的权重(L2正则)甚至过滤掉弱特征(L1正则),从而削弱模型的复杂度,防止过拟合。
编辑于 2021-02-25 11:30:43 回复(0)
LR是线性模型,模型简单,可解释性强,对异常特征不敏感
GBDT是非线性模型,属于集成学习中的boosting方法,基学习器是树模型,且树模型间相互依赖,无法并行训练,其特征组合和表达能力更强,且更容易过拟合

高维稀疏特征时,LR会比GBDT更好,因为LR加正则化不容易过拟合,而GBDT在高维稀疏特征下会生成很深的树,容易过拟合。
发表于 2021-02-04 12:17:58 回复(0)
<p>模样</p>
发表于 2021-01-17 23:38:24 回复(0)