首先,集成学习分为两大类,bagging和boosting。bagging用于解决过拟合问题,是一种将基分类器并行训练然后通过投票或者取均值的方式求得最终结果,而boosting用于解决欠拟合问题,是一种串行训练方式,每次训练都是基于上一次基分类器的输出与标签的残差而进行的。
那么,为什么说bagging可以解决过拟合问题?而boosting用于解决欠拟合问题?bagging的思想是通过有放回选取数据构成数据集,然后在该数据集上每次训练一个基分类器,最终将各个基分类的结果根据少数服从多数的原则得到投票一半以上的结果。假设某个样本被判错的概率一定,各个基分类器是独立的,因此被所有基分类器都判错的概率会随着基分类的数目增加而指数的减小,所以bagging可以防止过拟合,减少模型的方差。boosting是串行训练,每次都是根据上一个基分类的结果和标签的残差来训练,所以一步一步的串行训练后最终的偏差越来越小,可以防止欠拟合。