首页 > 试题广场 >

什么是欠拟合、过拟合?避免过拟合有哪些途径?

[问答题]

什么是欠拟合、过拟合?避免过拟合有哪些途径?

欠拟合指的是模型表达能力较弱,即使在训练集上也无法对数据进行精确地拟合和逼近。而过拟合是指模型在训练集上几乎没有任何错误,评估指标上表现很好,但在测试集上的表现较差,即训练出的模型泛化能力差。
解决过拟合通常有如下方法:
1)增加训练集数据;
该方式是从数据入手,将更多的数据参与到模型的训练中,这是最有效的方法,这样可以让模型学习到更多更有效的特征,降低噪声对模型的影响。
但是往往直接增加数据比较困难,因此可以通过一定的规则来扩充训练数据。列举两种方式:
①如图像分类问题中可以通过对图像的平移,缩放,旋转等方式来扩充;
②也可以使用生成式对抗网络类合成大量数据。
2)降低模型复杂度;
在数据量较少的情况下,模型过于复杂将会导致过拟合,因此可以通过降低模型的复杂度来防止过拟合,这样就可以一定程度上避免模型拟合过多的采样噪声。
比如:
① 神经网络中减少神经元个数,对神经元进行dropout随机失活等;
② 决策树中降低树的深度和进行剪枝。
3)增加正则化约束项;
主要用于线性模型和神经网络模型,将权值的大小加入到损失函数中,避免权值过大带来的过拟合风险。
4)通过集成学习的方式训练模型。
集成学习是把多个模型集成到一起来作为共同的模型,可以降低单一模型的过拟合风险,如bagging的模型融合策略。
发表于 2020-10-31 11:06:38 回复(0)