首页 > 试题广场 >

L1和L2正则化的区别

[问答题]

请你简要讲一下,L1和L2正则化有什么区别?

L1和L2是正则化项,为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。
L1是模型各个参数的绝对值之和,通常表示为||w||。趋向于产生少量的特征,而其他特征都是0,因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0,产生稀疏权重矩阵。
L2是模型各个参数的平方和然后求平方根,会选择更多的参数,这些特征都会接近于0,最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0,最小化||w||时,就会使每一项趋近于0.
发表于 2020-08-09 15:24:48 回复(0)
L1正则化具有稀疏性,L2正则化具有鲁棒性;
例如:J = arg min X1*X2
            L1正则化X1 +X2 = 1
解上述目标,可知当X1= 1,X2=0(或者反过来)时 J最小,这时就突出稀疏性,即将某一个变量解置为0,另外一个变量的解就是1。拓展到n个变量时,L1正则化让大部分变量解为0,这就让有效的变量的解减少,从而达到一种稀疏的目的。
             L2正则化:X12 +X22 = 1 情况下
解上述目标,由詹森不等式可知,当X1= X2时 J最小,此时为什么可以突出鲁棒性呢,我们可以理解为这就是相关于给每个变量相同的权值,不强调某一个(些)变量,考虑每个变量(即考虑全局特性),当然比较有鲁棒性。比如你L1正则化时,没有把噪点值置为0,此时由于比较稀疏,噪点对模型影响会比较大,但是L2正则化考虑每个点,对于会将噪点影响减弱(想一下求平均值),让模型“光滑化”,比较鲁棒
发表于 2019-01-11 21:33:26 回复(0)