L1和L2正则化的区别

[问答题]

请你简要讲一下，L1和L2正则化有什么区别？

查看答案及解析

bettermin

L1和L2是正则化项，为了限制模型的参数，防止模型过拟合而加在损失函数后面的一项。

L1是模型各个参数的绝对值之和，通常表示为||w||。趋向于产生少量的特征，而其他特征都是0，因为最优的参数值很大概率出现在坐标轴上，这样就会导致某一维的权重为0，产生稀疏权重矩阵。

L2是模型各个参数的平方和然后求平方根，会选择更多的参数，这些特征都会接近于0，最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是0，最小化||w||时，就会使每一项趋近于0.

发表于 2020-08-09 15:24:48 回复(0)

惊鹿

L1正则化具有稀疏性，L2正则化具有鲁棒性；

例如：J = arg min X1*X2

L1正则化：X1 +X2 = 1

解上述目标，可知当X1= 1，X2=0（或者反过来）时 J最小，这时就突出稀疏性，即将某一个变量解置为0，另外一个变量的解就是1。拓展到n个变量时，L1正则化让大部分变量解为0，这就让有效的变量的解减少，从而达到一种稀疏的目的。

L2正则化：X1² +X2² = 1 情况下

解上述目标，由詹森不等式可知，当X1= X2时 J最小，此时为什么可以突出鲁棒性呢，我们可以理解为这就是相关于给每个变量相同的权值，不强调某一个（些）变量，考虑每个变量（即考虑全局特性），当然比较有鲁棒性。比如你L1正则化时，没有把噪点值置为0，此时由于比较稀疏，噪点对模型影响会比较大，但是L2正则化考虑每个点，对于会将噪点影响减弱（想一下求平均值），让模型“光滑化”，比较鲁棒。

发表于 2019-01-11 21:33:26 回复(0)