03-27 11:21 已编辑常州大学 C++ 发布于四川

关注

机器学习基础——线性回归数学原理

线性回归

对于给定数据集 $D=\{(\mathbf x_i,y_i)\}_{i=1}^m$ ，其中 $\mathbf x_i=(x_{i1},x_{i2},...,x_{id}),y_i\in\mathbb R$ 。线性回归的目的是找到一个函数

f(\mathbf x)=\mathbf w^T\mathbf x+b

使得线性模型的预测值 $f(\mathbf x)$ 与真实值 $y$ 尽可能接近。通常选用均方误差来判断其接近程度，即

\begin{equation} \begin{aligned} E(f;D)&=\frac1m\sum_{i=1}^m(f(\mathbf x_i)-y_i)^2\\ &=\frac1m\sum_{i=1}^m(\mathbf w^T\mathbf x_i+b-y_i)^2 \end{aligned} \end{equation}

当均方误差最小时，即可求得最优线性回归模型。此时

\begin{equation} \begin{aligned} (\mathbf w^*,b^*)&=\arg\min_{\mathbf w,b}E(\mathbf w,b)\\ &=\arg\min_{\mathbf w,b}\sum_{i=1}^m(f(\mathbf x_i)-y_i)^2\\ &=\arg\min_{\mathbf w,b}\sum_{i=1}^m(\mathbf w^T\mathbf x_i+b-y_i)^2 \end{aligned} \end{equation}

$\mathbf w^*,b^*$ 表示 $\mathbf w,b$ 的解。我们只需要求得均方误差 $E$ 在最小值时的 $\mathbf w,b$ 值，因此均方误差的常数项 $\frac1m$ 可忽略。

一元线性回归

当数据集中 $\mathbf x_i$ 的维度为1时，即 $\mathbf x_i=(x_i)$ ，此时 $x$ 为标量，则对于给定数据集 $D=\{(x_i,y_i)\}_{i=1}^m$ ，线性回归给出的模型为

\begin{equation} f(x)=wx+b \end{equation}

此时 $w$ 也是标量。易证 $E(w,b)=\sum_{i=1}^m(wx_i+b-y_i)^2$ 对 $w,b$ 均为开口向上且恒大于0的二次函数，因此我们可以使用二次函数对称轴公式或求导来确定该函数的最小值。这里选择求导的方法。将 $E(w,b)$ 分别对 $w,b$ 求导：

\begin{equation} \begin{aligned} \frac{\partial E(w,b)}{\partial w}&=2\sum_{i=1}^m(wx_i+b-y_i)x_i\\ &=2\left[w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i\right]\\ \frac{\partial E(w,b)}{\partial b}&=2\sum_{i=1}^m(wx_i+b-y_i)\\ &=2\left[mb-\sum_{i=1}^m(y_i-wx_i)\right] \end{aligned} \end{equation}

令上式等于0，得到

\begin{equation} \begin{aligned} b&=\frac1m\sum_{i=1}^m(y_i-wx_i)=\bar y-w\bar x\\ w&=\frac{\sum_{i=1}^m(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^m(x_i-\bar x)^2}=\frac{\sum_{i=1}^m(x_iy_i)-m\bar x\bar y}{\sum_{i=1}^m x_i^2-m\bar x^2} \end{aligned} \end{equation}

alt 特别的，对于 $x=x_0$ ( $x_0$ 是常数)这类直线，斜率 $w$ 无法被表示，因此回归方程不存在。

多元线性回归

最小二乘法

对概述中的式子，我们令

\begin{equation} \mathbf X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1\\ x_{21} & x_{22} & \cdots & x_{2d} & 1\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{bmatrix}=\begin{bmatrix} \mathbf x_1^T & 1\\ \mathbf x_2^T & 1\\ \vdots & \vdots\\ \mathbf x_m^T & 1 \end{bmatrix},\mathbf y=\begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_m \end{bmatrix},\mathbf{\hat w}=\begin{bmatrix} \mathbf w\\ b \end{bmatrix} \end{equation}

则

\begin{equation} \begin{aligned} f(\mathbf x)&=\mathbf w^T\mathbf x+b=\mathbf{X\hat w}\\ \mathbf{\hat w}^*&=\arg\min_{\mathbf{\hat w}}E(\mathbf{\hat w})\\ &=\arg\min_{\mathbf{\hat w}}(\mathbf y-\mathbf{X\hat w})^T(\mathbf y-\mathbf{X\hat w})\\ \end{aligned} \end{equation}

将 $E$ 对 $\mathbf{\hat w}$ 求导得

\begin{equation} \frac{\partial E(\mathbf{\hat w})}{\partial \mathbf{\hat w}}=2\mathbf X^T(\mathbf{X\hat w}-\mathbf y) \end{equation}

当 $X^TX$ 是满秩矩阵时，令上式等于0可得

\begin{equation} \mathbf{\hat w}=\left(\mathbf X^T\mathbf X\right)^{-1}\mathbf X^T\mathbf y \end{equation}

将其代入一元线性回归，仍有效。

alt

过拟合与正则化

在多元线性回归中，当特征维度 $d$ 较大而样本量 $m$ 相对不足时，最小二乘法容易出现过拟合（Overfitting）现象。过拟合是指模型在训练集上表现很好（均方误差很小），但在未知数据上泛化能力差。

造成过拟合的常见原因包括：

特征过多或特征之间高度相关：导致 $\mathbf X^T\mathbf X$ 接近奇异矩阵（不满秩），最小二乘解不稳定。
模型复杂度过高：参数过多使得模型倾向于拟合训练数据中的噪声。

为了缓解过拟合，常用手段是正则化（Regularization）：在损失函数中增加一个关于模型参数的惩罚项，限制参数的大小，从而降低模型复杂度。一般化的正则化目标函数为：

\begin{equation} \hat{\mathbf w}^*=\arg\min_{\hat{\mathbf w}}\left[(\mathbf y-\mathbf{X\hat w})^2+\lambda\Omega(\hat{\mathbf w})\right] \end{equation}

其中 $\lambda\geq 0$ 为正则化系数（超参数）， $\Omega(\hat{\mathbf w})$ 为惩罚项。 $\lambda$ 越大，对参数的约束越强； $\lambda=0$ 时退化为普通最小二乘法。

根据惩罚项 $\Omega(\hat{\mathbf w})$ 的不同选取，可以得到不同的正则化方法。常见的有以下几种：

L1正则化： $\Omega(\hat{\mathbf w})=\|\hat{\mathbf w}\|_1=\sum_{j=1}^{d}|\hat w_j|$ ，对应LASSO回归。
L2正则化： $\Omega(\hat{\mathbf w})=\|\hat{\mathbf w}\|_2^2=\hat{\mathbf w}^T\hat{\mathbf w}=\sum_{j=1}^{d}\hat w_j^2$ ，对应岭回归。
弹性网络（Elastic Net）：同时结合L1和L2正则化：

\begin{equation} \Omega(\hat{\mathbf w})=\alpha\|\hat{\mathbf w}\|_1+\frac{1-\alpha}{2}\|\hat{\mathbf w}\|_2^2,\quad\alpha\in[0,1] \end{equation}

正则化的几何解释

正则化的效果可以通过约束形式（而非拉格朗日形式）直观理解。以二维权重 $(w_1,w_2)$ 为例：

蓝色椭圆代表最小二乘损失的等高线，椭圆中心 $\hat{\mathbf w}_{LS}$ 为无正则化时的最优解。
彩色区域代表正则化约束（限制 $\hat{\mathbf w}$ 的范围），正则化回归的解就是等高线与约束区域的切点。

L1与L2正则化几何解释

$\lambda$ 越大，约束区域越小，正则化回归的解离OLS最优解越远：

$正则化系数\lambda的影响$

如上图所示：

L2正则化（圆形约束）：切点通常不在坐标轴上，即 $w_1\neq 0$ 且 $w_2\neq 0$ ，权重被压缩但不会为零。
L1正则化（菱形约束）：由于菱形存在"尖角"（顶点在坐标轴上），等高线更容易在顶点处与菱形相切，使得某个权重恰好为零（图中 $w_1=0$ ），从而产生稀疏解。

LASSO回归

LASSO（Least Absolute Shrinkage and Selection Operator）回归在最小二乘损失的基础上增加L1正则化项，其目标函数为：

\begin{equation} \hat{\mathbf w}^*=\arg\min_{\hat{\mathbf w}}\frac12(\mathbf y-\mathbf{X\hat w})^2+\lambda\|\hat{\mathbf w}\|_1 \end{equation}

其中 $\lambda>0$ 为正则化系数， $\|\hat{\mathbf w}\|_1=\sum_{j=0}^{d}|\hat w_j|$ 为权重向量的L1范数（包含偏置 $b=\hat w_{d+1}$ 或不包含均可，通常不对偏置做正则化）。

L1正则化的几何解释

L1正则化的等值线为菱形（如二维时为旋转 $45°$ 的正方形）。当等值线与最小二乘损失的等高线（椭圆）相切时，切点更容易落在坐标轴上，这意味着某些特征的权重恰好为0。因此LASSO回归具有特征选择（Feature Selection）的能力——它能自动将不重要的特征权重压缩为零，从而得到稀疏模型。

L1正则化的特点

稀疏性：倾向于产生稀疏解，自动进行特征选择。
无可解析解：由于L1范数的绝对值函数在零点不可导，LASSO没有像最小二乘法那样的闭式解，通常需要使用坐标下降法（Coordinate Descent）或近端梯度下降法（Proximal Gradient Descent）等迭代算法求解。
适用场景：当特征维度很高、怀疑大部分特征与目标无关时，LASSO回归尤为适用。

坐标下降法求解

坐标下降法的基本思想是：每次固定除一个变量外的所有变量，对这一个变量进行一维优化，交替进行直至收敛。对于LASSO回归中的第 $j$ 个权重 $\hat w_j$ ，更新公式为（省略偏置项的推导）：

\begin{equation} \hat w_j\leftarrow\frac{S\left(\sum_{i=1}^m x_{ij}(y_i-\sum_{k\neq j}x_{ik}\hat w_k),\lambda\right)}{\sum_{i=1}^m x_{ij}^2} \end{equation}

其中 $S(z,\lambda)$ 为软阈值函数（Soft Thresholding）：

\begin{equation} S(z,\lambda)=\text{sign}(z)\cdot\max(|z|-\lambda,0)= \begin{cases} z-\lambda,&z>\lambda\\ 0,&|z|\leq\lambda\\ z+\lambda,&z<-\lambda \end{cases} \end{equation}

岭回归

岭回归（Ridge Regression）在最小二乘损失的基础上增加L2正则化项，其目标函数为：

\begin{equation} \hat{\mathbf w}^*=\arg\min_{\hat{\mathbf w}}(\mathbf y-\mathbf{X\hat w})^2+\lambda\|\hat{\mathbf w}\|_2^2 \end{equation}

其中 $\lambda>0$ 为正则化系数， $\|\hat{\mathbf w}\|_2^2=\hat{\mathbf w}^T\hat{\mathbf w}=\sum_{j=0}^{d}\hat w_j^2$ 为权重向量的L2范数的平方。

闭式解

与LASSO不同，岭回归的目标函数是二次的、可微的，因此存在闭式解。将目标函数对 $\hat{\mathbf w}$ 求导并令其等于0：

\begin{equation} \frac{\partial}{\partial\hat{\mathbf w}}\left[(\mathbf y-\mathbf{X\hat w})^2+\lambda\hat{\mathbf w}^T\hat{\mathbf w}\right]=-2\mathbf X^T(\mathbf y-\mathbf{X\hat w})+2\lambda\hat{\mathbf w}=\mathbf 0 \end{equation}

整理得：

\begin{equation} (\mathbf X^T\mathbf X+\lambda\mathbf I)\hat{\mathbf w}=\mathbf X^T\mathbf y \end{equation}

因此岭回归的闭式解为：

\begin{equation} \hat{\mathbf w}^*=\left(\mathbf X^T\mathbf X+\lambda\mathbf I\right)^{-1}\mathbf X^T\mathbf y \end{equation}

其中 $\mathbf I$ 为 $(d+1)\times(d+1)$ 的单位矩阵。在普通最小二乘法中，闭式解为 $\hat{\mathbf w}^*=(\mathbf X^T\mathbf X)^{-1}\mathbf X^T\mathbf y$ ，要求 $\mathbf X^T\mathbf X$ 可逆。然而，当特征之间存在共线性（某些列线性相关），或特征维度 $d$ 大于样本数 $m$ 时， $\mathbf X^T\mathbf X$ 将不满秩，即存在为零的特征值，导致矩阵不可逆（奇异）。岭回归通过在 $\mathbf X^T\mathbf X$ 的对角线上添加 $\lambda\mathbf I$ ，对所有特征值进行了"抬升"：设 $\mathbf X^T\mathbf X$ 的特征值为 $\mu_1,\mu_2,\dots,\mu_{d+1}$ （均 $\geq 0$ ），则 $\mathbf X^T\mathbf X+\lambda\mathbf I$ 的特征值为 $\mu_1+\lambda,\mu_2+\lambda,\dots,\mu_{d+1}+\lambda$ 。由于 $\lambda>0$ ：

\mu_j+\lambda>0,\quad \forall\, j=1,2,\dots,d+1

因此即使某些 $\mu_j=0$ （矩阵奇异），加扰动后所有特征值都严格大于零， $\mathbf X^T\mathbf X+\lambda\mathbf I$ 变为正定矩阵，逆矩阵始终存在。此外，当 $\mathbf X^T\mathbf X$ 接近奇异（某些 $\mu_j\approx 0$ ）时， $(\mu_j)^{-1}$ 极大，解的数值极不稳定；添加 $\lambda$ 后， $(\mu_j+\lambda)^{-1}$ 被限制在 $\frac{1}{\lambda}$ 以内，显著提升了数值稳定性。这也是岭回归被称为"收缩方法"的原因——较大的特征值对应的权重受影响较小，而较小的特征值对应的权重被显著收缩。

L2正则化的几何解释

L2正则化的等值线为圆形（球面），当与最小二乘损失的等高线相切时，切点不会落在坐标轴上，因此权重不会恰好为零。L2正则化的作用是将所有权重均匀地向零收缩，但不会产生稀疏解。

L2正则化的特点

权重收缩：所有权重被均匀压缩，但不会变为零，因此不具备特征选择能力。
数值稳定性：通过 $\lambda\mathbf I$ 保证 $\mathbf X^T\mathbf X+\lambda\mathbf I$ 可逆，解决了共线性问题（多重共线性下 $\mathbf X^T\mathbf X$ 的某些特征值接近0，导致解不稳定）。
有闭式解：计算高效，无需迭代。
适用场景：当特征之间存在较强的多重共线性，或希望保留所有特征而只控制模型复杂度时，岭回归是更好的选择。

弹性网络

弹性网络（Elastic Net）是LASSO回归和岭回归的结合，它同时在目标函数中加入L1和L2正则化项，其目标函数为：

\begin{equation} \hat{\mathbf w}^*=\arg\min_{\hat{\mathbf w}}\frac{1}{2m}(\mathbf y-\mathbf{X\hat w})^2+\lambda\left[\alpha\|\hat{\mathbf w}\|_1+\frac{1-\alpha}{2}\|\hat{\mathbf w}\|_2^2\right] \end{equation}

其中：

$\lambda\geq 0$ 为整体正则化强度，控制正则化项的总体大小。
$\alpha\in[0,1]$ 为L1与L2的混合比例：
- $\alpha=1$ 时，退化为LASSO回归。
- $\alpha=0$ 时，退化为岭回归。
- $0<\alpha<1$ 时，同时包含L1和L2正则化的效果。

与LASSO和岭回归的关系

弹性网络旨在克服LASSO回归的两个局限性：

LASSO的样本选择局限：当特征数 $d$ 大于样本数 $m$ 时（ $d>m$ ），LASSO最多只能选择 $m$ 个特征。弹性网络不受此限制，能够选择超过 $m$ 个特征。
LASSO的共线性处理：当存在一组高度相关的特征时，LASSO倾向于从中随机选择一个而忽略其余。弹性网络则会倾向于同时保留整组相关特征（类似于岭回归的分组效应），同时仍保持一定的稀疏性。