SVM的简单理解

~~对于经典的SVM以及核函数等概念，总是感觉有点陌生，平常都是直接调用现成的第三方库，没有深究其原理，但该学还是得学，不学不行啊~~

问题：

给定训练样本集 $D = (x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})$ ，其中 $y_{i} \in {- 1, + 1}$ （这里为什么是-1而不是0，主要是为了推出后面的公式）。在此假定样本集线性可分，即能在样本空间中找到一个超平面（ $x$ 为二维时，该划分平面为直线； $x$ 三维时为平面），将不同类别的样本分开。如下图所示， $x$ 为二维向量，此时应该找到一条位于两类训练样本正中间的直线 $A x_{1} + B x_{2} + C = 0$ ，比较理想的即红色的那条

在样本空间中，划分超平面为
$ω^{T} x + b = 0$
其中法向量 $ω^{T} = {ω_{1}, ω_{2}, . . ., ω_{n}}$ 决定超平面的方向； $b$ 为位移项，决定了原点到超平面的距离。类似于点到平面的距离，对于样本空间中的任意点 $x$ 到该超平面的距离为
$r = \frac{∣ ω^{T} x + b ∣}{∣ ∣ ω ∣ ∣}$
对于 $y_{i} = - 1$ ，有 $ω^{T} x_{i} + b < 0$ ；对于 $y_{i} = 1$ ，有 $ω^{T} x_{i} + b > 0$ 。当线性可分时，存在 $ω ， b$ 使得下面成立
${\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> ω^{T} x_{i} + b \geq + 1 ， y_{i} = 1 </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> ω^{T} x_{i} + b \leq - 1 ， y_{i} = - 1. </mstyle> \end{matrix}$
使得上面两个不等式中的等号成立的点被称作支持向量（可以理解为不同类别的样本向量撑起了这个超平面），且两个不同类别的支持向量到超平面的距离之和如下，且被称为间隔
$γ = \frac{2}{∣ ∣ ω ∣ ∣}$
找最优的划分超平面即寻找 $ω ， b$ 使得间隔 $γ$ 最大，等价于最小化 $∣ ∣ ω ∣ ∣$ 。因此，原问题可以转化为一个凸二次规划问题，具体可以使用凸优化技术，比如拉格朗日数乘数法等进行求解：
$<munder> arg min ω, <mtext> </mtext> b </munder> \frac{1}{2} ∣ ∣ ω ∣ ∣ s . t . y_{i} (ω^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., n$

核函数

上文所说的都是基于训练样本线性可分的前提下，而当样本线性不可分时，此时在原样本空间无法找到一个超平面能将样本正确de划分开来（比如下图的“异或”问题）。

对于这样的问题，可以将原始空间映射到一个更加高维的空间，原本在低维空间不可分的样本在更加高维的空间线性可分。例如下图，将“异或”问题对应的原始二维空间映射到一个合适的三维空间，就能找到一个合适的超平面。而且有，如果原始空间是有限维，即特征数量有限，则一定存在更加高维的空间使得样本可分。

$ϕ (x)$ 表示一种非线性映射关系，表示将原来的 $x$ 映射到更高维的特征空间，在新的特征空间划分超平面所对应的模型变为
$f (x) = ω^{T} ϕ (x) + b$
在求解新模型时，会涉及到到 $ϕ {(x_{i})}^{T} ϕ (x_{j})$ 的计算，即 $x_{i} 和 x_{j}$ 映射到新的特征空间之后的内积，由于映射后的空间维度更大（可能无穷维），因此直接计算内积 $ϕ {(x_{i})}^{T} ϕ (x_{j})$ 通常比较困难，因此，核函数(kernel trick)被提出来解决这个问题。核函数是指，低维输入空间存在函数 $κ$ ，它恰好等于在高维空间中的这个内积，这样就避免了复杂的非线性变换以及高维内积的计算，公式如下所示。
$κ (x_{i}, x_{j}) = < ϕ (x_{i}), ϕ (x_{j}) > = ϕ {(x_{i})}^{T} ϕ (x_{j})$
当 $ϕ (*)$ 已知，则可以求出对应的 $κ (*, *)$ ，但问题是我们往往不知道 $ϕ (*)$ 是什么形式，而且我们通常也不会去显式地找到这个 $ϕ (*)$ 。若核函数的选择不合适，则样本被映射到的空间仍然不能构造出一个好的划分超平面，因此核函数的选择至关重要。下面是常用的几种核函数：

SVM的简单理解

问题：

核函数

全站热榜

创作者周榜