55

问答题 55 /392

SVM所有核函数的了解应用,SVM的损失函数

参考答案

参考回答:

SVM核函数:

1 核函数本质

核函数的本质可以概括为如下三点:

1)实际应用中,常常遇到线性不可分的情况。针对这种情况,常用做法是把样例特征映射到高维空间中,转化为线性可分问题。

2)将样例特征映射到高维空间,可能会遇到维度过高的问题。

3)针对可能的维灾难,可以利用核函数。核函数也是将特征从低维到高维的转换,但避免了直接进行高维空间中的复杂计算,可以在低维上进行计算,却能在实质上将分类效果表现在高维上。

当然,SVM也能处理线性可分问题,这时使用的就是线性核了。

常用的核函数包括如下几个:线性核函数,多项式核函数,RBF核函数(高斯核),Sigmoid核函数

2 线性核

2.1 线性核

SVM肯定是可以处理线性问题的,这个就是斯坦福课程里讲SVM时候,最开始讲解的部分,以线性问题入手进行讲解。

线性核计算为k(x1,x2)=,其实就是在原始空间中的内积。

2.2 线性SVM和逻辑回归

当SVM使用线性核时,在处理分类问题时,和逻辑回归比较有哪些异同,如何选择?

1)线性核SVM和逻辑回归本质上没有区别

2)n=特征数,m=训练样本数目

如果n相对m比较大,使用逻辑回归或者线性SVM,例如n=10000,m=10-1000

如果n比较小,m数值适中,使用高斯核的SVM,例如n=1-1000,m=10-10000

如果n比较小,m很大,构建更多特征,然后使用逻辑回归或者线性SVM

3 非线性核

常用的非线性核包括多项式核,RBF核(高斯核),sigmoid核。

RBF核通常是首选,实践中往往能表现出良好的性能。计算方法如下:

其中,如果σ选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果σ选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。

多项式核计算方法如下:

sigmoid核函数计算方法如下:

采用Sigmoid函数作为核函数时,支持向量机实现的就是一种多层感知器神经网络,应用SVM方法,隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程中自动确定的。而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值,也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。

4 如何选择

1)可以利用专家先验知识余弦选定核函数,例如已经知道问题是线性可分的,就可以使用线性核,不必选用非线性核

2)利用交叉验证,试用不同的核函数,误差最小的即为效果最好的核函数

3)混合核函数方法,将不同的核函数结合起来

我觉得问题是线性可分和线性不可分其中之一,那在选择核函数的时候,如果不清楚问题属于哪一类,就两类核都尝试一下,所以可以主要尝试线性核以及RBF核。

1) Linear核:主要用于线性可分的情形。参数少,速度快,对于一般数据,分类效果已经很理想了。

2)RBF核:主要用于线性不可分的情形。参数多,分类结果非常依赖于参数。有很多人是通过训练数据的交叉验证来寻找合适的参数,不过这个过程比较耗时。

至于到底该采用哪种核,要根据具体问题,有的数据是线性可分的,有的不可分,需要多尝试不同核不同参数。如果特征的提取的好,包含的信息量足够大,很多问题都是线性可分的。当然,如果有足够的时间去寻找RBF核参数,应该能达到更好的效果。

没有一种黄金规则可以确定哪种核函数将推导出最准确的SVM,在实践中,核函数的选择一般并不导致准确率的很大差别。SVM总是发现全局解,而不是局部解。

5 其他

SVM的复杂度主要由支持向量数刻画,而不是数据的维度,因此相比其他方法,SVM不太容易过拟合。

SVM的损失函数:

1、Hinge损失函数

首先我们来看什么是合页损失函数(hinge loss function):

hinge loss function

下标”+”表示以下取正值的函数,我们用z表示中括号中的部分:

也就是说,数据点如果被正确分类,损失为0,如果没有被正确分类,损失为z。合页损失函数如下图所示:

2、SVM损失函数

SVM的损失函数就是合页损失函数加上正则化项:


2、SVM损失函数

SVM的损失函数就是合页损失函数加上正则化项:

损失函数