2020-02-05 17:22 中国科学院大学计算技术研究所后端

关注

章节7:Logistic 回归

分类(Classification)

二元(本节讨论)

$y\in{\{0,1\}}$
0 表示负类(Negative Class)
1 表示正类(Positive Class)
多分类问题(后续详细讨论)

$y\in{\{0,1,2,3,...\}}$

如果将线性回归应用于分类问题,如设置阈值对结果进行分类,
当增加新的样本后, 拟合曲线发现变化可能导致原来的阈值不再适用
通常, 即使所有训练样本的标签都是 $y=0\ or\ 1$ , 算法的输出值也会远大于1或远小于0
图片说明

逻辑回归(Logistic regression)

sigmoid/logistic function, 保证输出值 $h_\theta(x)\in[0,1]$ :

$g(z)=\frac{1}{1+e^{-z}}$

图片说明

假设陈述

假设函数 $h_\theta(x)$ 表示对于参数矩阵 $\theta$ , 当输入的特征向量为 $x$ 时, 输出结果 $y=1$ 的概率

图片说明

决策界限(Decision boundary)

既然假设函数 $h_\theta(x)$ 表示概率, 那么我们可以通过这个输出对于最终的分类结果这样界定

$h_\theta(x) \geq 0.5$ , 则 $y=1$
$h_\theta(x) < 0.5$ , 则 $y=0$

又因为 $h_\theta(x) = g(\theta^Tx)$ , 且 $g(z)$ 的函数图像我们已知,那么

$\theta^Tx>0 \ \Leftrightarrow \ \theta^Tx \geq 0.5\ \Leftrightarrow\ y=1$
$\theta^Tx<0 \ \Leftrightarrow \ \theta^Tx < 0.5\ \Leftrightarrow\ y=0$

线性的决策边界
对于下图的例子,现在我们先假定已经选好参数 $\theta$ , 根据上述的推导关系, 我们可以很快知道
代表 $y=1$ 的范围和坐标系中满足条件 $-3+x_1+x_2\geq0$ 的区域是一样的

$x_1+x_2=3$ 这条直线就是图中两个簇的决策界限(Decision boundary)
决策界限是假设函数的一个属性, 决定于其参数 $\theta$ 而非数据集,

后续将讨论如何通过数据集拟合参数 $\theta$ , 而一旦参数确定下来, 也就有了完全确定的决策界限,
实际上我们并不需要通过绘制数据集来确定决策界限
非线性的决策边界
通过添加高阶多项式, 我们可以得到更加复杂的决策边界

代价函数(Cost function)

复杂的非线性函数sigmoid代价函数 $J(\theta)$ 成为一个非凸函数(Non-convex function), 这样就不能使用梯度下降算法

图片说明

$Cost(h_\theta(x), y)$ 函数可以理解为惩罚函数
下面这张图很直观地体现了它的作用(此时正确答案 $y=1$ , $y=0$ 的情况同理)
观察 $h_\theta(x)=1\rightarrow0$ 的过程, 可以发现, 随着预测值 $h_\theta(x)$ 的值偏离正确答案 $y=1$ , 惩罚函数 Cost 的值也从 $0\rightarrow \infty$ , 以此来迫使预测值向正确值修正

图片说明

简化代价函数和梯度下降

首先来化简一下代价函数的写法, 避免分类讨论的麻烦

$Cost(h_\theta(x), y)=-ylog(h_\theta(x)) - (1-y)log(1-h_\theta(x))$
$J(\theta)=\frac{1}{m}\sum_{i=1}^{m}{Cost(h_\theta(x_i), y_i)}$
$\ \ \ \ \ \ \ =-\frac{1}{m}(\sum_{i=1}^{m}{y_ilog(h_\theta(x_i)) + (1-y_i)log(1-h_\theta(x_i))})$

接下里, 为了拟合参数 $\theta$ , 需要求解 $\min_{\theta}{J(\theta)}$ , 方法依然是梯度下降

图片说明

其中 $\frac{\partial}{\partial\theta_j}J(\theta) = \sum_{i=1}^{m}{(h_\theta(x_j^{(i)})-y^{(i)})x_j^{(i)}}$
虽然参数更新的规则一样, 和线性回归中的不同的是
在线性回归中, $h_\theta(x)=\theta^Tx$
在逻辑回归中, $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$

高级优化算法

Conjugate gradient
共轭梯度法BFGS, L-BFGS

都采用了线搜索算法,自动尝试不同的学习率 $\alpha$
不需要手动选择学习率 $\alpha$ , 且通常快于梯度下降

多元分类: 一对多(one-vs-all/rest)

如下图例子, 我们将一个三元分类问题转化为 3 个独立的二元分类问题
对于每一个类 $i$ , 训练一个分类器来预测数据集中各个样本 $y=i$ 的概率
在 3 个分类器中依次输入样本 $x$ 的值, 选择 $\max_{i}{h_\theta^{(i)}(x)}$ 对应的第 $i$ 类作为答案, 即概率最高的那一类