PCA中第一主成分是第一的原因?
优化目标:
将一组N维向量降维K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基后,各字段两两之间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)
PCA步骤:
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵的特征值及对应的的特征向量
5)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前K行组成矩阵P
6)即为降维到K维后的数据
解释一下为什么需要将特征向量按照行排列:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每⼀行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。
https://blog.csdn.net/Neekity/article/details/87918977
PCA(主成分分析),旨在找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的。在信号处理领域,我们认为信号具有较大方差,而噪声具有较小方差。因此我们不难引出PCA的目标即最大化投影方差,也就是让数据在主轴上投影的方差最大(在我们假设中方差最大的有用信号最大化减少了噪声的影响)。
对于给定的一组数据点,均为列向量。中心化后可以这样表示,其中接下来我要找个一个投影的方向使得在(单位方向向量)上的投影方差最大。向量在上的投影坐标可以表示为,所以投影之后的方差可以表示为
是样本的协方差矩阵,记做,由于是单位方向向量,所以,因此我们可以表示成一个最大化问题用拉格朗日乘式可以得到,代入得到,所以投影后的方差就是协方差矩阵的特征值。最大方差即为协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量。我们将特征值从大到小排列,取特征值前大对应的特征向量,通过以下映射的方式将n维样本映射到d维$$
如果是二维空间中的样本点,那么我们就是求解出一条直线使得样本投影到该直线上的方差最大。从回归的角度来看其实就是求解出一个线性函数来拟合样本点集合。在高维空间中,我们需要找到一个d维超平面,使得数据点到这个超平面的距离平方和最小。我们假设该超平面由d个标准正交基,那么数据点投影到该超平面可以表示成。所以我们可以写出PCA优化的目标
我们将平方项展开所以带入到优化目标中当d=1时,$$