首页 > 试题广场 >

PCA中第一主成分是第一的原因?

[问答题]

PCA中第一主成分是第一的原因?

MuMaXu头像

MuMaXu

优化目标：
将一组N维向量降维K维（K大于0，小于N），其目标是选择K个单位（模为1）正交基，使得原始数据变换到这组基后，各字段两两之间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）

PCA步骤：

设有m条n维数据。

1）将原始数据按列组成n行m列矩阵X

2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值

3）求出协方差矩阵 $C= \frac{1}{m}XX^T$
4）求出协方差矩阵的特征值及对应的的特征向量
5）将特征向量按照对应特征值大小从上到下按行排列成矩阵，取前K行组成矩阵P
6） $Y=PY$ 即为降维到K维后的数据

解释一下为什么需要将特征向量按照行排列：两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每⼀行行向量为基所表示的空间中去。更抽象的说，一个矩阵可以表示一种线性变换。

编辑于 2019-06-05 14:32:16 回复(0)

更多回答

大山猫头像

大山猫

https://www.matongxue.com/madocs/1025/

这是我见过最通俗易懂的讲解了

发表于 2019-06-21 14:15:45 回复(0)

Itsmewxd头像

Itsmewxd

PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。而方差最大的那个维度是主成分

发表于 2019-04-02 17:21:09 回复(0)

#include头像

#include

主成分分析（PCA）是一种数据降维技巧，它能将大量相关变量转化为一组很少的不相关变量，这些无关变量称为主成分。PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。而方差最大的那个维度是主成分。

PCA分析的一般步骤如下：
数据预处理。PCA根据变量间的相关性来推导结果。用户可以输入原始数据矩阵或者相关系数矩阵到principal()和fa()函数中进行计算，在计算前请确保数据中没有缺失值。
判断要选择的主成分数目（这里不涉及因子分析）。
选择主成分（这里不涉及旋转）。
解释结果。

计算主成分得分。

PCA的目标是用一组较少的不相关变量代替大量相关变量，同时尽可能保留初始变量的信息，这些推导所得的变量称为主成分，它们是观测变量的线性组合。如第一主成分为：

它是k个观测变量的加权组合，对初始变量集的方差解释性最大。第二主成分也是初始变量的线性组合，对方差的解释性排第二，同时与第一主成分正交（不相关）。后面每一个主成分都最大化它对方差的解释程度，同时与之前所有的主成分都正交.我们都希望能用较少的主成分来解释全部变量。

发表于 2019-04-12 16:07:26 回复(1)

neekity头像

neekity

https://blog.csdn.net/Neekity/article/details/87918977

最大方差理论

PCA（主成分分析），旨在找到数据中的主成分，并利用这些主成分表征原始数据从而达到降维的目的。在信号处理领域，我们认为信号具有较大方差，而噪声具有较小方差。因此我们不难引出PCA的目标即最大化投影方差，也就是让数据在主轴上投影的方差最大（在我们假设中方差最大的有用信号最大化减少了噪声的影响）。

对于给定的一组数据点 $\left\{v_{1},...,v_{n} \right\}$ ,均为列向量。中心化后可以这样表示 $\left\{x_{1},...,x_{n} \right\}=\left\{v_{1}-\mu,...,v_{n}-\mu \right\}$ ，其中 $\mu=\frac{1}{n}\sum_{i=1}^{n}v_{i}$ 接下来我要找个一个投影的方向 $\omega$ 使得 $\left\{x_{1},...,x_{n} \right\}$ 在 $\omega$ (单位方向向量)上的投影方差最大。向量 $x_{i}$ 在 $\omega$ 上的投影坐标可以表示为 $(x_{i},\omega)=x_{i}^{T}\omega$ ，所以投影之后的方差可以表示为 $D(x)=\frac{1}{n}\sum_{i=1}^{n}(x_{i}^{T}\omega)^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}^{T}\omega)^{T}(x_{i}^{T}\omega)=\frac{1}{n}\sum_{i=1}^{n}\omega^{T}x_{i}x_{i}^{T}\omega=\omega^{T}(\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}^{T})\omega$
$\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}^{T}$ 是样本的协方差矩阵，记做 $\Sigma$ ，由于 $\omega$ 是单位方向向量，所以 $\omega^{T}\omega=1$ ,因此我们可以表示成一个最大化问题 $max\left\{ \omega^{T} \Sigma \omega \right\}$ $s.t.\quad \omega^{T}\omega=1$ 用拉格朗日乘式可以得到 $\Sigma\omega=\lambda\omega$ ，代入 $D(x)$ 得到 $D(x)=\omega^{T}\Sigma\omega=\lambda\omega^{T}\omega=\lambda$ ，所以投影后的方差就是协方差矩阵的特征值。最大方差即为协方差矩阵最大的特征值，最佳投影方向就是最大特征值所对应的特征向量。我们将特征值从大到小排列，取特征值前 $d$ 大对应的特征向量 $\omega_{1},...,\omega_{d}$ ，通过以下映射的方式将n维样本映射到d维$ ${x_{i}}'=\begin{bmatrix} \omega_{1}^{T}x_{i}\\ . \\ .\\ . \\ \omega_{d}^{T}x_{i} \end{bmatrix}$ $

最小平方误差理论

如果是二维空间中的样本点，那么我们就是求解出一条直线使得样本投影到该直线上的方差最大。从回归的角度来看其实就是求解出一个线性函数来拟合样本点集合。在高维空间中，我们需要找到一个d维超平面，使得数据点到这个超平面的距离平方和最小。我们假设该超平面由d个标准正交基 $W=\left\{ w_{1},...,w_{d}\right\}$ ，那么数据点 $x_{k}$ 投影到该超平面可以表示成 $\tilde{x_{k}}=\sum_{i=1}^{d}(w_{i}^{T}x_{k})w_{i}$ 。所以我们可以写出PCA优化的目标 $\underset{ w_{1},...,w_{d}}{arg\ min}\sum_{k=1}^{n}||x_{k}-\tilde{x_{k}}||_{2}^{2}$ $s.t.\quad w_{i}^{T}w_{j}=\delta_{ij}$
我们将平方项展开 $||x_{k}-\tilde{x_{k}}||_{2}^{2}=(x_{k}-\tilde{x_{k}})^{T}(x_{k}-\tilde{x_{k}})=x_{k}^{T}x_{k}-2x_{k}^{T}\tilde{x_{k}}+\tilde{x_{k}}^{T}\tilde{x_{k}}$ $x_{k}^{T}\tilde{x_{k}}=x_{k}^{T}\sum_{i=1}^{d}(w_{i}^{T}x_{k})w_{i}=\sum_{i=1}^{d}w_{i}^{T}x_{k}x_{k}^{T}w_{i}$ $\tilde{x_{k}}^{T}\tilde{x_{k}}=\sum_{i=1}^{d}\sum_{j=1}^{d}((w_{i}^{T}x_{k})w_{i})^{T}(w_{j}^{T}x_{k})w_{j}=\sum_{i=1}^{d}w_{i}^{T}x_{k}x_{k}^{T}w_{i}$ 所以 $||x_{k}-\tilde{x_{k}}||_{2}^{2}=-\sum_{i=1}^{d}w_{i}^{T}x_{k}x_{k}^{T}w_{i}+x_{k}^{T}x_{k}=-tr(W^{T}x_{k}x_{k}^{T}W)+x_{k}^{T}x_{k}$ 带入到优化目标中 $arg\ \underset{W}{max}\sum_{k=1}^{n}tr(W^{T}x_{k}x_{k}^{T}W)=arg\ \underset{W}{max}tr(W^{T}XX^{T}W)$ $s.t.\quad W^{T}W=I$ 当d=1时， $arg\ \underset{w}{max}w^{T}XX^{T}w$ $ $s.t.\quad w^{T}w=1$ $

发表于 2019-04-14 14:19:30 回复(0)

Leeguohui头像

Leeguohui

是因为其占有的信息量最大，其计算是利用的奇异值分解后最大特征值的特征向量所得

发表于 2019-10-30 12:35:03 回复(0)

牛客878327618号头像

牛客878327618号

方差最大，保留的信息量最大

发表于 2021-03-10 09:13:25 回复(0)

牛客864975854号头像

牛客864975854号

特征值最大，贡献率最大，包含最丰富的信息（对于正态分布，熵最大）

发表于 2020-09-06 21:33:01 回复(0)

牛客471305338号头像

牛客471305338号

eigen最大对于的eigen vector

发表于 2020-01-31 02:58:53 回复(0)

#def头像

#def

特征值最大，方差投影最大

发表于 2019-08-21 23:28:26 回复(0)

牛客7105297号头像

牛客7105297号

特征值最大，方差投影最大。

发表于 2019-08-03 18:06:11 回复(0)

刘洁o头像

刘洁o

特征值最大，分量投影最大。

发表于 2019-04-25 15:28:06 回复(0)

提交观点

问题信息

上传者：小小

难度：

12条回答 231收藏 17394浏览

热门推荐

相关试题

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K2座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号