主成分分析pca基本原理_PCA是什么东西

(4) 2024-05-30 11:12

Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说主成分分析pca基本原理_PCA是什么东西,希望能够帮助你!!!。

1 PCA目的/作用

主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。

PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。

2 求解步骤

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将原始特征转换到上面得到的N个特征向量构建的新空间中(最后两步,实现了特征压缩)

假设有 M M M个样本 { X 1 , X 2 , . . . , X M } \{ X^1 ,X^2,...,X^M \} {
X1X2...XM}
,每个样本有 N N N维特征 X i = ( x 1 i , x 2 i , . . . , x N i ) T X^i =(x^i_1, x^i_2, ... , x^i_N)^T Xi=(x1i,x2i,...,xNi)T,每一个特征 x j x_j xj都有各自的特征值。以下面的数据为例
主成分分析pca基本原理_PCA是什么东西_https://bianchenghao6.com/blog__第1张

第一步:对所有特征进行中心化:去均值(这步很重要,之后会解释)

求每一个特征的平均值,然后对于所有的样本,每一个特征都减去自身的均值。

特征 x 1 x_1 x1的平均值 : x 1 ‾ = 1 M ∑ i = 1 M x 1 i = 1 + 2 + 2.5 + 0.3 + 6 + . . . + 0.5 10 = 2.31 \overline{x_1}=\frac{1}{M}\sum_{i=1}^M{x_1^i}=\frac{1+2+2.5+0.3+6+...+0.5}{10}=2.31 x1=M1i=1Mx1i=101+2+2.5+0.3+6+...+0.5=2.31

特征 x 2 x_2 x2的平均值 : x 2 ‾ = 1 M ∑ i = 1 M x 2 i = 32 + 45 + 7 + . . . + 10 10 = 20.1 \overline{x_2}=\frac{1}{M}\sum_{i=1}^M{x_2^i}=\frac{32+45+7+...+10}{10}=20.1 x2=M1i=1Mx2i=1032+45+7+...+10=20.1
主成分分析pca基本原理_PCA是什么东西_https://bianchenghao6.com/blog__第2张
经过去均值处理之后,原始特征的值就变成了新的值,在这个新的norm_data的基础上,进行下面的操作。

第二步:求协方差矩阵C

C = [ c o v ( x 1 , x 1 ) c o v ( x 1 , x 2 ) c o v ( x 2 , x 1 ) c o v ( x 2 , x 2 ) ] C=\begin{bmatrix} cov(x_1,x_1)&cov(x_1,x_2)\\ cov(x_2,x_1)&cov(x_2,x_2)\\ \end{bmatrix} C=[cov(x1,x1)cov(x2,x1)cov(x1,x2)cov(x2,x2)]
上述矩阵中,对角线上分别是特征 x 1 和 x 2 x_1和x_2 x1x2的方差,非对角线上是协方差。协方差大于0表示 x 1 和 x 2 x_1和x_2 x1x2若有一个增,另一个也增;小于0表示一个增,一个减;协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小。其中, c o v ( x 1 , x 1 ) cov(x_1,x_1) cov(x1,x1)的求解公式如下,其他类似
c o v ( x 1 , x 1 ) = ∑ i = 1 M ( x 1 i − x 1 ‾ ) ( x 1 i − x 1 ‾ ) M − 1 cov(x_1,x_1)=\frac{\sum_{i=1}^M{(x_1^i-\overline{x_1}})(x_1^i-\overline{x_1})}{M-1} cov(x1,x1)=M1i=1M

今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

上一篇

已是最后文章

下一篇

已是最新文章

发表回复