主成分分析(PCA)

预处理数据的方法总结(使用sklearn-preprocessing): https://blog.csdn.net/sinat_33761963/article/details/53433799

向量点乘(内积)和叉乘(外积、向量积)概念及几何意义解读:https://blog.csdn.net/dcrmg/article/details/52416832

主成分分析(PCA)原理详解:http://blog.csdn.net/zhongkelee/article/details/44064401

 

 

最大方差理论
      在信号处理中认为信号具有较大的方差噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。

     因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大

     比如我们将下图中的5个点投影到某一维上,这里用一条过原点的直线表示(数据已经中心化):

主成分分析(PCA)

    假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)。

     计算投影的方法见下图5:

主成分分析(PCA)

       图中,红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是<x,u>(即xTu或者uTx)。

 

 

 

主成分分析(PCA)

主成分分析(PCA)

 

主成分分析(PCA)

主成分分析(PCA)     ==》使样本的每个维度均值都是0

主成分分析(PCA)

主成分分析(PCA)

==》此处的x是已经-x  均值的  x   xi已经映射到了新的坐标轴    轴是斜的

 


主成分分析(PCA)             =》使得映射后的样本方差最大

 

主成分分析(PCA)

主成分分析(PCA)

 

主成分分析(PCA)主成分分析(PCA)

主成分分析(PCA)

主成分分析(PCA)

主成分分析(PCA)

主成分分析(PCA)

主成分分析(PCA)

==》技巧谁相加把谁拆开

 

 

主成分分析(PCA)

主成分分析(PCA)

推导的过程中一定要注意:

谁是矩阵 谁是向量  

向量的化是行向量 还是列向量

矩阵的话        几行几列        样本在行还是在列  

 

 

 

 

==》改进  取多个主成分

主成分分析(PCA)

主成分分析(PCA)

主成分分析(PCA)

把数据中第一主成分 减去  数据中剩的是 除了第一主成分以外的成分

 

主成分分析(PCA)   高维==》低维

主成分分析(PCA)低维==》高维

 

主成分分析(PCA)

维度 与 数据留存百分比 可控  ==》不知道 取多少主成分  但要保证95%以上的方差

 

 

主成分分析(PCA)

从n_components  中看到  要保存95%方差的信息  要取 28个主成分

(手写识别字一共64个特征   对原始数据进行降维后再进行分类)

降维后精度会有减小  时间也会减小  可以控制一定的数据量

 

 

数据去燥:

主成分分析(PCA)

将二维数据 取第一个重要维度    将数据降维   

再将降维的数据转为原来维度的数据  此时损失的数据即为噪声数据

 

主成分分析(PCA)

 

每一行w  在人脸识别中代表  特征脸