-
问题
- 抽取数据的内部结构
-
思想
- 用一组更加有意义的基来表示数据
-
假设
-
线性假设
- 变量之间的关系是线性的
-
信噪比(SNR)假设
-
假设数据是具有大的信噪比的
- 方差大的主元是有意义的
- 方差小的主元是噪音
-
正交假设
-
假设主元是正交的
- 为了计算方便
- 即假设数据的内部结构很简单
-
目标
-
通过线性的基变换使得变换后的数据具有某些良好的性质
- 高信噪比
-
低冗余
- 即不同主元方向上的信号具有低相关性
-
数学表示
- 主元上信号的强度用'方差'来衡量
-
用不同主元方向上信号的冗余程度用'协方差'来衡量
- 只能用来衡量线性相关性
-
使得变换后的数据的协方差矩阵
- 对角线上的元素有序排列, 以方便区分信号响度
-
非对角线上的元素为0, 以最小化冗余
- 相当于消除了数据之间的二阶依赖(second-order dependency), 因为协方差是'二阶'混合中心矩
-
实现
-
特征值分解
- 根据特征值分解定理, 取P为Cx的特征向量矩阵时正好能达到上述目标(对角化Cy)
-
奇异值分解(SVD)
- 用它的原因是它可以用来做特征值分解, 最终目的仍然是求Cx的特征值和特征向量
-
降维
- PCA可以用于降维
- 但是降维本身不是PCA的一部分