1. 问题
    1. 抽取数据的内部结构
  2. 思想
    1. 用一组更加有意义的基来表示数据
  3. 假设
    1. 线性假设
      1. 变量之间的关系是线性的
    2. 信噪比(SNR)假设
      1. 假设数据是具有大的信噪比的
        1. 方差大的主元是有意义的
        2. 方差小的主元是噪音
    3. 正交假设
      1. 假设主元是正交的
        1. 为了计算方便
    4. 即假设数据的内部结构很简单
  4. 目标
    1. 通过线性的基变换使得变换后的数据具有某些良好的性质
      1. 高信噪比
      2. 低冗余
        1. 即不同主元方向上的信号具有低相关性
    2. 数学表示
      1. 主元上信号的强度用'方差'来衡量
      2. 用不同主元方向上信号的冗余程度用'协方差'来衡量
        1. 只能用来衡量线性相关性
      3. 使得变换后的数据的协方差矩阵
        1. 对角线上的元素有序排列, 以方便区分信号响度
        2. 非对角线上的元素为0, 以最小化冗余
          1. 相当于消除了数据之间的二阶依赖(second-order dependency), 因为协方差是'二阶'混合中心矩
  5. 实现
    1. 特征值分解
      1. 根据特征值分解定理, 取P为Cx的特征向量矩阵时正好能达到上述目标(对角化Cy)
    2. 奇异值分解(SVD)
      1. 用它的原因是它可以用来做特征值分解, 最终目的仍然是求Cx的特征值和特征向量
  6. 降维
    1. PCA可以用于降维
    2. 但是降维本身不是PCA的一部分