主成分分析(PCA)是一种降维技术,用于从高维数据中提取最重要的特征。它是一种线性方法,它试图识别并解释数据中最大方差的方向,并将数据投影到低维空间中,这些方向是新坐标。
PCA的基本思想是找到一组新的正交轴,称为主成分,用于捕获数据中最重要的信息。这些新轴是原始数据的线性组合,并经过选择,以便第一个主成分解释数据中的最大方差,第二个主成分解释第二大方差,依此类推。
为了计算主成分,PCA使用一种称为特征值分解的技术。这涉及找到数据的协方差矩阵的特征向量和特征值,然后使用这些特征向量将数据变换到一个新的、更低维的空间中。特征向量是主成分,特征值用于确定每个成分的重要性。
主成分分析(PCA)通常通过协方差矩阵的特征分解来解释。然而,它也可以通过数据矩阵的奇异值分解(SVD)来执行。换句话说,我们可以使用数据矩阵的SVD来进行降维。
具体为:
SVD声明任何矩阵A都可以被分解:A=USV^T这意味着U和V正交矩阵具有从AxA^T和A^TxA中选择的正交特征向量。S是一个对角矩阵,等于AxA^T和A^TxA的正特征值的根。
主成分分析(PCA)有许多实际应用。例如,它可用于降低图像数据的维度,使其更易于分析和分类。它还可用于识别基因表达数据中的模式并检测财务数据中的异常值。
除了降维之外,主成分分析(PCA)还允许通过将高维数据降为两个或三个维度来实现高维数据的可视化,这对于探索和理解数据的结构很有用。