在机器学习分类问题中,往往有太多的因素影响最终分类,这些因素可以称为特征变量。特征数量越多,就越难将训练集可视化并进行处理。而降维算法即是通过获得一组主变量来减少随机变量数量的过程,它可以分为特征选择和特征提取。
特征选择:找到原始变量集的特征子集,以获得可用于对问题进行建模的较小子集。它通常涉及三种方式:筛选、包装器、嵌入式。
特征提取:这将高维数据减少到低维。
降维的方法
主成分分析(PCA)、线性判别分析(LDA)、广义判别分析(GDA)
降维可以是线性的也可以是非线性的,这取决于所使用的方法。
降维的优点
1、有助于数据压缩,从而减少存储空间。
2、减少了计算时间。
3、有助于删除冗余功能。
降维的缺点
1、可能会导致一些数据丢失。
2、PCA倾向于发现变量之间的线性相关性,这有时是不可取的。
3、在均值和协方差不足以定义数据集的情况下,PCA会失败。