pca主成分分析法详细步骤
pca算法属于?
pca算法属于?
PCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
pls偏最小二乘法原理?
偏最小二乘法(PLS)介绍:偏最小二乘法是一种新型的多元统计数据分析方法,于1983年由S.Wold和等人首次提出。偏最小二乘法实现了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
基本原理:
PLS方法是建立在X(自变量)与Y(因变量)矩阵基础上的双线性模型,可以看做是由外部关系(即独立的X块和Y块) 和内部关系(即两块间的联系) 构成。
建立自变量的潜变量关于因变量的潜变量的线形回归模型,间接反映自变量与因变量之间的关系。该算法在建立回归的过程中,既考虑了尽量提取Y和X中的主成分(PCA—Principal Component Analysis,主成分分析的思想),又考虑了使分别从X和Y提取出的主成分之间的相关性最大化(CCA的思想)。
简单的说,PLS是PCA、CCA和多元线性回归这三种基本算法组合的产物。
数据降维的处理方法?
降维方式主要有两种方式:
1、一种是特征选择:直接选取原有维度的一部分参与后续的计算和建模过程,用选择的维度替代所有维度,整个过程不产生新的维度(即从现有的特征里选择较小的一些来达到降维的目的)。
方法:
(1)经验法:根据业务经验选择
(2)测算法:通过不断测试多种维度选择参与计算,通过结果来反复验证和调整并最终找到最佳特征方案
(3)统计分析方法:通过相关性分析不同维度间的线性相关性,在相关性高的维度中进行人工去除或筛选;通过计算不同维度间的互信息,找到具有较高互信息的特征集,然后把其中的一个特征去除或留下
(4)机器学习:通过机器学习算法得到不同特征的特征值或权重,然后再根据权重来选择较大的特征,例用决策树得出不同变量的重要程度。
2、另一种是特征提取:按照一定的数学变换方法,将高维空间的数据点映射到低维空间中,然后利用映射后的变量特征来表示原有的总体特征(即通过组合现有特征来达到降维的目的)。
方法:常用算法有独立成分分析(ICA)、主成分分析PCA、因子分析FA、线性判别分析LDA、局部线性嵌入(LLE)、核主成分分析(Kernel PCA)等