主元分析原理和算法1

资源描述

《主元分析原理和算法1》由会员分享，可在线阅读，更多相关《主元分析原理和算法1（3页珍藏版）》请在金锄头文库上搜索。

1、主元分析原理和算法一.主元分析原理1.主元分析PCA （Principle Component Analysis）是早年由Pearson在研究对空间中的一些点进行直线和平面的最佳拟合时提出来的。后来对主元方法进行改进，并被广泛应用。2主元分析方法是一种将多个相关变量转化为少数几个独立的变量的有效成分的分析法。这种方法的目的就是能在数据表中找到能概括原数据表中的信息或者能将一个高维空间降维处理。3在现代工业过程,，往往需要测量很多过程变量，用以对过程进行检测和控制。主元分析方法就是用少状况的量的不相关的变量携带足够的信息，来反映大量的过程变量所包含的关与过程运行状况的信息。也就是我们只

2、要通过对这少量不相关的量进行分析和处理，就可以达到对整个过程进行控制的目的。二主元分析算法1假设X是一个n*m数据矩阵，其中的每一列对应于一个变量，每一行对应于一个样本。那么矩阵X可以分解为m个向量的外积（外积就是两个等长向量的乘积，必须是列乘以行）之和，即：(11)X =+ t pT H-1 pT22mm式（1.1）中，ti称为得分向量，Pi称为负荷向量。X的得分向量也叫X的主元。各个得分向量之间是正交的，即对任何i和j，当i#时，满足tTt = 0。各个负荷向i i量之间也是正交的，同时每个负荷向量的长度都是1即：PTP = 0（i 丰 j）; PTP = 1（i = j）i ji

3、j2.主元分析方法具体步骤：=（x ）ij nx m n1 n 2nm “1）原始数据标准化，以消除量纲影响：x x Sij ij j j（2.1）x11x12x1mx21x22式中.x =兰 x S 2 =1 兰（x x ）2 j =，m式中： j nij ， j n 1ij j ，i=1i=12）计算已做标准化处理的数据变量之间的相关系数矩阵R：其中：Rriir21r12r22r1 mr2 mrmmr其元素 jk表示原变量X j与Xr = r的相关系数，jk kj ,rjk3)工(x:. x.)(x:. x.)kikJji, j = 1,2(x kixi)2 工(x kjx j) k=1k

4、=1计算R的特征根和特征向量： kii 八 kjk=1kj jJ24)解特征方程|九I - R = 0，常用雅可比法求出特征值,九,九九p1 2m，相应的特征向量记为1P = （P ，P ，P ）ii1i2im计算主元：ti = XP i并使其按大小顺序排列，记为土兀i代表数据矩阵X在和这个主元相对应的负荷向量方向上的投影，它的长度越大，X在p i方向上的覆盖程度或变化范围越大。tt llt II12IIm II若那么P1将代表数据X变化最大方向，Pm将代表数据变化最小方向。(i 二 1,2,m)计算各主成分贡献率及累计贡献率:i 贡献率：尹九kk =1工尢(i = 1,2,m)kk =1累计

5、贡献率：）2尢kk=1一般取累计贡献率达85%95%的特征值九，九2,，九k所对应的第1，第2,第k （km）个主成分。三建立主元回归模型PCR1.利用前面的主元分析方法，可以将由输入变量的矩阵X分解为若干个主元：X = tpT + t pT +ttT + E1122k k选取X的前k个主元来解释X的主要信息，E代表忽略其他小的主元所引起的误差，通常E 代表测量噪声。2.回归模型:Y = bt +b t +1 1 2 2+bt = TBk k K其中,b bl2k 为主元回归模型系数。可以利用数据拟合得到B=(TtT )-1TtYk k k 。3.由于Tk = XPk，所以Y = TB = XP B = X e k9其中二 PB 二 P (TtT )-iTtYkk k k k9即为采用原始变量作为输入变量的模型参数。4.结论：主元回归解决了由于输入变量间的线性相关而引起的计算问题。同时由于忽略了那些次要的主元，还起到了抑制测量噪声对模型系数影响的作用。

展开阅读全文