单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,研究生课程,xie,*,主成分分析,主成分分析,(Principal Component Analysis PCA),主,成分分析,主成分分析是对多变量数据进行统计处理的一种数据线性投影方法,它在尽可能保留原有信息的基础上将高维空间中的样本映射到较低维的主成分空间其基本思路是以一种最优化方法浓缩量测数据信息,使数据矩阵简化,降低维数,寻找少数几个由原始变量线性组合的主成分,以揭示数据结构特征,提取基本信息该法具有变差最优性、信息损失最小性、相关最优性、回归最优性等特点2,主成分分析,主,成分分析的概念,主,成分分析的中心目的是将数据降维,以排除众多化学信息共相存相互重叠的信息它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息,新变量互不相关,即正交文献中有许多种叫法:本征矢量投影、奇异值分解、,karhunen,loeve,展开、和,K-L,投影,3,主成分分析,主成分分析的基本原理,在二维空间有一组测试点(,y,1i,y,2i,),(i=1,2,n),,,如下图,这组数据在二维平面上分布大致为椭圆形,若似将二维降为一维,实际上就是将二维空间上的点投影到一维空间中的一条线上。
4,主成分分析,主成分分析的基本原理,Y,1,Y,2,Y,1,Y,2,1,1,O,1,2,5,主成分分析,主成分分析的基本原理,在一维空间中的这条线必须包含原数据的最大方差更准确些说,沿着这条线,使方差达到最大,其它方向使方差达到最小从代数学的观点看,这些点的分布可以表达成它们到其重心,O,距离之平方加和:,S,2,=|O1|,2,+|O2|,2,+|O6|,2,6,主成分分析,主成分分析的基本原理,现在引入一直线,L,,,6,个数据点在,L,上的投影分别为,1,,,2,,,,,6,,那么有:,|Oi|,2,=|Oi|,2,+|ii|,2,S,2,=,|O1|,2,+|O2|,2,+|O6|,2,+,|11|,2,+|22|,2,+|66|,2,第一部分即为沿直线方向的方差,必须使之达到最大,;,第二部分即为沿其它方向的方差,必须达到最小为实现上述思想,选定的第一个新变量,1,(,主成分,1,)应沿直线,L,方向,因为它可以表征最大的偏差量第二个新变量,2,(,主成分,2,)应与第一个新变量正交,即不相关7,主成分分析,m,维空间中的主成分分析,在,m,维空间中,新变量,1,2,m,表达为,8,主成分分析,其,系数矩阵为,新,变量,和老变量,x,的列矢量分别为,矩阵形式为:,=VX,9,主成分分析,m,维空间中的主成分分析,方差最大化等效于,RxV,=,V,Rx,为,数据矩阵的协方差矩阵,,V,为,Rx,的特征向量,,为,Rx,的特征值。
第一个主成分,1,对应于第一个最大的特征值和第一个特征向量,第二个主成分,2,对应于第二个最大的特征值和第二个特征向量10,主成分分析,主,成分的选取,在,m,维空间中,可得,m,个主成分在实际应用中一般可取前几个对偏差量贡献大的主成分,这样可使高维空间的数据降到低维如二维或三维空间取前,P,个主成分的依据为:,比率,(%),11,主成分分析,注意事项,当,数据的来源不一,不同变量间数据差异较大或量纲不同时,应作标准化处理标准化处理有以下方法:,自动调整法,(,autoscaling,):,将变量与本列的均值之差被标准偏差来除此时相当于应用相关矩阵,R,X,来计算本征矢量和本征值:,R,X,V=,V,12,主成分分析,注意事项,归一化:对数据矩阵的列或整个矩阵进行归一化处理用,Matlab,命令:,normc(X,),或,norm(X,),均值中心化:从每个变量中减去该列的平均值值域调整法,(range scaling),:,13,主成分分析,数字实例,试样测定值 测定值标准化值(自动调节法),样品号,y,1,y,2,y,3,1,48,26,17,2,44,20,15,3,40,24,8,4,38,18,10,5,32,9,12,6,28,6,22,7,26,5,8,8,24,4,12,样品号,y,1,y,2,y,3,1,1.475,1.335,0.831,2,1.021,0.667,0.416,3,0.567,1.112,-1.039,4,0.340,0.445,-0.624,5,-0.340,-0.556,-0.208,6,-0.794,-0.890,1.871,7,-1.021,-1.001,-1.039,8,-1.248,-1.112,-0.208,14,主成分分析,本征值及本征,矢量的计算,数据矩阵,Cx,=,协方差矩阵,Z=,Cx,T,Cx,Z=,15,主成分分析,本征值及本征矢量的计算,通过协方差矩阵计算特征向量和特征值,用,Matlab,的函数:,V,,,D=,eig(Z,),本征,矢量矩阵,V,=,本征,值矩阵,D,=,16,主成分分析,主,成分的选择,从最大的本征值开始加和,使比率大于,80%,即:选择主成分,1,和主成分,2,比率,(%),比率,(%),17,主成分分析,新,变量方程,1,=,-0.7082C,1,-0.7046C,2,-0.0454C,3,2,=,0.0465C,1,-0.1107C,2,+0.9928C,3,通过上述变换,将,C,1,、,C,2,、,C,3,三维空间的各点,变为二维空间的点。
18,主成分分析,不同采收期连翘的,HPLC,指纹图谱研究,将,22,批连翘色谱图采用,Chromafinger,色谱指纹图谱软件进行数据处理,以各月份代表性样品生成的共有模式11,号峰为连翘脂苷,,17,号峰为连翘苷),19,主成分分析,不同采收期连翘主成分分析贡献率及累计贡献率,从主成分分析的贡献率来看:,PC1,的贡献率最大为,85.42,,,PC2,的贡献率次之 为,9.12,其他的贡献率较小从累积贡献率来看,取前,2,个特征值时,累积贡献率为,94.54,,故取前,2,个为主成分20,主成分分析,标准化特征向量,PC1,得分值是,11,、,17,和,21,号色谱峰峰面积值的综合作用PC2,得分值是,11,、,18,和,21,号色谱峰峰面积值的综合作用,峰号,主成分表达式,21,主成分分析,样本在,2,个主成分的二维平面分布图,综上所述,根据各样本,PC1,和,PC2,得分和相似度分析结果,进行综合评价,可以确定连翘在,8,月底至,9,月份采收为佳7,月份连翘各主要成分含量也很高,但此时是果实生长初期,,10,月份连翘,大都已经成熟,表皮开,始发黄,传统上采收入,药为老翘22,主成分分析,主成分分析法研究新疆产,6,种红景天中无机元素在其功效中的协同作用,景天科红景天属多种药用植物,具有滋补强壮、抗衰老、抗病毒、抗肿瘤、抗心率失常、保护心脏、抗辐射等功效。
新疆,6,种红景天微量元素含量(,g/g,),23,主成分分析,主成分分析结果,通过求变量的相关矩阵确定特征值和特征向量,根据特征值来确定主成分个数经计算,当主成分数达到,3,时,累计解释率已达到,80.133,,故取,3,个主成分即可3,个主成分所对应的特征值为,1,为,3.26,、,2,为,1.735,、,3,为,1.416,24,主成分分析,3,个主成分所对应的戴荷矩阵,25,主成分分析,Z1,得分及排名和解释,研究表明,人体,Ca,、,Mg 2,种元素的含量与心脑疾病的发生密切相关:陈丽霞等的研究指出,Ca,、,Mg,能降低胆固醇含量,从而起到预防冠心病的作用地奥心血康中,Ca,、,Mg,含量较高,有利于治疗冠心病胡雪梅等研究了治疗心血管疾病的,8,种中药的功效与微量元素的关系,结果表明这,8,种中药,Ca,、,Mg,含量较高第一主成分主要由,Ca,、,Mg2,种元素的含量按一定比例线性组合而成26,主成分分析,Z2,得分及排名和解释,王健等研究了,368,种中药表明,抗菌抗肿瘤药中富含,K,,说明,K,有抗肿瘤作用有研究表明,,Mg,具有抗癌抑癌作用,,Cu,的铬合物具有抗炎抗癌作用。
表明,K,、,Cu,、,Mg 3,种元素协同作用,共同起到抗炎抗癌作用第二主成分主要由,K,、,Cu,、,Mg 3,种元絮含量线性组合而成27,主成分分析,Z3,得分及排名和解释,益气补血类药中,Zn,、,Cu,、,Mn,、,Fe,含量较高,其益气补血的作用与,Zn,、,Cu,、,Mn,、,Fe,的生化功能有着必然的联系锰能促进铜的利用铜能加速铁的吸收和利用,铁、锰、铜有生血协同作用这,4,种元素按照一定的比例协同作用,共同起到益气补血的作用第三主成分主要由,Zn,、,Cu,、,Mn,、,Fe 4,元素含量线性组合而成,28,主成分分析,基于主成分分析的中药色谱指纹图谱多维多息特征数据挖掘方法研究,选择,10,批次不同产地的当归色谱指纹图谱作为实验样本,指纹图谱见图,1,将,10,批指纹峰号为,S01S10,的当归指纹图谱导入“中药色谱指纹图谱多维多息特征参数分析系统”,输入试验条件,进样量为,10l,、检测波长为,254 nm,,有效分离度最小值,1.5,、相对指数时间常数,50,,自动计算当归的,37,个多维多息特征参数29,主成分分析,10,批当归指纹图谱,30,主成分分析,特征根分析,31,主成分分析,主成分载荷矩阵,第,1,主成分:,试验条件优化指标;,第,2,主成分:,指纹图谱信息参数;,第,3,主成分:,指纹成分含量参数;,第,4,主成分:,指纹成分含量比例参数,32,主成分分析,综合主成分得分,33,主成分分析,主成分分析运用,(1),降维,(,或称数据压缩,),,寻找几个主成分,(,也称潜变量,),在低维空间表示高维数据;,(2),数据的可视化和分类聚类,主成分的投影显示法即可用于分类判别又可用于聚类,可以从投影图中看出样本与样本之间的关系,变量和变量之间的关系;,34,主成分分析,主成分分析运用,(3),降低随机误差,主成分分析的过程是寻找少数几个相互正交,方差最大的新变量,来重新构造数据,能够有效去除抽样误差;,(4),确定化学组分数,从数学意义上主成分分析的实质是特征值问题,主成分分析所得到的非零特征值的个数就是矩阵的秩,从化学意义上就是构成数据的化学组分数,确定了矩阵的秩就可以确定体系的组分数;,35,主成分分析,。