主成分分析与主成分回归.ppt

上传人:新** 文档编号:568614428 上传时间:2024-07-25 格式:PPT 页数:48 大小:3.55MB
返回 下载 相关 举报
主成分分析与主成分回归.ppt_第1页
第1页 / 共48页
主成分分析与主成分回归.ppt_第2页
第2页 / 共48页
主成分分析与主成分回归.ppt_第3页
第3页 / 共48页
主成分分析与主成分回归.ppt_第4页
第4页 / 共48页
主成分分析与主成分回归.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《主成分分析与主成分回归.ppt》由会员分享,可在线阅读,更多相关《主成分分析与主成分回归.ppt(48页珍藏版)》请在金锄头文库上搜索。

1、1. Introduction主成分分析与主成分回归Principal Component Analysis and Regression2. PCA3. PCR1. Introduction1.1 Chemometrics1.2 Necessary KnowledgeNecessary Knowledge1.1 Chemometrics1.1.1. 1970S发展1.1.2. 交叉学科1.1.3. 现代仪器1.1.4. 一个例子1971:瑞典人S. Wold 基金项目定名时首提1974:S. Wold 何B.R. Kowalski 倡议在西雅图首开学术会议 新创学术刊物 J. Chem. I

2、nfo. Comp. Sci. J. Chemometrics Chemom. Intell. Lab. Syst.化学计量学与计量关系Chemometrics Stoichiometry需要化学计量学获得更多信息BACK应用数学、统计学、与计算机科学的手段设计或优化量测方法,并通过解析数据最大限度地获取化学及相关信息。化学 分析化学数学 统计学计算机科学 接口A New trend in Analytical Chemistry -Hyphenated Instrument (聯用儀器)Separation InstrumentSignalInstrumentHPLC DAD (diode-

3、array detector)GC MS (Mass-spectrometer)HPLC-DADvvGet more data3D chromatogramHPLC chromatogram of nuclueside of Cordyceps Sinensis (冬蟲草冬蟲草) at one wavelengthGC-MSGC chromatogram of peptic powder (平胃散平胃散)Mass spectrum taken at retention time 10.2 minutesBACKvvTwo-way data containing both chromatogra

4、phy and spectra;vvData matrix with more than 80 Megabytes;vvData base of lots of chemical standards 梁逸曾教授的经历美国标准局16组分PAH混合物标样(Sulpeco)已知峰已知峰已知峰已知峰9 9 9 9为苯并为苯并为苯并为苯并 aaaa蒽和屈蒽和屈蒽和屈蒽和屈,峰峰峰峰14141414为苯并芘和二苯并蒽的二组分重叠峰为苯并芘和二苯并蒽的二组分重叠峰为苯并芘和二苯并蒽的二组分重叠峰为苯并芘和二苯并蒽的二组分重叠峰BACKNext芴、苊、菲三混合Peaks 5 and 6 in the plot

5、峰5、峰6的演进特征投影图峰峰5 5的的的的前前前前5 5个特征值依次为个特征值依次为个特征值依次为个特征值依次为1638216382,24362436,12941294,2222,1111分辨所得的芴、苊、菲、蒽的色谱与光谱化学学报化学学报 19981998,中国科学,中国科学 19981998,ChemLabChemLab. 1999. 1999BACK线性代数1.2 Necessary Knowledge on Linear Algebra1.2.1 矢量Vector1.2.2 线性相关1.2.3 矩阵Matrix1.2.3 秩Rank一组溶液的光谱集合一组溶液的光谱集合一组溶液的光谱集

6、合一组溶液的光谱集合一条光谱一条光谱同物质不同浓度的光谱同物质不同浓度的光谱同物质不同浓度的光谱同物质不同浓度的光谱混合溶液中的物种数混合溶液中的物种数混合溶液中的物种数混合溶液中的物种数BACK矢量:矢量:n个有顺序的数a1, a2, an组成的数组。k11+ k22+ + kmm=0线性组合:线性组合:k1+ k2。 就称为,的行矢量:行矢量:(a1, a2, an);列矢量t 。问问:由由,组成的矩阵组成的矩阵, rank最大为几?最大为几? 1 =( 1 2 3 4 5 6 ) 2 =( 6 5 4 3 2 1 ) 3 =( 1 1 1 1 1 1 )1+ 23 =0Grade dik

7、 received by student i from professor k is矩阵矩阵: 一组相同大小的矢量组合一组相同大小的矢量组合经典例子经典例子: 教授给学生打分教授给学生打分True score of student iRelative loading(importance) given by professor kj: factors (i,e., subjects) chem., physics, math., etc. Four students three professortwo subject: Chemistry and EnglishProfessors 1 2

8、3Students1234Students1234Professors 1 2 3factors 1 212Factors3教授给教授给4学生写留学推荐信学生写留学推荐信S is the matrix of true scores, called the score matrixL is the matrix of importance, called the loading matrix得分矩阵载荷矩阵矩阵的秩矩阵的秩:对于A(mn), 其秩是A中 最大线性无关的行数(或列数)。 秩组分数?秩组分数?秩为几?秩为几?三种组分,吸收光谱各不相同(s1, s2 ,s3) 6组溶液,各组分浓度不同

9、 吸光度矩阵A(206)Rank =Number of Eigenvalue秩秩=不为不为0的特征值的数目的特征值的数目矩阵矩阵: 一组不同浓度组合的混合溶液测得的光谱集合一组不同浓度组合的混合溶液测得的光谱集合一组不同浓度组合的混合溶液测得的光谱集合一组不同浓度组合的混合溶液测得的光谱集合矢量矢量: 一条光谱一条光谱Eigenvalue 特征值特征值奇异值分解法奇异值分解法:Y=USVt S: 对角矩阵,收集了Y的特征值 U: 标准列正交矩阵(Scores Matrix) Vt:标准行正交矩阵(Loadings Matrix) 用Matlab 很方便!一句话!BACK2. PCA 主成分分析

10、 Principal Component Analysis2.1 目的目的1 12.2 基本步骤基本步骤2 22.3 应用实例应用实例3 32.1 主成分分析主成分分析(PCA)的目的的目的BACK现代仪器获得两维数据(矩阵)矩阵处理确定秩为多少确定复杂分析体系中的物种数PCA的目的-定性有几种物种species定性2.2 PCA的步骤的步骤BACK矩阵分解真实误差法收集特征值特征值比值法Y=USVt在S中比较RSD与REMaxBACKNIPALS分解矩阵分解矩阵分解奖金10000元=10000150002100100110000Y=TP奇异值(SVD)分解SingleValueDecompo

11、sitionY=USVt S: 对角矩阵,收集了Y的特征值 U: 标准列正交矩阵(Scores Matrix) Vt:标准行正交矩阵(Loadings Matrix) 用Matlab 很方便!一句话!怎么分解?看了头大!分解成正交矩阵的乘积Y(mn)有d个主成分真实误差法真实误差法-确定主成分数确定主成分数d+表示来自主因子0表示来误差=真实误差RE (Real Error,可以知道)RE=RSD(剩余标准偏差)ResidualStandardDeviation确定或设定确定或设定RE d=1n-1计算计算RSD(d) d=1 RSD(d)REYES此时此时d即为主成分数即为主成分数Nod=d

12、+1RSD与实际误差是否吻合判断标准BACK相邻特征值比值法相邻特征值比值法出现最大值时相应的d 表示最小成分信号的表示最大噪声信号的显著差异BACK2.3 PCA的应用实例的应用实例BACK混合色素中组分数的确定反应过程中组分数的确定一组一组食用色素混合溶液食用色素混合溶液食用色素混合溶液食用色素混合溶液测得吸光度矩阵测得吸光度矩阵测得吸光度矩阵测得吸光度矩阵Y156dd d d/ / d d+1+1 RSD14.6084.10.117421.1301.80.059930.614564.00.001740.00961.150.001550.00841.160.0013PCA结果组分数 nc=

13、3722722的噪声水平的噪声水平的噪声水平的噪声水平0.0023 0.6145 64.0 0.0017同样的样品同样的样品用用Agilent 8453dd d d/ / d d+1+1 RSD15.73611.70.046420.4902.50.019530.19964.30.000440.00312.10.000350.00151.90.0002PCA结果组分数 nc=3噪声水平噪声水平0.0002 3 0.199 64.3 0.0004实际上有3种色素胭脂红柠檬黄日落黄反过来,已知主成分数时PCA: 通常可以正确判定主成分数通常可以正确判定主成分数根据RSD判断仪器的噪声水平判断操作者的

14、操作水平使用7220.00100.0040BACK实例讨论实例讨论-for a chemical reaction三种化学成分三种化学成分A、B、C,光谱线性无关光谱线性无关Model 1:Consecutive 1st order reactionResult: Rank=number of component=3Matrix two-way data 光谱矩阵 S动力学矩阵 Q两维数据矩阵YY = QST日落黄电解降解日落黄电解降解最终产物最终产物无吸收无吸收有中间体有中间体吗吗?日落黄电解降解日落黄电解降解dd d d/ / d d+1+1 RSD14.1476.000.025520.6

15、9125.800.001230.02682.350.000740.01141.180.000550.00970.0003PCA 结果组分数 d=2PCA确定组分数确定组分数nnn/n+1 RSD123.06010.60.0617122.1862.40.0241130.910215.70.0001440.0043.50.0000850.0011.20.0000760.0010.00007最终产物最终产物有吸收有吸收d=3实例讨论实例讨论三种化学成分三种化学成分A、B、C,光谱线性无关光谱线性无关Model 2:nc=3, rank=2Y = QST实例讨论实例讨论Model 3:Parallel

16、 reactionnc=3, rank=?ACBo1o2o1= or o2o1= o2=1k2qB-k1qC=0线性相关rank=2实例讨论实例讨论Model 3:Parallel reactionnc=3, rank=?ACBo1o2o1=0, o2=1dA/dt=k1+k2AdB/dt=k1dC/dt=k2A线性无关rank=3PCA确定组分数确定组分数Y = load(E:Hp8453BBOH15.txt);U, S, V = svd(Y);lmd=diag(S);n=size(lmd,1);for k=1:n-1 sumlmd=0; for j=(k+1):n sumlmd=sumlm

17、d+lmd(j)*lmd(j); end RSD(k)=sqrt(sumlmd/(nw*(nt-k);endPCA:Conclusions 根据矩阵的秩确定化学成分数组分无吸收No!谱线性相关亏秩! 某组分信号太弱复杂!好大学问! BACK3. PCR 回归 Principal Component Regression3.1 概念概念1 13.2 基本步骤基本步骤2 23.3 应用实例应用实例3 33.4 提醒提醒3 33.1 PCR:概念:概念BACK主成分分析PCA PCR多元校正之一因子分析FA 主成分回归PCR 多元校正MC 相似概念常常混用步骤略异侧重不同解决多组分同时测定问题定量3

18、.2 PCR:基本步骤:基本步骤K-矩阵法K-MatrixMethod数学模型实验测量数据矩阵Size: nwns吸光系数矩阵Size:nwnc混合浓度矩阵Size:ncns建模/校正See next预测已知K,解出未知样浓度单样品多样品3.2 PCR:基本步骤:基本步骤SVD分解SVD分解分离重组广义逆建模未知样预报与K矩阵法相比仅一次求逆过程剔除了主成分模型误差系数矩阵P意义不明确但用于预报是正确的 BACKY :波长数nw=8; 溶液数ns=6; 组分数nc=3YV tUSnc=3U后3列Vt后3行误差信息剔除后Y0V *tU*S*广义逆矩阵多元线性回归MLRMultiple Linea

19、r RegressionK-矩阵法建模相当于单波长单组分的工作曲线矩阵除法即乘以其逆矩阵方阵可求逆已知C CBACK多元线性回归MLRMultiple Linear RegressionK-矩阵法建模建模/校正(相当于单波长单组分的工作曲线)矩阵除法即乘以其逆矩阵方阵可求逆3.3 PCR:应用:应用BACK光度法多组分同时测定速差动力学多组分同时测定电化学谱的分辨及多组分测定多元校正滴定其他矩阵数据3.4 PCR:注意:注意线性关系-比耳定律加和性-共同响应,最好无协同正交程度-波谱不严重重叠标准集C-混合组成,不必纯组分一些作者报道了几乎完全线性相关的体系固定系列波长/电位/时间/pH/et

20、c 矩阵行列-一一对应3.4 PCR:编程:编程BACKclear; nc=3;Y = load(Y_standard.dat); C = load(C_standard.dat); nw,ns = size(Y); Y_sample = load(Y_sample.dat); U, S, V = svd(Y);U = U(:,1:nc);S = S(1:nc,1:nc);V = V(:,1:nc); % KEY STEPPmat = C*V*inv(S)*U;C_sample = Pmat*Y_sampleY(217)C(37)P=CY0+(721)附数据,请解析Welcome to Tongji University!2002.11.15

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号