主成分分析及主成分回归

上传人:第*** 文档编号:61915287 上传时间:2018-12-15 格式:PPT 页数:57 大小:3.20MB
返回 下载 相关 举报
主成分分析及主成分回归_第1页
第1页 / 共57页
主成分分析及主成分回归_第2页
第2页 / 共57页
主成分分析及主成分回归_第3页
第3页 / 共57页
主成分分析及主成分回归_第4页
第4页 / 共57页
主成分分析及主成分回归_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《主成分分析及主成分回归》由会员分享,可在线阅读,更多相关《主成分分析及主成分回归(57页珍藏版)》请在金锄头文库上搜索。

1、开场游戏,主成分分析与主成分回归 Principal Component Analysis and Regression,物以类聚,人以群分,一系列问题?,先发布今日网络讨论题,查阅PCA的各种应用实例。,讨论你擅长的数据处理/编程方式?,如何数理解“主成分”?,有关这个分类的一系列疑问,特征通常会很多吗?,每个特征的差异都很大吗?,要直观的分类图维数有限制吗?,提前的特征都像身高 那样意义明确吗?,许多特征到底取哪2个呢?,YES,NO,123,NO,新 学问,1. Introduction,主成分分析与主成分回归 Principal Component Analysis and Regre

2、ssion,2. PCA,3. PCR,1. Introduction,1.1 Chemometrics,1.2 Necessary Knowledge,1.1 Chemometrics,1) 1970S发展,2) 交叉学科,3) 现代仪器,4) 一个例子,1971:瑞典人S. Wold 基金项目定名时首提 1974:S. Wold 和B.R. Kowalski 倡议在西雅图首开学术会议 新创学术刊物 J. Chem. Info. Comp. Sci. J. Chemometrics Chemom. Intell. Lab. Syst. 化学计量学与计量关系 Chemometrics Stoi

3、chiometry,需要化学计量学 获得更多信息,BACK,应用数学、统计学、与计算机科学的手段设计或优化量测方法,并通过解析数据最大限度地获取化学及相关信息。 化学 分析化学 数学 统计学 计算机科学 接口,Hyphenated Instrument,HPLC DAD (diode-array detector) GC MS (Mass-spectrometer),HPLC-DAD,Get more data,3D chromatogram,HPLC chromatogram of nuclueside of Cordyceps Sinensis (冬蟲草) at one wavelengt

4、h,GC-MS,GC chromatogram of peptic powder (平胃散),Mass spectrum taken at retention time 10.2 minutes,BACK,Two-way data containing both chromatography and spectra; Data matrix with more than 80 Megabytes; Data base of lots of chemical standards,梁逸曾教授的经历,美国标准局16组分PAH混合物标样(Sulpeco) 已知峰9为苯并a蒽和屈,峰14为苯并芘和二苯并

5、蒽的二组分重叠峰,BACK,Next,芴、苊、菲三混合,Peaks 5 and 6 in the plot,峰5、峰6的特征投影图,峰5的前5个特征值依次为 16382,2436,1294,22,11,峰6直线表示单组分,3个大特征值,分辨所得的芴、苊、菲、蒽的色谱与光谱 化学学报 1998,中国科学 1998,ChemLab. 1999,BACK,1.2 Necessary Knowledge on Linear Algebra,线性代数,1) 矢量Vector,2) 线性相关,3) 矩阵Matrix,4) 秩Rank,BACK,1.2 Necessary Knowledge on Line

6、ar Algebra,矢量:n个有顺序的数a1, a2, an组成的数组。,k11+ k22+ + kmm=0,线性组合:k1+ k2。 就称为,的,行矢量:(a1, a2, an);列矢量t 。,问:由,组成的矩阵, rank最大为几?,1 =( 1 2 3 4 5 6 ) 2 =( 6 5 4 3 2 1 ) 3 =( 1 1 1 1 1 1 ),1+ 23 =0,BACK,Grade dik received by student i from professor k is,矩阵: 一组相同大小的矢量组合 经典例子: 教授推荐信给学生打分,j: factors (i,e., subjec

7、ts) chem., physics, math., etc.,Four students three professor two subject: Chemistry and English,3教授给4学生写留学推荐信,矩阵的秩:对于A(mn), 其秩是A中 最大线性无关的行数(或列数)。,秩组分数?,秩为几?三种组分,吸收光谱各不相同(s1, s2 ,s3) 6组溶液,各组分浓度不同 吸光度矩阵A(206),Rank =Number of Eigenvalue,秩=不为0的特征值的数目,Eigenvalue 特征值,奇异值分解法:Y=USVt S: 对角矩阵,收集了Y的特征值 U: 标准列

8、正交矩阵(Scores Matrix) Vt:标准行正交矩阵(Loadings Matrix) 用Matlab 很方便!一句话!,BACK,2. PCA 主成分分析 Principal Component Analysis,2.1 目的1,2.2 基本步骤2,2.3 应用实例3,2.1 主成分分析(PCA)的目的,BACK,现代仪器获得两维数据(矩阵),矩阵处理 确定秩为多少,确定复杂分析体系中的物种数,PCA的目的-定性 有几种物种species,定性,2.2 PCA的步骤,BACK,矩阵分解,真实误差法,收集特征值,特征值比值法,Y=USVt,在S中,比较RSD与RE,Max,矩阵分解,B

9、ACK,NIPALS分解,Y=TP,S: 对角矩阵,收集了Y的特征值 U: 标准列正交矩阵(Scores Matrix) Vt:标准行正交矩阵(Loadings Matrix) 用Matlab 很方便!一句话!,怎么分解? 看了头大!,分解成正交矩阵的乘积,真实误差法-确定主成分数d,Y(mn)有d个主成分,=,真实误差RE (Real Error,可以知道?),RE=RSD (剩余标准偏差) Residual Standard Deviation,确定或设定RE,d=1n-1计算RSD(d),YES,此时d即为主成分数,BACK,相邻特征值比值法,出现最大值时 相应的d,显著差异,BACK,

10、2.3 PCA的应用实例,BACK,混合色素中 组分数的确定,反应过程中 组分数的确定,一组食用色素混合溶液,测得吸光度矩阵Y156,PCA结果,组分数 nc=3,722的噪声水平0.002,3 0.6145 64.0 0.0017,PCA结果,组分数 nc=3,噪声水平0.0002,3 0.199 64.3 0.0004,实际上有3种色素 胭脂红柠檬黄日落黄,反过来,已知主成分数时,PCA: 通常可以正确判定主成分数,根据RSD,实验内容之一,3种色素,下学期完成 1人1组 考核基本功,谁来挑战 记录?,BACK,实例讨论-for a chemical reaction,三种化学成分A、B、

11、C,光谱线性无关,Model 1:,Consecutive 1st order reaction,Result: Rank=number of component=3,Matrix two-way data,光谱矩阵 S,动力学矩阵 Q,两维数据矩阵Y,Y = QST,日落黄电解降解,最 终 产 物 无 吸 收,有 中 间 体 吗 ?,日落黄电解降解,组分数 d=2,PCA 结果,PCA确定组分数,最终产物 有吸收,d=3,实例讨论,三种化学成分A、B、C,光谱线性无关,Model 2:,nc=3, rank=2,Y = QST,实例讨论,Model 3:Parallel reaction,n

12、c=3, rank=?,A,C,B,o1,o2,o1= or o2,o1= o2=1,k2qB-k1qC=0 线性相关 rank=2,实例讨论,Model 3:Parallel reaction,nc=3, rank=?,A,C,B,o1,o2,o1=0, o2=1,-dA/dt=k1+k2A,dB/dt=k1,dC/dt=k2A,线性无关 rank=3,PCA确定组分数,Y = load(E:Hp8453BBOH15.txt); U, S, V = svd(Y); lmd=diag(S); n=size(lmd,1); for k=1:n-1 sumlmd=0; for j=(k+1):n

13、sumlmd=sumlmd+lmd(j)*lmd(j); end RSD(k)=sqrt(sumlmd/(nw*(nt-k); end,PCA:Conclusions,根据矩阵的秩确定化学成分数,BACK,3. PCR 回归 Principal Component Regression,3.1 概念1,3.2 基本步骤2,3.3 应用实例3,3.4 提醒3,3.1 PCR:概念,BACK,PCR多元校正之一,相似概念常常混用,步骤略异侧重不同,解决多组分同时测定问题,定量,3.2 PCR:基本步骤,K-矩阵法 K-Matrix Method,数学模型,建模/校正,See next,预测,已知K

14、,解出未知样浓度,3.2 PCR:基本步骤,SVD分解,SVD分解,分离,重组,广义 逆,建模,未知样 预报,与K矩阵法相比 仅一次求逆过程 剔除了主成分模型误差 系数矩阵P意义不明确 但用于预报是正确的,BACK,Y :波长数nw=8; 溶液数ns=6; 组分数nc=3,广义逆矩阵,K-矩阵法 建模,相当于单波长单组分的工作曲线,矩阵除法即乘以其逆矩阵,方阵可求逆,已知C,BACK,K-矩阵法 建模,建模/校正(相当于单波长单组分的工作曲线), 矩阵除法即乘以其逆矩阵, 方阵可求逆,PCR:应用,BACK,光度法 多组分同时测定,速差动力学 多组分同时测定,电化学谱的分辨 及多组分测定,多元

15、校正滴定,其他矩阵数据,3.4 PCR:注意,线性关系-比耳定律,加和性-共同响应,最好无协同,正交程度-波谱不严重重叠,标准集C-混合组成,不必纯组分,一些作者报道了几乎完全线性相关的体系,固定系列波长/电位/时间/pH/etc,矩阵行列-一一对应,3.4 PCR:编程,clear; nc=3; Y = load(Y_standard.dat); C = load(C_standard.dat); nw,ns = size(Y); Y_sample = load(Y_sample.dat); U, S, V = svd(Y); U = U(:,1:nc); S = S(1:nc,1:nc);

16、 V = V(:,1:nc); % KEY STEP Pmat = C*V*inv(S)*U; C_sample = Pmat*Y_sample,附数据,请解析,程序演示模块,Matlab分解矩阵,判断主成分,Matlab之PCR预报,数据处理方法讨论,这里讨论一些方法、案例。,搜索软件,总结后网络继续讨论,今日话题 提供处理结果更好!。,委托编程,自己动手编程,使用excel,数据处理方法讨论,看我们这里的程序和网络平台,excel,头尾呼应:分类红木,高斯分布与色谱分离度,回归与误差产生,See,红木分类,色谱指纹图谱,See,红木分类,Excel其他应用,See,高斯分布,Welcome to Tongji University!,Thank you for you

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号