因子分析法预测－金锄头文库

资源描述

《因子分析法预测》由会员分享，可在线阅读，更多相关《因子分析法预测（112页珍藏版）》请在金锄头文库上搜索。

1、因子分析与地质成因解释 (Factor Analysis),第十三讲,YOUR SITE HERE,第一节引言第二节主成分分析第三节因子分析第四节对应分析,主要内容,YOUR SITE HERE,第一节引言,YOUR SITE HERE,回归分析,因果,因子分析,由因索果,执果析因,YOUR SITE HERE,方阵的特征值和特征向量,对于n阶方阵A,A x = l x,特征值实数（也可以是复数）,特征向量 n维非零向量,可以用从一点指向另一点的箭头来表示,缩放因子,矩阵乘法对应了一个变换，把一个向量变成同维数的另一个向量,YOUR SITE HERE,一个变换的特征向量是

2、这样一种向量，它经过这种特定的变换后保持方向不变，只是进行长度上的伸缩而已。,特征向量所指示的方向是更本质的东西，特征值只不过反映了特征向量在变换时的伸缩倍数。,特征方程|A-lI|=0 的解为特征值l；满足 (A-liI)xi=0 的向量xi为li的特征量。,YOUR SITE HERE,n阶方阵A有且恰有n个特征值； AT与A有相同的特征值； n阶方阵A=(aij)nxn的迹等于其特征值之和；实对称矩阵A的特征值都是实数；实对称矩阵A的不同特征值所对应的特征向量都正交。,因此，其特征值可以排序：l1 l2 lp,因此，存在正交矩阵P，使得P-1AP = (以A的n个特征值为对角元素的

3、对角阵),YOUR SITE HERE,地质成因是地质学研究的根本问题之一。,理性认识感性认识,内在本质外在表象,从定量角度对各地质变量进行成因分析，所建立的数学模型一般有,主成分分析（又称主分量分析）因子分析（R型、Q型）对应分析,YOUR SITE HERE,在如此多的地质变量之中，有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。一般情形下，每个变量都会提供一定的信息，但其重要程度与侧重有所不同，且这些变量所提供的信息在一定程度上有所重叠。,把所有指标和数字都原封不动地摆出去吗？,YOUR SITE HERE,利用相

4、关性来对所涉及的变量加以“改造”和“组合”。用为数较少的、互不相关（或基本不相关）的新变量来“代表”原来多个变量所提供的信息。通过对新变量的分析达到合理分析和数据解释的目的。,相关互不相关,YOUR SITE HERE,潜在的、可导出的 (latent、 derived)少量不相关取主舍次识别、分离隐性的基因的,可观测的 (observed)大量相关主次杂乱混合、叠加显性的多样化的,地质资料观测变量,因子,两类变量的不同特性,执果析因,YOUR SITE HERE,最早提出：J. Person(皮尔逊)，主成分分析，1901、S. Spearman(斯卑尔曼)，真因子分析

5、，1904年，用于心理学研究；Benzeci(贝尔凯斯)，对应分析，1970。因子分析最早引入地质领域：W.C. Krumbren（克伦宾），1957年，研究沉积学。应用发展的重要地质人物：J.Imbrie(英布里),发展简史,已成为地质学等领域中传播最快、应用最广的多元统计方法之一。,YOUR SITE HERE,基本概念,是一种常用的处理高维数据的多元统计分析方法。是一种化繁为简，将指标尽可能压缩的降维（即空间压缩）技术。把数目较多的变量作线性组合，组合成几个主要的新变量主成分，少数几个主成分代表了原有变量变化的主要信息。又称主分量分析。,主成分分析(Principal Com

6、ponent Analysis),作用：降维,YOUR SITE HERE,信息的大小如何度量？,从统计分析角度看，一个指标（看作随机变量）或一串数据所包含的信息，可以用差异的大小方差来度量。方差越大，所包含的信息量就越大；方差越小，所包含的信息量就越小。,YOUR SITE HERE,x1,x2,y2,y1,YOUR SITE HERE,是一种常用的处理高维数据的多元统计分析方法。是一种探索不易观测或不能观测的潜在因素，用有限个隐变量来解释原始变量之间相关关系的技术。是通过对地质观测数据的分析来建立一个成因系统。它能把原来具有一定程度相关联系的地质变量转换为数量较少的由原始地质变量组

7、合而成的新变量因子，用它们来代替原始变量，各因子之间基本上是不相关的（基本独立）。又称析因分析。,因子分析(Factor Analysis),基本概念,YOUR SITE HERE,相关性度量：变量间的方差-协方差、相关系数,相关性度量：夹角余弦和各种距离系数,R型因子分析,R型因子分析是主成分分析的发展,Q型因子分析,研究变量之间的成因分类,研究样品之间的成因分类,因子分析分类,YOUR SITE HERE,C,I,M,F,E,A,B,D,K,L,G,J,N,形状因子1 因子2 因子3,2 +0 +0,C,2 +1 +1,YOUR SITE HERE,沉积盆地与剥蚀区示意图,F1,F2,

8、F3,xj = f(F1,F2,F3, ),YOUR SITE HERE,MgCO3,SiO2,CaCO3,C O Mg Ca Si,碳酸盐演示分类三角图解,YOUR SITE HERE,R2,R1,R14Si-11(Na+K)-2(Fe+Ti) R2 (Al+2Mg+6Ca),侵入岩分类R1-R2图解(De la Roche等, 1980),YOUR SITE HERE,因子分析典型应用问题,沉积盆地蚀源区的研究沉积物粒度分析沉积相研究地层分析古生物与古环境的研究岩石化学成分的研究变质岩原岩恢复矿床成因研究矿物的类质同象研究地球化学等,识别矿化活动的阶段和类型分析成矿控

9、制因素,识别地层剖面上发生的气候、水体深度、物质来源，水动力学条件等沉积环境因素的细微变化。,识别在同一时间点上不同空间过程的叠加过程；识别蚀源区的个数、岩石类型、分布,识别岩浆岩的形成过程，诸如岩浆的异源叠加，或同源多期侵入，分异作用，交代作用，同化作用，交代识别作用，矿化活动等；岩浆岩的分类,识别在同一空间点上不同时间过程的叠加过程,YOUR SITE HERE,作用：,用最精炼的形式描述地质对象（压缩原始数据，降维技术）指示成因推理方向（探索潜在因素、进行成因分类、思考成因结论）分解叠加的地质过程（例如：得到矿物共生组合变量划分不同成矿阶段不同地质过程分解、时空分解）等,YOUR

10、SITE HERE,是在R型因子分析和Q型因子分析的基础上发展起来的，能够揭示变量与样品之间双重关系的一种多元统计方法。又称R-Q型因子分析。,对应分析(Correspondence Analysis),基本概念,因子分析是研究系统分类、成因分类的重要手段，在地质研究中的作用：第一、压缩原始数据。第二、指示成因推理方向。第三、分解叠加的地质过程。,因子分析是研究变量间相关关系、样品间相似关系、变量与样品间成因联系以及探索它们之间产生上述关系之内在原因的一些多元统计分析方法的总称.根据它们的的研究对象可分为：（1）、主成分分析；（2）、R型因子分析；（3）、Q型因子分析；（4）、

11、对应分析；,因子分析在地质研究中的应用：,YOUR SITE HERE,第二节主成分分析,2 主成分分析,地质中经常要作多变量的综合分析，这些变量经常是不独立的，存在复杂的相关关系。为了化繁为简，用一种数学方法把数目较多的变量作线性组合，组合成几个主要的新变量主成分。,YOUR SITE HERE,一、主成分分析的基本思想,构造关于原始变量的适当的线性组合，形成几个新变量（即所谓的主成分），它们是我们用来代替原始变量进行资料解释的综合性指标。,这一分析过程应使得,每个新变量都是各原始变量的线性组合新变量的数目大大少于原始变量的数据新变量保留了原始变量所包含的绝大部分信息新变量之间互不相

12、关，即各自含义的信息不重叠。,主成分的几何意义:（1）N个点的新坐标F1和F2的相关很小，几乎为零。（2）在新坐标系中N个点的波动（方差）大部分归结为F1的波动，F2的波动很小，故用F1就可以反映变化的大部分信息。（3）由于是正交坐标系，坐标（F1，F2）与（x1，x2）间的关系可用下式表示:,A是正交矩阵，满足,计算步骤: （1）作数据标准化。（2）计算变量之间的相关系数矩阵（3）用Jacobi法计算相关系数矩阵R的特征值j及对应的特征向量uj(j=1,2,p)即可得主成分Fj，其表达式为:,（4）计算前m个特征值所占的累计百分比：（5）计算各个样品在m个主成分上的得分，第i个样品

13、的第j个主成分为:,（6）利用前m个主成分作地质解释或利用样品在主成分上的得分对样品进行分类。,YOUR SITE HERE,二、主成分分析的数学提法,观测资料矩阵,x1 x2 xp,Case,Var.,1 2n,确定应该构造多少个综合指标（主成分），并如何构造出各主成分的表达式（用x1,x2,xp表示）,YOUR SITE HERE,x1,x2,y2,y1,方差越大，所包含的信息量就越大,主成分分析,YOUR SITE HERE,我们希望用y1来代替原来p个变量x1,x2,xp，这就要求在向量l1的正则化条件下，y1的方差尽可能大，由此确定的随机变量y1称为第一主成分。如果第一主成分还不足

14、以反映原来p个变量的信息，那么考虑第二主成分。为了有效反映原变量的信息，新变量y1和y2所包含的信息不应重叠，即要求y1和y2不相关。前述两个约束条件下求l2使Var(y2)达到最大，从而得到第二主成分。,YOUR SITE HERE,以此类推，我们最多可以找出p个yi出来。然而我们最多只选择k个yi (i=1,2,k, k0。,YOUR SITE HERE,对p个指标，经过适当线性组合，p个新变量为,这里,y1,y2,yp分别称为第一主成分、第二主成分、第p主成分。 lij 称为第 i 个主成分 yi 在第 j 个原始变量 xj 上的载荷（主成分载荷），是第i个特征向量的第j个分量。,Y

15、OUR SITE HERE,其中，样本协方差矩阵,样本相关矩阵,对标准化数据矩阵：,新变量（随机变量）yi的方差与协方差,YOUR SITE HERE,一般地，在约束条件,（向量l的正则化）,（ yi和yk所包含的信息不应重叠，即yi和yk不相关）,之下求向量li ,使Var(yi)达到最大，由此向量li所确定的,称为x1,x2,xp的第i个主成分。,YOUR SITE HERE,三、主成分的性质, Y=LX, LL=I。这里，L为X的协差阵的特征向量（单位化的）组成的正交阵。 y 的各分量之间是互不相关的。 y 的 p 个分量是按方差大小、由大到小排列的。 y 的协差阵为对角阵。,YOUR SITE HERE,第k个主成分的方差贡献率,前k个主成分的累积方差贡献率(一般取80%, 85%),这里，a(yi,xj)表示第 i 个主成分 yi 和第 j 个原始变量 xj 之间的线性相关系数，称为因子载荷。矩阵A=(aij)称为因子载荷矩阵,标准化：消除量纲和数量级上的影响，sii=1,(kp),系统总方差不变,(i,j=1,2,p),YOUR SITE HERE,

展开阅读全文

因子分析法预测

最新文档