DPS应用多元统计分析实用教案

资源描述

《DPS应用多元统计分析实用教案》由会员分享，可在线阅读，更多相关《DPS应用多元统计分析实用教案（42页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。在采用多元统计分析进行数据处理、建立宏观或微观系统模型时，主要研究以下几个方面的问题：简化系统结构，探讨系统内核。可采用主成分分析、因子分析、对应分析等方法，在众多因素中找出各个变量最佳的子集合，从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。构造预测模型，进行预报控制。探索多变量系统运动的客观规律及其与外部环境的关系，进行预测预报，以实现对系统的最优控制，是应用多元统计分析技术的主要目的。在多元分析中，用于预报控制的模型有两大类。一类是预测预报模型，通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分

2、析等建模技术。另一类是描述性模型，通常采用聚类分析的建模技术。进行数值分类，构造分类模式。在多变量系统的分析中，往往需要将系统性质相似的事物或现象归为一类，以便找出它们之间的联系和内在(nizi)规律性。过去许多研究多是按单因素进行定性处理，以致处理结果反映不出系统的总的特征。进行数值分类，构造分类模式一般采用聚类分析和判别分析技术。第1页/共41页第一页，共42页。如何选择适当的方法来解决实际问题？需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报(ybo)模型的建立，可先根据有关生物学、生态学原理，确定理论模型和试验设计；根据试验结果，收集试验资料；对资料进行

3、初步提炼；然后应用统计分析方法(如相关分析、逐步回归分析、偏最小二乘回归分析、主成分分析等)研究各个变量之间的相关性，选择最佳的变量子集合；在此基础上构造预报(ybo)模型，最后对模型进行诊断和优化处理，并应用于生产实际。第2页/共41页第二页，共42页。一、回归(hugu)分析第3页/共41页第三页，共42页。（一）线性回归(hugu)为研究医院所需要的人力，某部门对所辖的17 家医院调查了一组数据，共6个变量：x1 为日平均病人数，x2 为月平均X 光透视人数，x3 为月平均所占用(zhn yn)的床位天数，x4 为当地人口数/1000，x5 为平均每个病人住院天数，y 为月平均使用的人小

4、时数。在DPS 中，将17 家医院数据编辑、定义成数据块(图)在菜单下选择“多元分析回归分析线性回归”功能项后，系统会给出下图的操作界面第4页/共41页第四页，共42页。（一）线性回归(hugu)1. 残差图（缺省状态是以因变量的拟合值作横坐标、残差作为纵坐标，显示当前回归方程拟合残差）。可提供以下基本信息：如果各个点都在2 到2 的范围之内，且没有任何趋势，这说明所选用的模型是好的。如果残差图不正常，有异常点(散点)落在22 的范围之外，或Cook 距离大于1，或散点分布有某种趋势，这说明模型不是很好，应当进行适当的修正。如果残差呈现某种趋势，而不是散点分布，这时须考虑线性回归模型是否合

5、适，或考虑建立其他回归函数模型。当误差方差随因变量估计值(或自变量)的增大而增大，这时方差显示为非齐性，这时须考虑对数据进行转换。如果有离群值(异常点)应酌情处理(删除、压缩等)。2.各个自变量参数估计主要结果：包括回归系数、标准回归系数、回归系数显著水平及各个自变量的方差膨胀系数，这一块主要为诊断各个自变量是否存在多重共线性现象而设计的。3.数据转换：提供了取对数、平方根及倒数等3 种数据转换方式，当残差图分析表明方差显示为非齐性时可考虑对数据进行转换，在点击“重新建立方程”按钮后，即可得到(d do)新的回归方程，并可继续诊断残差性能。4.预测区域：可输入各个预报因子的取值，并指定计算

6、置信区间的置信水平，点击“预测”按钮后即可得到(d do)预测值及其在当前置信水平下的置信区间值。5.当前回归方程总体检验指标模块：给出了当前模型的决定系数、F 检验值及其显著水平。一个较好的回归模型不但要求显著水平的值小，而且决定系数要大。当诊断、预测结束后，点击右下角的“返回编辑” 按钮，系统会给出分析结果第5页/共41页第五页，共42页。（二）逐步回归分析(fnx)从多元线性回归分析中我们知道，如果采用的自变量越多，则回归平方和越大，残差平方和越小。然而，采用较多的变量来拟合回归方程，会使得方程的稳定性差，每个自变量的区间误差积累将影响总体误差，用这样建立起来的回归方程作预测的可靠性差、

7、精度低；另一方面，如果采用了对Y 影响甚小的变量而遗漏了重要变量，可导致估计量产生偏倚和不一致性。鉴于上述原因，我们希望得到“最优”的回归方程，这样的“最优”回归方程就是包含所有对Y 有显著影响的变量而不包含对Y 影响不显著的变量的回归方程。逐步回归分析法就是一种能自动地从大量可供选择(xunz)的变量中选择(xunz)那些对建立回归方程比较重要的变量的方法。第6页/共41页第六页，共42页。（二）逐步回归分析(fnx)数据的输入格式是一行为一个样本，一列为一个变量，因变量放在最右边(yu bian)，输完一个样本后再输下一个样本。将输入待分析的所有数据定义成数据矩阵块。n在逐步回归分析时，系

8、统首先在0.1 的置信水平下挑选自变量，并自动调整值以保证选入一个自变量因子，在当前所取的Fx 值下，进行逐步回归(引入或剔除变量)。在当前值分析结束时，系统会出现如图界面，并询问用户是继续引入变量、剔除变量还是(hi shi)结束变量的引入、剔除工作。第7页/共41页第七页，共42页。（二）逐步回归分析(fnx)输出结果包括各个变量的平均值、标准差、协方差矩阵和相关系数矩阵；回归方程式；偏相关系数、t 检验值、复相关系数及其临界值；回归方程剩余标准差；拟合值及拟合误差；直接通径系数、间接通径系数和决定系数等。主要分析结果解释(1) 回归模型诊断：第一，方程的方差分析F 值的显著水

9、平p 要小于等于0.05，否则，所建立的回归方程不能使用；第二，各个回归系数的偏相关系数的显著水平最好也小于等于0.05；第三(d sn)，Durbin-Watson 统计量 d 是否接近于2。(2) 通径分析：根据通径系数的大小和正负，可以推断各个因子对因变量的直接影响和间接影响。第8页/共41页第八页，共42页。（三）二次多项式回归(hugu)分析现代的二次回归正交旋转设计试验，即把正交设计和回归分析有机地结合起来，在正交设计的基础之上，利用回归分析，在给出的因素和指标之间，找出一个明确的函数表达式，建立因果关系的数学模型，以便定量地描述在某个生物学过程中各因素对指标的作用，并用该数学模型

10、预测和控制生产。目前，组建多元二次回归模型几乎都是运用二次(旋转)回归设计来实现，当然也可对某些符合要求的历史资料作同样的分析，组建类似于二次(旋转)回归模型的多元二次多项式模型。对这类回归分析模型，也可对其进行逐步回归分析，只保留(boli)显著的项，剔除不显著的项。DPS 系统提供的二次多项式回归功能模块的操作和使用方法可参考单因变量逐步回归分析部分，不同之处只是在处理数据矩阵时，除原始数据外还自动生成包括数据的二次多项式(即把各个自变量数据的二次多项式也作为一个自变量因子)。因此，系统最多能处理10 个自变量的原始数据矩阵(即m10)。第9页/共41页第九页，共42页。（四）趋势(qsh

11、)面分析在某些研究领域(ln y)，数学模型多为非线性模型，而且寻求这些非线性模型的函数表达式一般比较困难，在这种情况下可采用多项式形式去拟合回归方程。在利用趋势面分析拟合回归模型时，所选择的趋势面模型必须使剩余值比较小，回归平方和比较大，这样才能使拟合度较高，结果才能达到足够的准确性。例如粮食产量与气温和降雨量等自然因素的关系是非线性关系，可采用趋势面分析来拟合回归模型从而预测粮食产量。数据的输入格式是1 行1 个样本，每行依次放入自变量x、y 和因变量z。将待分析的数据定义成数据块后，在菜单方式下选择“趋势面分析”。第10页/共41页第十页，共42页。（四）趋势(qsh)面分析例如某地铜元

12、素在地表一特定的地层中含量的变化情况，现将各个采样(ci yn)点的原始数据编辑成右图的格式。图中第一列是经度、第二列是纬度，第三列是铜元素含量。第11页/共41页第十一页，共42页。（四）趋势(qsh)面分析执行“趋势面分析”后，系统(xtng)会出现如下对话框。在对话框中，系统(xtng)给出了当前运行参数的缺省值。当然可根据自己的要求修改这些参数。在对话框中，可改变趋势面次数等。第12页/共41页第十二页，共42页。（四）趋势(qsh)面分析参数修改后，用鼠标点击“保存图形”按钮，这时系统(xtng)会将等高线图保存下来。退出对话框后，系统(xtng)给出分析结果如下：趋势面方程： Z

13、=-39602.61631+993.64405*X+1703.76971*Y-22.62857*X2-9.16000*X*Y-30.91428*Y2+0.1916667*X3+0.0571429*X2*Y +0.0571429*X*Y2+0.1916667*Y3 残差标准差=1.027016021942，F=5.9454，P= 0.0015，拟合度=78.10%从计算结果可以看出，趋势方程的方差分析，其显著水平p 等于0.0015，达到极显著水平，拟合度78.10%。第13页/共41页第十三页，共42页。（五）聚类分析聚类分析(cluster analysis)是数理统计(sh l tn j)

14、中研究“物以类聚”的一种方法。在数值分类方面，可归纳为两大类问题：一类是已知研究对象的分类情况，将某些未知个体正确地归属到其中某一类，这是判别分析问题；另一类问题是在事前没有分类的情况下进行数据结构的分类，这就是聚类分析所要解决的问题。第14页/共41页第十四页，共42页。（五）聚类分析聚类分析的功能是将一批样品或变量按照它们在性质上的亲疏程度进行分类。描述这种亲疏程度通常有两个途径：一是把每个样品看成m 维(变量的个数为m个)空间的一个点，进而在m 维坐标中，定义点与点之间的某种距离。另一途径是用某种相似系数来描述样品之间的亲疏程度。当确定了样品或变量间的距离或相似系数后，就可以对样品或变量

15、进行分类。分类的方法很多。一类方法是在样品距离的基础上定义类与类之间的距离，首先将n 个样品自成一类，然后每次将具有最小距离的两类合并，合并后重新计算类与类之间的距离，将此过程一直继续到所有样品归为一类为止。最后把这个过程做成一张聚类谱系图。这种聚类方法称为系统聚类法。另一类方法是将n 个样品初步分类，然后根据分类函数尽可能小的原则，对已分类别进行调整，直到分类合理为止。这种聚类方法称为调试(dio sh)法，如动态聚类就属于该类型。此外，还有在不打乱样本秩序的条件下对样本进行聚类分析，如有序样本的最优分割法。第15页/共41页第十五页，共42页。（五）聚类分析1.系统聚类分析2.系统聚类就是

16、利用变量或样本间亲疏程度的数量指标，即相似系数或距离远近来进行聚类。目前已有大量的相似系数和距离，但在数值分类中比较常用的却是少数。3.欧氏距离：它是聚类分析中最广泛使用的距离。4.绝对值距离(又称Manhattan 度量或网格变量)5.切比雪夫距离6.兰氏距离：这是一个自身标准化的量。由于它对大的奇异值不敏感，故它特别适合高度偏倚的数据。7.马氏距离8.卡方距离：徐振帮等(1986)认为，卡方距离比欧氏距离等常用的距离系数有更强的分辨(fnbin)能力。第16页/共41页第十六页，共42页。（五）聚类分析1.系统聚类分析2.编辑数据、定义数据块：一行一个样本，一列一个变量；选定待分析数据，

17、定义成数据矩阵块；3.进入主菜单，选项执行“系统聚类分析”过程：在分析过程中，系统会先后要求选择数据转换方法、相似性尺度以及聚类方法。不过(bgu)，对每一种选择都有一个默认值。可采用系统的默认值对数据实施规格化转换、采用卡方距离相似尺度和以离差平方和聚类方法进行聚类分析。4.例：为研究某地19621988 年三化螟种群消长演替规律，根据历年积累的资料进行系统聚类分析。三化螟种群消长特征指标有第二、三代幼虫发生量，第二、三代卵盛孵高峰期(分别以5 月31 日和7 月20 日为零)，二代至三代及三代至四代的增殖系数。原始数据编辑整理及其数据块的定义见图第17页/共41页第十七页，共42页。（五）

18、聚类分析由于该数据的量纲不同，各列数据由于该数据的量纲不同，各列数据( (即各个变即各个变量量) )的数量级别相差也较大，故在进行聚类分的数量级别相差也较大，故在进行聚类分析之前先采用规格化变换析之前先采用规格化变换(bi(bi nhunhu n)n)方法对数方法对数据进行处理。对原始数据进行规格化变换据进行处理。对原始数据进行规格化变换(bi(bi nhunhu n)n)后，再确定距离系数计算方法，在后，再确定距离系数计算方法，在此采用卡方距离进行聚类分析。此采用卡方距离进行聚类分析。最后还要进行聚类分析方法的选择，本例中最后还要进行聚类分析方法的选择，本例中分别采用离差平方和法、类平均法、

19、重心法分别采用离差平方和法、类平均法、重心法和最短距离法等四种方法进行分析。聚类分和最短距离法等四种方法进行分析。聚类分析的输出结果包括数值和图形两部分，数值析的输出结果包括数值和图形两部分，数值结果为各个样本的联结序号、联结水平和聚结果为各个样本的联结序号、联结水平和聚类谱系图索引类谱系图索引(suyn)；图形结果输出在屏；图形结果输出在屏幕上（图）。幕上（图）。第18页/共41页第十八页，共42页。（五）聚类分析从聚类分析结果看，以离差平方和法的聚类效果最好。它将27 个样本分成4类：第1 类包括8 个样本(1，4，5，6，2，3，17，21)第2 类包括11 个样本(7，20，14，10

20、，11，12，22，25，26，27，23)第3 类包括6 个样本(8，9，18，15，16，19)第4类只有13 和24，两个样本可以看成是一个特殊类别。最短距离法的聚类效果最差，而重心法由于所得到的谱系图出现逆转现象(xinxing)，且无法分类，从树状谱系图观点来看，该方法是不恰当的，这是重心法的一个缺点。第第1 1类是重发生类是重发生(fshng)(fshng)年类型；年类型；第第2 2、3 3类是偏轻发生类是偏轻发生(fshng)(fshng)年类型，年类型，偏轻类型中的第偏轻类型中的第2 2类类是三代多发型，第是三代多发型，第3 3类是四代多发型；而类是四代多发型；而第第4 4类，

21、即类，即19741974年和年和19851985年年( (样本样本1313，24)24)除第三代发生除第三代发生(fshng)(fshng)量大之外，量大之外，第二代的发生第二代的发生(fshng)(fshng)量也很大，量也很大，属于三化螟猖獗发生属于三化螟猖獗发生(fshng)(fshng)年。年。第19页/共41页第十九页，共42页。（五）聚类分析2.0-1型变量聚类分析3.当原始数据是二元性质的属性变量时，由于数据结构(sh j ji u)的特殊性，它不必进行数据转换处理。它可直接根据原始数据计算相似系数和距离系数。4.聚类分析数据编辑格式：一行一个样本，一列一个变量(第一列可以是样本

22、名称)。编辑完后将待分析数据及其样本名称同时定义成数据块，然后执行“多元分析聚类分析0-1数据聚类分析”功能，系统出现如下选择框第20页/共41页第二十页，共42页。（五）聚类分析2.0-1型变量聚类分析3.在用户选择框内的右下角，多了一个0-1 化阈值输入框，这是提供用户将数量化指标转换成0-1 指标进行聚类分析的技术。如果是数量化指标，在经过数据转换后，再将转换后数据进行规格化变换处理，即从转换后数据矩阵的每一个变量中找出其最大和最小值，两者之差称为极差，然后从每一个原始数据中减去该变量中的最小值，再除以极差（称为规格化转换）。经这样的变换后，每列的最大数据变为1，最小数据变为0，其余(q

23、y)数据取值在0 1 之间。这时和给定的阈值相比，如大于等于给定的阈值则赋值为1，否则赋值为0。p然后选定聚类距离和聚类方法。如果定义的数据块第一列是样本名称(mngchng)，则在“第一列是否是样本名称(mngchng)”选择框中选择“是”。p分析结束时，系统会显示系统聚类树状图，用鼠标双击树状图后，会显示提示保存聚类图的界面第21页/共41页第二十一页，共42页。（五）聚类分析3.动态聚类分析4.动态聚类法又称逐步聚类法，其基本思想是：首先，按照一定的方法选取一批凝聚点，然后让样品向最近(zujn)的凝聚点凝聚。这样由点凝聚成类，得到初始分类。初始分类不一定合理，然后按最近(zujn)距离

24、原则修改不合理的分类，直到分类比较合理为止，从而形成一个最终的分类结果。第22页/共41页第二十二页，共42页。（五）聚类分析3.动态聚类分析4.主要计算步骤：5.第1 步，先将原始数据进行(jnxng)标准化处理。6.第2 步，选择预定数目的凝聚点对样品进行(jnxng)初始分类（人为分类）。设xij 为已标准化处理后的第 i 个样品的第 j 个指标，若初始分类数为K，经计算，分别将每个样品归入第k 类(1kK)，由此得到初始分类。7.第3 步，计算每一类的重心，以该重心作为新的凝聚点，再计算每一个样品至新凝聚点的距离，并将它划入最近凝聚点所属的类别。当所计算的重心与原来的凝聚点完全相同，则

25、过程终止，否则将重复按第3 步的过程计算。8.第3 步的重复过程是迭代过程，每一次迭代都使对应的分类函数缩小。当上下两次的重心完全相同时，计算过程收敛，此时分类函数趋于定值。按批修改法的最终分类结果受到初始分类的影响，这是动态聚类法的一个缺点。第23页/共41页第二十三页，共42页。（六）判别分析在统计分析中，经常遇到分类判别的问题，也就是根据观测数据对所研究的对象进行分类判别。判别分析方法就是专门根据若干因素对预报对象进行分类的一种方法，通过分析可以建立用于定性预报的数学模型。例如(lr)，我们积累了某种病虫害各种发生状态的若干历史资料(样本)，希望从中总结出分类的规律性(即判别公式)，以便

26、在以后的工作中遇到新的发生状态(样本)时，只要根据判别公式判断它所属的类就行了。在判别分析中，可从不同角度提出问题，故有不同的判别准则，常见如Fisher 判别和Bayes 判别。用判别分析方法处理问题时，通常要给出一个衡量新样本与各已知组别接近程度的描述指标，即判别函数，同时指定一种判别规则，借以判定新样本的归属。判别规则可以是统计性的，决定新样本所属类别时用到数理统计的显著性检验；也可以是经验性的，决定样本归属时，只考虑判别函数值的大小。第24页/共41页第二十四页，共42页。（六）判别分析1.两组判别2.两组间的判别分析(fnx)是基于统计上的费歇尔(Fisher)准则。判别的结果应使两

27、组间区别最大，使每组内的离散性最小。3.数据的输入格式是每一行为一个样本，每一列为一个变量，最右边的一列为已知样本的分类类别(用1 或表示)，对于待判别样本分类类别用0 代替。按系统规定格式将待分析(fnx)的所有数据(连同类别一起)定义成数据块。第25页/共41页第二十五页，共42页。（六）判别分析1.两组判别2.例如，梁振中(1985)根据小麦赤霉病不同发病田块所占比例及决定防治对策的原理，将赤霉病划分为偏重发生和偏轻发生两类，并从气象因素中筛选出稳定通过10的初日(x1)和元月上中旬日照时数(x2)两个因子。为建立判别分析模型，将原始数据编辑整理成右图形式并定义数据块3.然后进入主菜单，

28、选择(xunz)“多元分析判别分析两组判别分析”功能项，回车执行后输出结果。第26页/共41页第二十六页，共42页。（六）判别分析2.Fisher 线性判别3.Fisher 判别分析的思想是：用已知分类样本的观察指标构造一些彼此正交(不相关)的综合指标即判别函数，这些综合指标可以将属于不同类的个体尽可能的分开，然后计算出每个类的综合指标的均值，即每个类的中心点。现有一个新样品，当计算出它的各个综合指标的值之后(zhhu)，就分别计算出新样品到每个类中心点的距离，把它归到离中心点的距离最短的那一类。第27页/共41页第二十七页，共42页。（六）判别分析2.Fisher 线性判别3.例：这里有3个

29、类别：胃癌患者、萎缩性胃炎患者和非胃病者。每类抽取5例，每例化验4个生化指标，所得(su d)结果如图。为考察生化指标是否有鉴别胃癌的能力，试作判别分析。4.分析时，执行多元分析里面的“Fisher 线性判别”，这时，系统显示3 类样品在两个综合指标u1(x),u2(x)平面上的分布（下图）。第28页/共41页第二十八页，共42页。（六）判别分析从图中可以看出，u1(x)对第一类（胃癌）的判别能力较强，对第二类（萎缩性胃炎）与第三类（非胃病）判别能力差； u2(x) 的判别能力较弱。最后系统(xtng)给出分析结果。第29页/共41页第二十九页，共42页。（六）判别分析3.逐步判别分析4.在判

30、别分析中，对判别结果可能产生影响的变量往往很多，但是影响有大有小。如果不加选择地一概采用来建立判别函数，不仅计算工作量大，而且往往由于变量间的自相关性，可使求解逆矩阵的计算精度下降，最终(zu zhn)使得判别函数缺乏稳定性。因此，适当筛选变量是判别分析中一件很重要的事情。5.凡具有筛选能力的判别分析方法统称为逐步判别分析。与通常的判别分析一样，逐步判别也有许多不同原则，从而产生各种不同的方法。这里所讨论的逐步判别分析法是在多组判别基础之上发展起来的一种方法，判别准则为贝叶斯(Bayes)判别函数。其基本思路与逐步回归分析类似，采用“有进有出”的算法，即变量按其重要与否逐步引入，原引入的变量也

31、可能因后来引入的新变量而使之丧失重要性最终(zu zhn)被剔除。每步引入或剔除变量都要作相应的统计检验，使最后的贝叶斯判别函数仅保留“重要”的变量。第30页/共41页第三十页，共42页。（六）判别分析3.逐步判别分析4.在DPS 平台(pngti)上，数据按一行一个样本、一列一个变量的格式依次输入，最右边一列为已知样本的类别号(用1，2，表示)，将待判别样本的类别用0代替。然后将所有数据(连同类别一起)定义成数据块，在菜单下选项执行。第31页/共41页第三十一页，共42页。（六）判别分析3.逐步(zhb)判别分析4.例：胡秉民(1987)对浙江北部地区嘉兴、桐乡和湖州1950 1982 年大

32、麦赤霉病发生程度与气象因子关系进行研究，总结出上年12 月降雨量(x1)、上年10月下旬至11 月中旬和当年12 月总雨量(x2)、上年10 月下旬至11 月上旬日照时数(x3)、上年10 月下旬至12 月中旬和当年2 月总雨量(x4)以及当年3 月中旬平均高温(x5)等5 个因子，并将病情分为轻、中、重三级(分别用1、2、3 表示)。第32页/共41页第三十二页，共42页。（六）判别分析3.逐步判别分析4.然后进入菜单，选择“多元分析判别分析逐步判别分析”功能项，回车执行时系统在自行给出的置信水平(0.1)的F 临界值(2.2134)下进行分析，并筛选出一个以上的因子建立判别函数。然后显示当

33、前判别的效果，并提示用户是否(sh fu)改变临界值如想改变Fx 临界值，则点Yes，然后输入新的Fx临界值。若输入0，将进行多组判别(pnbi)分析；若输入的值大于0，则将进行逐步判别(pnbi)分析。在分析过程中，可根据所选因子的判别(pnbi)效果而调整F 临界值以获得最好的拟合效果。第33页/共41页第三十三页，共42页。（七）多因子分析多因素分析(fnx)是一种将多变量(指标)样本在结构上进行简化的有效方法。通过分析(fnx)找到一个包含最佳变量的子集合，使其所包含的变量能反映总体的结构。主成分分析(fnx)主成分分析(fnx)是把多个指标化为少数几个综合指标的一种统计分析(fnx)

34、方法。在多指标(变量)的研究中，往往由于变量个数太多，且彼此之间存在着一定的相关性，因而使得所观测的数据在一定程度上有信息的重叠。当变量较多时，在高维空间中研究样本的分布规律就更麻烦。主成分分析(fnx)采取一种降维的方法，找出几个综合因子来代表原来众多的变量，使这些综合因子尽可能地反映原来变量的信息量，而且彼此之间互不相关，从而达到简化的目的。第34页/共41页第三十四页，共42页。（七）多因子分析1.主成分分析2.例如，罗积玉 (1985)在土壤质量研究中抽取了20个样本，每样本4个指标，包括淤泥(yn)含量(x1)、粘土含量(x2)、有机物含量(x3)和土壤pH值(x4)。数据编辑和定义

35、如图3.在菜单下选择“多元分析多因素分析主成分分析”项，执行后得出结果第35页/共41页第三十五页，共42页。（七）多因子分析2.因子(ynz)分析3.在统计学中，因子(ynz)分析属于多元分析的范畴。它用于研究相关矩阵的内部依赖关系，它将多个变量综合为少数几个“因子(ynz)”，但仍可再现原始变量与“因子(ynz)”之间的相关关系。4.它主要应用于两个方面：一是将为数众多的变量减少为几个新因子(ynz)，再现系统内变量之间的内在联系；二是用于分类，根据变量或者样本的因子(ynz)得分值在因子(ynz)轴所构成的空间中进行分类处理。第36页/共41页第三十六页，共42页。（七）多因子分析2.因

36、子分析3.因子分析与主成分分析的区别：4.主成分分析不能作为一个模型来描述，它只能作通常的变量变换，而因子分析需要构造因子模型；5.主成分分析的主分量数m 和变量数p 相等，它是将一组具有相关性的变量变换为一组独立的变量，而因子分析的目的是使m 比p 小，而且要选取尽可能小的m，以便构造一个结构尽可能简单的模型；6.主成分分析将主分量表示(biosh)为原观测变量的线性组合，而因子分析将原观测变量表示(biosh)为新因子的线性组合，即为新因子的综合指标。7.所以，因子分析是主成分分析的发展和延伸。第37页/共41页第三十七页，共42页。（七）多因子分析2.因子分析3.因子分析的结果不仅要给出

37、因子模型，而且要得出变量和因子间的相关系数，并由这些相关系数构成“因子结构”。一个完全的因子解包括因子模型和因子结构两个方面，因子结构反映变量与因子间的相关关系，而因子模型则是以回归方程的形式将变量表示为因子的线性组合。4.罗积玉等运用因子分析方法研究影响小春粮食总产量的指标共有9 个：小春粮食播种面积x1、小麦播种面积x2、小麦良种推广比例x3、化肥用量x4、肥猪出栏数x5、农业人口x6、耕牛数量x7、小麦抽穗扬花期间气温(qwn)x8和小麦抽穗扬花期间降雨量x9。共获得28 年数据。现采用因子分析方法研究各个变量之间的相关关系。第38页/共41页第三十八页，共42页。（七）多因子分析1.编

38、辑编辑(binj)数据、定义成数据数据、定义成数据矩阵块矩阵块2.选择选择“多元分析多元分析多因素分析多因素分析因子分析因子分析”功能项，按回车键执功能项，按回车键执行，即可得到计算结果行，即可得到计算结果第39页/共41页第三十九页，共42页。王宏富（1962-），男，山西晋城人，教授，硕士生导师，作物栽培与耕作学系主任。中国耕作制度研究会理事，山西省质量技术监督局农业标准专家组成员，山西省作物学会理事。1984年毕业于山西农业大学，后留校任教，主要从事作物化控与逆境生理、农田杂草与防除、计算机在农业中的应用、农业结构调整等方面的教学与研究工作，为博士、硕士和本专科生主讲(zhjing)旱地

39、农业专题、高级耕作学、农业传播技术与应用、农学概论、计算机在农业中的应用、杂草学、水土保持农学、无公害农产品生产技术等课程。主持和参加国家“948”项目、教育部项目、省攻关项目、省自然基金项目、省开发项目与教学项目等多项，获省级研究成果一等奖1项、二等奖4项、三等奖1项；国家级出版社出版专著1部、21世纪教材1部（副主编）、国家统编教材1部（副主编）、十一五教材1部（副主编）、参编十一五教材1部，在国内外专业刊物上发表了学术论文30余篇。第40页/共41页第四十页，共42页。感谢您的欣赏(xnshng)！第41页/共41页第四十一页，共42页。内容(nirng)总结多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。在此基础上构造预报模型，最后对模型进行诊断(zhndun)和优化处理，并应用于生产实际。残差标准差=1.027016021942，F=5.9454，P= 0.0015，拟合度=78.10%。当上下两次的重心完全相同时，计算过程收敛，此时分类函数趋于定值。每类抽取5例，每例化验4个生化指标，所得结果如图第四十二页，共42页。

展开阅读全文

DPS应用多元统计分析实用教案

最新文档