多元统计分析重点－金锄头文库

资源描述

《多元统计分析重点》由会员分享，可在线阅读，更多相关《多元统计分析重点（8页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析重点宿舍版第一讲：多元统计方法及应用；多元统计方法分类（按变量、模型、因变量等）多元统计分析应用选择题：数据或结构性简化运用的方法有：多元回归分析，聚类分析，主成分分析，因子分析分类和组合运用的方法有：判别分析，聚类分析，主成分分析变量之间的相关关系运用的方法有：多元回归，主成分分析，因子分析，预测与决策运用的方法有：多元回归，判别分析，聚类分析横贯数据：因果模型（因变量数）：多元回归，判别分析横贯数据：相依模型（变量测度）：因子分析，聚类分析多元统计分析方法选择题：多元统计方法的分类：1）按测量数据的来源分为：横贯数据（同一时间不同案例的观测数据），纵观数据（同样案例在不同时间的

2、多次观测数据）2）按变量的测度等级（数据类型）分为：类别（非测量型）变量，数值型（测量型）变量3）按分析模型的属性分为：因果模型，相依模型4）按模型中因变量的数量分为：单因变量模型，多因变量模型，多层因果模型第二讲：计算均值、协差阵、相关阵；相互独立性第三讲：主成分定义、应用及基本思想，主成分性质，主成分分析步骤主成分定义：何谓主成分分析就是将原来的多个指标（变量）线性组合成几个新的相互无关的综合指标（主成分），并使新的综合指标尽可能多地反映原来的指标信息。主成分分析的应用：（1）数据的压缩、结构的简化；（2）样品的综合评价，排序主成分分析概述思想：（1）把给定的一组变量X1,X2,.XB通过

3、线性变换，转换为一组不相关的变量Y1,Y2,.YP。（2）在这种变换中，保持变量的总方差（XI，X2,.Xp的方差之和）不变，同时，使Y1具有最大方差，称为第一主成分；Y2具有次大方差，称为第二主成分。依次类推，原来有P个变量，就可以转换出P个主成分（3）在实际应用中，为了简化问题，通常找能够反映原来P个变量的绝大部分方差的q（q0，相应的特征向量为T*,T*,T*；由累积方差贡献率确1p12p定主成分的个数（m），并写出主成分为Y二（T*）X*，i=1,2,mii第四讲：因子分析定义，因子载荷统计意义，因子分析模型及假设，因子旋转因子分析定义：因子分析就是通过对多个变量的相关系数矩阵的研究，

4、找出同时影响或支配所有变量的共性因子的多元统计方法。因子载荷统计意义：因子载荷aj的统计意义对于因子模型X.=aF+a2F2+aF-+aF+.i=1,2,pi.11i22jj.mm.XF我们可以得到，入与j的协方差为：Cov(X,F)=Cov(区ijikkijk=1Cov(区+Cov(8,F)ikkjij=k=1a=ijXXF如果对.作了标准化处理，.的标准差为1,且j的标准差为1,因此Cov(X,F)r=.j=Cov(X,F)=a7.6)X.,FjVD(X)JD(F).jjaF那么，从上面的分析，我们知道对于标准化后的i,j是i与j的相关系数，它XF一方面表示i对j的依赖程度，绝对值越大，密

5、切程度越高；另一方面也反映了XF变量i对公共因子j的相对重要性。了解这一点对我们理解抽象的因子含义有非常重要的作用。h2变量共同度hi的统计意义设因子载荷矩阵为A，称第1行元素的平方和，即h2=a2i=1,2，,piijj=1(7.7)X为变量i的共同度。由因子模型，知D(X)=a2D(F)+a2D(F)+a2D(F)+D(s)ii11i22immi=a2+a2+a2+D(s)i1i2imi7.8)=h2+q2ii这里应该注意，(7.8)式说明变量Xi的方差由两部分组成：第一部分为共同度佇，XX它描述了全部公共因子对变量i的总方差所作的贡献，反映了公共因子对变量isX的影响程度。第二部分为特殊

6、因子i对变量Xi的方差的贡献，通常称为个性方差。X如果对i作了标准化处理，有7.9)1=h2+q2iiFg23、公因子j的方差贡献占j的统计意义设因子载荷矩阵为A，称第j列元素的平方和，即g2=a2j=1,2,mjji=1Fg2F为公共因子j对X的贡献，即j表示同一公共因子j对各变量所提供的方差贡献之总和，它是衡量每一个公共因子相对重要性的一个尺度。因子分析模型及假设数学模型：每一个变量都可以表示成公共因子的线性函数与特殊因子之和，即：Xi=ai1*F1+a12*F2+.+aim*Fm+i（i=1,2,.,P）式中的F1,F2,.Fm称为公共因子，i称为Xi的特殊因子。该模型可用矩阵表示为：x

7、=af+,且满足：（1）m0如果W(X)d叶斯判别规则为：fz?比、丿，二者唯一差别仅在于阀值点，从某种xeG,当V（x）d2意义上讲，距离判别是贝叶斯判别的特殊情形。题型及分数：一、判断对错并改正（4题，8分）二、不定项选择（10题，20分）三、简答题（4题，32分）（六选四）主成分基本思想，系统聚类,K-均值聚类基本思想及过程，判别分析及费希尔基本思想，比较聚类与回归、判别，因子分析及因子旋转聚类与回归、判别：判别与回归：联系：都是根据已有数据判别未来趋势。区别：多元回归的因变量是数值型变量，且自变量可是0-1变量；判别分析的因变量是类别型变量，而自变量不是0-1变量判别与聚类：聚类分析：

8、类别未知，利用样本确定分组数及所属类别；判别分析：类别数及意义已知，还能“预测”新样本所属类别；聚类中加进一个变量需要对类进行更新，重新计算与其他类的距离，而判别对新样本进行判别后，不更新所属的类。四、计算题（1题，10分）计算样本均值、协差阵、相关阵五、分析题（2题，30分）（四选二）1）主成分分析的SPSS实例分析（主成分个数确定，主成分表达式，主成分分析步骤）2）因子分析的SPSS实例分析（因子分析模型，公因子的解释命名分析）（二选一）3）聚类分析的SPSS实例分析（分类数确定，聚类结果命名分析，优缺点及改进策略）分类数确定树状图，确定原则是组内距离小，组间距离大。聚合系数图：在曲线开始变得平缓的点选择合适的分类树任何类都必须在邻近各类中是突出的，即各类重心间的距离必须大各类所包含的元素都不要过分地多分类数目应符合使用的目的若采用几种不同的聚类法，则在各自的聚类图上应发现相同的类对聚类过程中聚合系数分类数的变化（曲线）进行分析，可以辅助确定合理的分类数聚类分析的缺点层次聚类法的结果容易受奇异值的影响，而快速聚类法受奇异值、相似测度和不适合的聚类变量的影响较小。层次聚类法可以得到一系列的聚类数，而快速聚类只能得到指定类数的聚类数。层次聚类法在数据比较多时计算量比较大，需要占据非常大

展开阅读全文