文档详情

常用统计方法word版

日度
实名认证
店铺
DOC
97.50KB
约22页
文档ID:164437554
常用统计方法word版_第1页
1/22

主成分分析  主成分分析(principal component analysis)   将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法又称主分量分析在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性人们自然希望变量个数较少而得到的信息较多在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形信息的大小通常用离差平方和或方差来衡量   (1)主成分分析的原理及基本思想  原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

  基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分  (2)步骤  Fp=a1mZX1+a2mZX2+……+apmZXp  其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值多对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。

  A=(aij)pm=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0   进行主成分分析主要步骤如下:  1. 指标数据标准化(SPSS软件自动执行);  2. 指标之间的相关性判定;1 / 22  3. 确定主成分个数m;  4. 主成分Fi表达式;  5. 主成分Fi命名;回归分析  回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析  方差齐性   线性关系   效应累加   变量无测量误差   变量服从多元正态分布   观察独立   模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)   误差项独立且服从(0,1)正态分布。

  现实数据常常不能完全符合上述假定因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束  研究一 个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法又称多重回归分析通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与X的值无关若进一步假定随机误差遵从正态分布,就叫做正态线性模型一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

  回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数估计参数的常用方法是最小二乘法②对这些关系式的可信程度进行检验③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法④利用所求的关系式对某一生产过程进行预测或控制回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便 [编辑本段]回归分析的应用  相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定   一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

  例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X根据图8-3的散点图,可以建立下面的线性关系:   Y=A+BX+  式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;为依赖于用户满意度的随机误差项   在SPSS软件里可以很容易地实现线性回归,回归方程如下:   y=0.857+0.836x   回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分   740)this.width=740">  上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。

通常将R2乘以100%来表示回归方程解释Y变化的百分比F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著一般来说,显著性水平在0.05以下,均有意义当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性同样地,T检验可以通过显著性水平或查表来确定在上面所示的例子中,各参数的意义如表8-2所示  表8-2 线性回归方程检验 指标   显著性水平   意义   R   0.89     “质量”解释了89%的“用户满意度”的变化程度   F   276.82   0.001   回归方程的线性关系显著   T   16.64   0.001   回归方程的系数显著     示例 SIM用户满意度与相关变量线性回归分析   我们以SIM的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用从实践意义讲上,的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析利用SPSS软件的回归分析,得到回归方程如下:   用户满意度=0.008形象+0.645质量+0.221价格   对于SIM来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。

  方程各检验指标及含义如下: 指标   显著性水平   意义   R2   0.89     “质量”和“形象”解释了89%的“用户满意度”的变化程度   F   248.53   0.001   回归方程的线性关系显著   T(形象)   0.00   1.000   “形象”变量对回归方程几乎没有贡献   T(质量)   13.93   0.001   “质量”对回归方程有很大贡献   T(价格)   5.00   0.001   “价格”对回归方程有很大贡献     从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除所以重新做“用户满意度”与“质量”、“价格”的回归方程如下:   用户满意度=0.645质量+0.221价格   对于SIM来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)   方程各检验指标及含义如下: 指标   显著性水平   意义   R   0.89     “质量”和“形象”解释了89%的“用户满意度”的变化程度   F   374.69   0.001   回归方程的线性关系显著   T(质量)   15.15   0.001   “质量”对回归方程有很大贡献   T(价格)   5.06   0.001   “价格”对回归方程有很大贡献   判别分析[编辑本段]1、定义  判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

  其基本原理是按照一定的判别准则,建立一个或多个判别函。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档