统计学相关分析和回归分析报告

上传人:xmg****18 文档编号:116887746 上传时间:2019-11-17 格式:PPT 页数:120 大小:2.77MB
返回 下载 相关 举报
统计学相关分析和回归分析报告_第1页
第1页 / 共120页
统计学相关分析和回归分析报告_第2页
第2页 / 共120页
统计学相关分析和回归分析报告_第3页
第3页 / 共120页
统计学相关分析和回归分析报告_第4页
第4页 / 共120页
统计学相关分析和回归分析报告_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《统计学相关分析和回归分析报告》由会员分享,可在线阅读,更多相关《统计学相关分析和回归分析报告(120页珍藏版)》请在金锄头文库上搜索。

1、第八讲SPSS相关分析与回归分析本章内容8.1相关分析和回归分析概述8.2相关分析8.3偏相关分析8.4线性回归分析8.5曲线估计8.6二项Logistic回归分析8.1相关分析和回归分析概述客观事物之间的数量关系大致可归纳为两大类,即l函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。l相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。4相关分析与回归分析概述(对统计学的回顾)1、经济变量之间的相互关系性质上

2、可能有三种情况:确定性的函数关系Y=f(X)可用数学方法计算不确定的统计关系相关关系Y=f(X)+(为随机变量)可用统计方法分析没有关系不用分析相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?双变量关系强度测量的主要指标相关的三种表现方式n统计值n相关系数:表示变量间相关性的强度n显著度:表示样本中的相关是否可以推论总体n统计表n列联表:主要针对定类和定序变量,如果是定距变量,可以将其转化为定序变量,然后再做列联表。n统计图n条图、线图、面积图、箱式图、散点图8.2相关分析相关分析通过

3、图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。8.2.1散点图它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。相关关系的描述最直观的描述方式坐标图(散布图、散点图)9函数关系相关关系(线性)没有关系相关关系(非线性)8.2.2相关系数利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:第一,计算样本相关系数r;u相关系数r的取值在-1+1之间ur0表示两变量存在正的线性相关关系;r0.8表示两变量有较强的线性关系;|r|0.3表示两变量之间的线性关系较弱第二,对样本来自的两总体是否存在显著的线性关系进行推断。

4、对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall相关系数等。8.2.2.1Pearson简单相关系数(适用于两个变量都是数值型的数据)Pearson简单相关系数的检验统计量为:8.2.2.2Spearman等级相关系数Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据,而是利用数据的秩,用两变量的秩代替代入Pearson简单相关系数计算公式中,于是其中的和的取值范围被限制在1和n之间,且可被简化为:如果两变

5、量的正相关性较强,它们秩的变化具有同步性,于是的值较小,r趋向于1;如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是的值较大,r趋向于0;在小样本下,在零假设成立时,Spearman等级相关系数服从Spearman分布;在大样本下,Spearman等级相关系数的检验统计量为Z统计量,定义为:Z统计量近似服从标准正态分布。spss的两个相关分析菜单nCrosstabsn定类定类,定序定序变量间的简单相关分析nCorrelatenBivariate:定序定序,定距定距变量间的简单相关分析nPartial:定距定距变量间的偏相关分析8.2.3计算相关系数的基本操作相关分析用于描述两个变量间关

6、系的密切程度,其特点是变量不分主次,被置于同等的地位。在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令Bivariate过程、Partial过程、Distances过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss过程。Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,

7、而作为聚类分析和因子分析等的预分析。BivariatenCorrelate菜单中最常用的一个功能项n如果是多个变量,则给出两两相关的分析结果n适合于分析定序定序,定距定距变量之间的关系Bivariate对话框Pearson积矩相关系数最常用的参数相关分析指标用于测量两个连续变量间的直线相关程度肯德尔等级相关系数用于测量两个定序变量间的相关程度斯皮尔曼的rho相关系数最常用的非参数相关分析指标用于测量两个定序变量间的相关程度Bivariate相关分析步骤(1)选择菜单AnalyzeCorrelateBivariate,出现窗口:(2)把参加计算相关系数的变量选到Variables框。(3)在Co

8、rrelationCoefficents框中选择计算哪种相关系数。(4)在TestofSignificance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。(5)选中Flagsignificancecorrelation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。(6)在Option按钮中的Statistics选项中,选中Cross-productdeviationsandcovariances表示输出两变量的离差平方和协方差。图81BivariateCorrelat

9、ions对话框不清楚变量之间是正相关还是负相关时选择此项。清楚变量之间是正相关还是负相关时可选择此项。计算积距相关系数,连续性变量才可采用。计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。在输出结果中,相关系数的右上角上有“”则表示显著性水平为0.05;右上角上有“”则表示显著性水平为0.01。见图82图82Optins对话框对每一个变量输出均值、标准差和无缺省值的观测数。对每一个变量输出交叉距阵和协方差距阵。计算某个统计量时,在这一对变量中排除有缺省值的观测值。对于任何分析,有缺省值

10、的观测值都会被排除。8.2.4相关分析应用举例为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有高级职称的人年数(当年)、发表的论文数(上年)之间是否具有较强的线性关系。对该问题的研究可以采用相关分析的方法,首先可绘制矩阵散点图;其次可以计算Pearson简单相关系数。8.3偏相关分析8.3.1偏相关分析和偏相关系数上节中的相关系数是研究两变量间线性相关性的,若还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相关强弱的真实体现,往往有夸大的趋势。例如,在研究商品的需求量和价格

11、、消费者收入之间的线性关系时,需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。在这种情况下,单纯利用相关系数来评价变量间的相关性显然是不准确的,而需要在剔除其他相关因素影响的条件下计算变量间的相关。偏相关的意义就在于此。偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。控制变量个数为1时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是简单相关系数。利用偏相关系数进行分析的步骤第一,计算样本的偏相关系数假设有三个变量y、x1和x2,在

12、分析x1和y之间的净相关时,当控制了x2的线性作用后,x1和y之间的一阶偏相关定义为:偏相关系数的取值范围及大小含义与相关系数相同。第二,对样本来自的两总体是否存在显著的净相关进行推断检验统计量为:其中,r为偏相关系数,n为样本数,q为阶数。T统计量服从n-q-2个自由度的t分布。8.3.2偏相关分析的基本操作1.选择菜单AnalyzeCorrelatePartialPartialn专门用于偏相关分析n如果需要进行相关分析的两个变量的取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,然后再输出控制后的相关系数。n适合于定距变量2.把参与分析的变量选择到Variables框中。3

13、.选择一个或多个控制变量到Controllingfor框中。4.在TestofSignificance框中选择输出偏相关检验的双尾概率p值或单尾概率p值。5.在Option按钮中的Statistics选项中,选中Zero-orderCorrelations表示输出零阶偏相关系数。至此,SPSS将自动进行偏相关分析和统计检验,并将结果显示到输出窗口。Analyze-Correlation-Partial把分析变量选入Variable框把控制变量选入Controllingfor框点击Options点击Statistics:选择MeanandstandarddeviationZero-orderco

14、rrelationContinueOK偏相关分析VariableMeanStandardDevCasesX1(身高)152.57598.362229Y(肺活量)2206.8966448.554129X2(体重)37.30695.670429结果:身高与肺活量的简单相关系数1、身高与肺活量的简单相关系数2、体重与肺活量的简单相关系数3、身高与体重的简单相关系数4、体重为控制变量,身高与肺活量的偏相关系数PARTIALCORRELATIONCOEFFICIENTSControllingfor.X2(体重)Y(肺活量)X1(身高)Y(肺活量)1.0000.2361(0)(26)P=.P=.226X1

15、(身高).23611.0000(26)(0)P=.226P=.PARTIALCORRELATIONCOEFFICIENTSControllingfor.X1(身高)Y(肺活量)X2(体重)Y1.0000.4152(0)(26)P=.P=.028X2.41521.0000(26)(0)P=.028P=.5、身高作为控制变量,肺活量与体重的偏相关系数8.3.3偏相关分析的应用举例上节中研究高校立项课题总数影响因素的相关分析中发现,发现立项课题数与论文数之间有较强正线性相关关系,但应看到这种关系中可能掺入了投入高级职称的人年数的影响,因此,为研究立项课题总数和发表论文数之间的净相关系数,可以将投入高

16、级职称的人年数加以控制,进行偏相关分析。8.4线性回归分析8.4.1线性回归分析概述线性回归分析的内容能否找到一个线性组合来说明一组自变量和因变量的关系如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强整体解释能力是否具有统计上的显著性意义在整体解释能力显著的情况下,哪些自变量有显著意义回归分析的一般步骤确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归方程对回归方程进行各种检验利用回归方程进行预测43被解释变量Y的条件分布和条件概率:当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值会形成一定的分布,这是Y的条件分布。X取某固定值时,Y取不同值的概率称为条件概率。被解释变量Y的条件期望:对于X的每一个取值,对Y所形成的分布确定其期望或均值,称为Y的条件期望或条件均值,用表示。注意:Y的条件期望是随X的变动变动而变动变动的YX明确几个概念(为深刻理解“回归”)回归线:对于每一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号