第十四章-统计分析分解课件

上传人:枫** 文档编号:570121360 上传时间:2024-08-02 格式:PPT 页数:69 大小:778.50KB
返回 下载 相关 举报
第十四章-统计分析分解课件_第1页
第1页 / 共69页
第十四章-统计分析分解课件_第2页
第2页 / 共69页
第十四章-统计分析分解课件_第3页
第3页 / 共69页
第十四章-统计分析分解课件_第4页
第4页 / 共69页
第十四章-统计分析分解课件_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《第十四章-统计分析分解课件》由会员分享,可在线阅读,更多相关《第十四章-统计分析分解课件(69页珍藏版)》请在金锄头文库上搜索。

1、目录第一节统计分析概述第一节统计分析概述第二节描述统计与推断统计第二节描述统计与推断统计第三节单变量统计分析第三节单变量统计分析第四节双变量统计分析第四节双变量统计分析第五节多变量统计分析简介第五节多变量统计分析简介重点问题统计分析概述描述统计和推断统计单变量统计分析双变量统计分析多变量统计分析第一节统计分析概述统计分析就是分析就是运用运用统计学原理和方法学原理和方法处理理调查所所获得得的数据的数据资料,料,简化化和描述数据和描述数据资料、料、揭示揭示变量之量之间的的统计关系关系,并,并进而而推断推断总体体的一整套程序和方法。的一整套程序和方法。一、统计分析的目的简化和描述数据化和描述数据 用

2、用样本推断本推断总体,如平均数、百分比等体,如平均数、百分比等发现变量之量之间的的统计关系关系 二、统计分析的过程数据数据预处理理就是在就是在统计分析之前分析之前对清理后的数据做清理后的数据做预备性性处理。理。数据数据统计分析分析就是就是调用用统计软件中的各种件中的各种统计程序程序对数据数据进行分析,行分析,包括包括单变量量、双、双变量、多量、多变量量统计分析,以及制作分析,以及制作统计图、统计表等一系列工作。表等一系列工作。三、统计分析的层次描述描述统计和推断和推断统计(按照按照统计分析性分析性质)描述描述统计是运用是运用样本本统计量描述量描述样本本统计特征的特征的统计分分析方法。描述析方法

3、。描述统计是相是相对于推断于推断统计而言的,即凡是而言的,即凡是只涉及只涉及样本而不涉及本而不涉及总体特征的体特征的统计分析方法分析方法都属于都属于描述描述统计的范畴。的范畴。推断推断统计则是以概率理是以概率理论为基基础,运用运用样本本统计量推断量推断总体的体的统计分析方法分析方法。两者密不可分两者密不可分单变量、双量、双变量、多量、多变量量统计分析分析(按(按统计分析涉及分析涉及变量多少)量多少)1 1、单变量量统计分析,分析,只能只能进行描述性研究行描述性研究。只涉及一个。只涉及一个变量,如平均数、百分比、量,如平均数、百分比、标准差等。准差等。2 2、只有双、只有双变量量统计分析、特分析

4、、特别是多是多变量量统计分析,才能分析,才能进行解行解释性研究。只有涉及两个或两个以上性研究。只有涉及两个或两个以上变量,才有可能量,才有可能分析它分析它们之之间的关系(包括相关关系和因果关系)。的关系(包括相关关系和因果关系)。3 3、常用的双、常用的双变量量统计分析方法,包括列分析方法,包括列联表分析与表分析与X X2 2检验、各种双各种双变量相关分析、二元回量相关分析、二元回归分析等等。分析等等。当一当一项统计分析涉及三个或三个以上分析涉及三个或三个以上变量(其中至少有一个量(其中至少有一个因因变量)量)时,则称称为多多变量或多元量或多元统计分析分析。第二节描述统计与推断统计一、描述一、

5、描述统计及其内容及其内容描述描述统计是相是相对推断推断统计而言的,就是关于而言的,就是关于样本的本的统计分析方法,分析方法,它的分析它的分析结果是果是样本本统计量量。描述。描述统计的内容,包括的内容,包括单变量、双量、双变量和多量和多变量等几种量等几种层次的次的统计分析。分析。二、推断统计与抽样分布推断推断统计是运用是运用样本本统计量量对总体体进行推断行推断的一种的一种统计分析方法。由于社会分析方法。由于社会调查的最的最终目的是研究目的是研究调查对象的象的总体,因此,它是社会体,因此,它是社会调查中中经常使用的常使用的统计方方法。法。推断推断统计的的必必备前提前提是,是,样本数据必本数据必须来

6、自来自随机抽随机抽样调查。所所谓抽抽样分布,是指在一个分布,是指在一个总体中重复抽取体中重复抽取许多大小多大小一一样的的样本的本的统计量(如平均数、方差、量(如平均数、方差、标准差)而准差)而形成的分布。形成的分布。需要指出的是,需要指出的是,样本的抽本的抽样分布只是一种理分布只是一种理论分布,分布,而不是一种而不是一种实际的分布。从理的分布。从理论上建立上建立这样一种分布,一种分布,目的就是运用它来由目的就是运用它来由样本本统计量推断量推断总体。体。三个重要分布为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即分布,分布,分布。1、 分布设是来自总体的样本,则称统计

7、量(1)服从自由度为的分布,记为此处,自由度是指(1)式右端包含独立变量个数分布的概率密度为的图形如图63所示。(2)图632、 分布设,且独立服从自由度为的分布则称随机变量(10)记为分布又称为学生氏(student)分布分布的概率密度函数为(11)图65中画出了的图形。的图形关于对称,当充分大时,其图形类似于标准正态变量概率密度的图形。事实上,利用函数的性质可得故当足够大时,分布近似于分布。但对于较小的,分布与分布相差较大(见附表3与附表2)(12)图653. 分布设且独立,则称随机变量服从自由度为的分布记为(16)的概率密度为(17)容易证明等式:(20)利用这个等式,查附录表,可以计算

8、当时的的值例如F分布的上分位点有表格可查(见附表5)(一)参数估(一)参数估计人人们通常把通常把样本本计算出来的算出来的统计值成成为样本本统计量,量,简称称统计量量,而把,而把总体体统计值成成为参数参数。所。所谓参数估参数估计,就是就是运用运用统计量量对总体参数体参数进行推断或估行推断或估计的的统计过程与程与统计方法。方法。参数估参数估计包括:包括:(1 1)点)点值估估计(2 2)区)区间估估计三、推断统计的两种基本形式三、推断统计的两种基本形式1、点、点值估估计,就是,就是选择一个最适当的一个最适当的样本本统计量量来直接代表来直接代表总体的参数体的参数值。如果一个如果一个统计量在参数的点量

9、在参数的点值估估计中符合中符合无偏性、无偏性、一致性、有效性、充分性一致性、有效性、充分性,则可保可保证其点其点值估估计的相的相对误差差较小。小。点点值估估计的的最大缺陷是不知道估最大缺陷是不知道估计的的误差到底有差到底有多大多大。所以,常用的是区。所以,常用的是区间估估计。2、区、区间估估计区区间估估计是用一个数是用一个数值区区间表示未知表示未知总体参数落入体参数落入该区区间的概率或可能性有多大的一种的概率或可能性有多大的一种统计方法,是从点方法,是从点估估计值和抽和抽样标准准误差出差出发,按,按给定的概率定的概率值建立包建立包含待估含待估计参数的区参数的区间。()置信区()置信区间与置信水

10、平与置信水平置信区置信区间是指是指进行区行区间估估计时,在某一概率水平,在某一概率水平下下总体参数所体参数所处的数的数值区区间。区。区间的上、下限的上、下限(端点)称(端点)称为临界界值,所确定的,所确定的概率水平概率水平称称为置置信水平信水平或置信度,以概率或置信度,以概率表示,表示,称称为显著著性水平性水平,表示,表示该区区间估估计的不可靠性程度,即估的不可靠性程度,即估计参数位于参数位于该区区间时可能犯可能犯错误的概率。的概率。()区间估计的原理区区间估估计的理的理论基基础是是抽抽样分布分布。区。区间估估计的核心的核心问题是把是把样本本统计量与量与总体参数之体参数之间的关系的关系转换成抽

11、成抽样分布来分布来处理。理。由于抽由于抽样分布一定条件下分布一定条件下趋近近正正态分布分布,借助抽,借助抽样分分布的平均数、布的平均数、标准差及其正准差及其正态分布的分布的统计特性可以特性可以对样本本统计量与量与总体参数之体参数之间的关系作出概率意的关系作出概率意义上的上的估估计与推断。与推断。在在95%95%的置信水平条件下,的置信水平条件下,总体平均数的体平均数的置信区置信区间在在99%99%的置信水平条件下,的置信水平条件下,总体平均数的体平均数的置信区置信区间假假设检验假假设检验:是以抽:是以抽样分布原理分布原理为基基础,检验调查样本中本中的的统计特性是否在特性是否在总体中同体中同样存

12、在的一种存在的一种统计方法方法,它,它是是推断推断统计中最重要也是最常用的方法。中最重要也是最常用的方法。首先是事先首先是事先对总体的参数或分布形式作出一个假体的参数或分布形式作出一个假设。然后利用然后利用样本信息判断关于本信息判断关于总体性体性质假假设是否合理。是否合理。即判断即判断总体的真体的真实情况与假情况与假设是否存在是否存在显着的系着的系统性性差异。差异。假假设检验亦称亦称显著性著性检验。事事实上,上,许多研究多研究报告或告或论文就只有文就只有统计描述而没有描述而没有假假设检验,但是,必,但是,必须明确,明确,有无假有无假设检验的研究的研究结论,其解,其解释或使用的范或使用的范围是不

13、同的是不同的。不不经过假假设检验的研究的研究结论,只能适用于已,只能适用于已调查的的对象或象或样本本(在普(在普遍遍调查中不存在假中不存在假设检验问题,因,因为样本等于本等于总体),体),而不能推断而不能推断总体体;只有在只有在样本本统计量基量基础上上经过假假设检验后,才能后,才能说样本中本中发现的的现象或象或规律有多大把握律有多大把握在在总体中存在或不存在。体中存在或不存在。需要明确,并不是所有需要明确,并不是所有调查数据多能数据多能进行假行假设检验,只有通只有通过随机抽随机抽样调查得来的数据才有得来的数据才有资格格进行假行假设检验。假假设检验假设检验的过程提出假提出假设:使用:使用证伪的原

14、理建立的原理建立对立假立假设。虚无假虚无假设(H H0 0):是假:是假设在在样本中本中观察到的事察到的事实或或变量之量之间的关系在的关系在总体中并不存在,即关于体中并不存在,即关于“不存在不存在”假假设备择假假设:它与虚无假:它与虚无假设针锋相相对的假的假设,即存在。,即存在。构造适当的构造适当的统计量,并根据量,并根据样本本统计量的具体数量的具体数值规定定显著水平,建立著水平,建立检验规则做出判断做出判断 . .假假设检验的本的本质就是要判断虚无假就是要判断虚无假设是否正确是否正确若拒若拒绝虚无假虚无假设,则意味着接受意味着接受备择假假设虚无假设与备择假设. .备择假假设(H H1 1):

15、如果虚无假):如果虚无假设错误则是必然正确是必然正确的的陈述,即与虚无假述,即与虚无假设相互排斥的假相互排斥的假设。表述:表述:逻辑上与虚无假上与虚无假设相反或相反或对立,不能同立,不能同时成立。成立。表示:参数表示:参数 或或 或或 某个某个值。一、集中量数分析一、集中量数分析所所谓集中量数分析,是指用一个具体的集中量数分析,是指用一个具体的统计量量反映一反映一组数据向数据向该统计量集中量集中趋势的的统计方法方法,它所表示的,它所表示的是一是一组数据数据集中的程度或水平集中的程度或水平。集中量数有平均数、。集中量数有平均数、中位数、众数、四分位数、百分位数以及倒数平均数、中位数、众数、四分位

16、数、百分位数以及倒数平均数、几何平均数等。其中,常用的集中量数是几何平均数等。其中,常用的集中量数是平均数、中平均数、中位数和众数位数和众数。第三节 单变量统计分析数据分布的集中性大学生大学生毕业生的平均初始收入是多少?生的平均初始收入是多少?某地区的居民平均年收入是多少?某地区的居民平均年收入是多少?集中性集中性测量:一种将群体描述量:一种将群体描述为一个整体的有用一个整体的有用方法是找到一个方法是找到一个单独的数字,能独的数字,能够平均地或者典平均地或者典型的代表一个数据集。型的代表一个数据集。代表代表值常常位于数据分布的中部常常位于数据分布的中部包括众数、中位数、均包括众数、中位数、均值

17、集中性的描述指集中性的描述指标1.1.平均值(均值)平均值(均值) 1 1)定义:称算数平均数,是把一个变量的所有观测值)定义:称算数平均数,是把一个变量的所有观测值相加之和再除以观测值数目得到的数值。相加之和再除以观测值数目得到的数值。 2 2)计算:)计算: X bar X bar 或者或者 X X一杠;一杠;西格玛,累加符号西格玛,累加符号 3 3)特点:)特点:大体位于观察值中部,用于度量重心的平衡点大体位于观察值中部,用于度量重心的平衡点对变量的每一个观察值都加以利用的优点对变量的每一个观察值都加以利用的优点有计算麻烦,对个别极端值敏感的缺点有计算麻烦,对个别极端值敏感的缺点例例题1

18、. 某次考试中,5位同学的得分分别为85分、74分、90分、65分、78分,则这5位同学的平均分数为:=(85+74+90+65+78)/5=78.4分例例题如果从调查中获得的是如下5个分组的资料:考试分数考试分数人数人数65分274分478分285分390分3合计14=(65*2+74*4+78*2+85*3+90*3)/14=79.07分例例题考试分数考试分数人数人数65-74分475-84分485-100分2合计10如果从调查中获得的是如下5个分组的资料:=((1/2(65+74)*4+1/2(75+84)*4+1/2(85+100)*2/10)=78.1分集中性的描述指集中性的描述指标

19、2.2.中位数中位数 1 1)定)定义:又称中数、中点数,指位于按:又称中数、中点数,指位于按顺序排列的一序排列的一组数据中央位置的数数据中央位置的数值。是一个。是一个变量分布的中量分布的中间点,就是点,就是一半一半观测值比它小,一半比它小,一半观测值比它大的那个数比它大的那个数值。 2 2)方法:)方法:把所有把所有观测值排排顺序,由小到大。序,由小到大。若若观测值个数个数n n为奇数,中位数奇数,中位数M M就是排序后就是排序后观测值最中最中间的一个,即数到的一个,即数到(n+1)/2(n+1)/2个位置。个位置。若若观察察值个数个数n n为偶数,中位数就是排序后最中偶数,中位数就是排序后

20、最中间的的两个两个观察察值的平均。的平均。集中性的描述指集中性的描述指标 五孩子家庭:五孩子家庭:1717岁、1414岁、1212岁、9 9岁、5 5岁 六孩子家庭:六孩子家庭:1717岁、1414岁、1212岁、9 9岁、5 5岁、5 5岁 3 3)特点:)特点:优点:中位数很好的代表了一点:中位数很好的代表了一组观察察值的中点只需很的中点只需很少量的少量的计缺点:除了中缺点:除了中间值,中位数并未利用其他,中位数并未利用其他观测值,对极端极端值不敏感。不敏感。集中性的描述指标3.3.众数众数1 1)定)定义:又称范数、秘籍数,是:又称范数、秘籍数,是变量的量的观察察值中出中出现次数最多的数

21、次数最多的数值2 2)特点:)特点:一般用来描述分一般用来描述分类变量;量;有两个有两个值出出现最多最多时,叫做二众数分布;,叫做二众数分布;从从图表中很容易找到众数;表中很容易找到众数;众数不能众数不能显示比其他数示比其他数值出出现次数多的程度;次数多的程度;集中性的描述指集中性的描述指标4.4.计算步骤计算步骤1 1)将数字从高到低排列)将数字从高到低排列2 2)众数:频数最大的数值)众数:频数最大的数值3 3)中位数:最居中的数值)中位数:最居中的数值4 4)平均值:求出观测值的)平均值:求出观测值的总和,将总和除以观测值总和,将总和除以观测值的个数的个数编号编号 身高身高 编号编号 身

22、高身高1 10 01691691 11571571 11 11691692 21631631 12 21691693 31631631 13 31691694 41631631 14 41751755 51631631 15 51751756 61631631 16 61751757 71691691 17 71751758 81691691 18 81751759 91691691919181181平均数被公认是三种集中量数中最好的一种,也是使平均数被公认是三种集中量数中最好的一种,也是使用最多的一种,用最多的一种,但是它往往受一个或几个极端数据的但是它往往受一个或几个极端数据的影响,使平局

23、数反映数据整体集中趋势的准确性变得影响,使平局数反映数据整体集中趋势的准确性变得面目全非。面目全非。中位数在表现数据整体的集中趋势上,一般没有平均中位数在表现数据整体的集中趋势上,一般没有平均数数准确,但当一组数据中存在极端数据,或数据中数数准确,但当一组数据中存在极端数据,或数据中有个别数据不准确,中位数平均数更准确反映集中趋有个别数据不准确,中位数平均数更准确反映集中趋势。势。众数被认为最差的一种,但当需要快速而粗略找出一众数被认为最差的一种,但当需要快速而粗略找出一组数据的代表值时,其优越性。组数据的代表值时,其优越性。集中性的描述指集中性的描述指标评价价二、离散量数分析所所谓离散量数,

24、就是表示一离散量数,就是表示一组数据数据变异程度或分散程异程度或分散程度的量数度的量数。离散量数越大,表示数据分布范。离散量数越大,表示数据分布范围越广,越广,越不集中,越不整越不集中,越不整齐;相反,离散量数越小,表示数;相反,离散量数越小,表示数据分布范据分布范围越集中,越集中,变动程度越小。程度越小。地区地区a aa aa aa aa aa aa ab bb bb bb bb bb bb b年龄年龄6 66 66 66 66 66 66 65 55 56 66 66 67 77 7数据分布的离散性数据分布的离散性数据分布的离散性数据分布的离散性数据存在不同程度的离散性(数据存在不同程度的

25、离散性(变异性)异性)数据需要从集中性和离散性两个方面描述数据需要从集中性和离散性两个方面描述数据离散程度的描述指数据离散程度的描述指标:方差方差标准差准差全距全距异众比率异众比率离散系数离散系数偏度系数偏度系数1 1 方差方差方差是一种重要的离散量数,是把一组数据中每个数据相减,将其差进行平方后相加,再除以数据的个数,计算公式 :2、标准差标准差:将方差开平方得到的数值标准差:将方差开平方得到的数值 标准差解决了方差单位不明,与观测值单位一致。标准差解决了方差单位不明,与观测值单位一致。标准差用于描述观测值与均值的离散程度。标准差用于描述观测值与均值的离散程度。标准差越大观测值越分散,越小观

26、测值越集中。标准差越大观测值越分散,越小观测值越集中。标准差可以作为单位用于描述个体的偏离程度。标准差可以作为单位用于描述个体的偏离程度。3、全距全距:全距: 1 1)定)定义:一个分布中最大:一个分布中最大值和最小和最小值之之间的差距。的差距。 2 2)计算:全距算:全距= =(最大(最大值)- -(最小(最小值) 3 3)意)意义:反映数据反映数据间最大最大变异程度。异程度。计算算简单,只取决于最大,只取决于最大值和最小和最小值。只能粗略描述数据分布的离散程度。只能粗略描述数据分布的离散程度。4.异众比率异众比率,是指非众数的异众比率,是指非众数的频数与全部个案数的比数与全部个案数的比值,

27、用用VR表示,其含表示,其含义是指众数所不能代表的其他数据是指众数所不能代表的其他数据(即非众数数据)在(即非众数数据)在总数中的比重。数中的比重。VR值越大,表示非众数的个案所占越大,表示非众数的个案所占总数据的比例越大,数据的比例越大,也就是众数的代表性越小,相反,也就是众数的代表性越小,相反,VR值越小,越小,则表示表示众数的代表性越大。众数的代表性越大。异众比率是从反面异众比率是从反面检验众数的一众数的一项指指标4.异众比率公式公式例题:一组原始数据为例题:一组原始数据为6,8,4,7,5,8,4,86,8,4,7,5,8,4,8共有共有8 8个数(个数(n=8n=8),众数),众数M

28、0=8M0=8,非众数,非众数n-fm0=5n-fm0=5VR=8-3/8=0.625VR=8-3/8=0.6255、离散系数所所谓离散系数,即离散系数,即标准差与算准差与算术平均数的百分比平均数的百分比值,用用CV表示。表示。它是一种无量它是一种无量纲的相的相对数,因而便于数,因而便于进行行比比较。公式:公式:CV表示离散系数表示离散系数S表示表示标准差准差表示算数平均数表示算数平均数例例题:比:比较某区一季度二手房成交价格与房屋面某区一季度二手房成交价格与房屋面积分分布的差异程度,假布的差异程度,假设通通过调查得到如下数据:得到如下数据:平均数(平均数()标准差(准差(S)房屋价格房屋价格

29、 1702817028元元562562元元房屋面房屋面积58.1658.16平方米平方米2.862.86平方米平方米解:分解:分别求价格、面求价格、面积的离散系数的离散系数房屋价格房屋价格:=5.62/170.28=3.3%5.62/170.28=3.3%房屋面房屋面积: =2.86/58.16=4.92%=2.86/58.16=4.92%5、离散系数通通过上述上述计算可以看出,离散量数方差、算可以看出,离散量数方差、标准差、全准差、全距等,都属于距等,都属于绝对离散量数,即它离散量数,即它们都是都是带有与原有与原观察察值(数据)相同量(数据)相同量纲(单位)的量数。位)的量数。绝对离散量离散

30、量数的局限是,只有当两种离散量数的数的局限是,只有当两种离散量数的单位相同位相同时,才,才能比能比较大小,当两种离散量数的大小,当两种离散量数的单位不同位不同时,就无法,就无法进行差异比行差异比较。而离散系数可以而离散系数可以对不同不同单位数据比位数据比较,如上例,如上例题,针对房屋价格、面房屋价格、面积离散程度,可以看出二手房屋面离散程度,可以看出二手房屋面积方面的差异明方面的差异明显大于价格方面的差异。大于价格方面的差异。5、离散系数6、偏度系数偏度系数是用来描述数据分布特征的偏度系数是用来描述数据分布特征的统计量数。量数。所所谓偏度,指的是数据分布的偏度,指的是数据分布的偏偏倾方向方向和

31、和程度程度,它能,它能说明明数据数据总体是否近似于正体是否近似于正态分布,从而确定能否分布,从而确定能否进行行统计推推断或如何断或如何进行行统计推断。推断。简要介要介绍两种方法:两种方法:(1)按平均数与众数的离差求偏度系数)按平均数与众数的离差求偏度系数(2 2)按平均数与中位数的离差求偏度系数)按平均数与中位数的离差求偏度系数在数据呈基本正在数据呈基本正态分布的情况下,平均数、中位数、分布的情况下,平均数、中位数、众数三者之众数三者之间存在如下关系:存在如下关系:鉴于中位数于中位数较之众数更之众数更稳定、更具有代表性,故定、更具有代表性,故认为用平均数与中位数的离差求偏度系数的方法比前一种

32、用平均数与中位数的离差求偏度系数的方法比前一种更好,更准确。更好,更准确。6、偏度系数三、单变量统计推断参数估参数估计: :是用是用样本本统计量来估量来估计总体参数的。它体参数的。它通常只涉及一个通常只涉及一个变量,也涉及两个量,也涉及两个变量的。参数估量的。参数估计分分为三种情况,即三种情况,即总体平均数的参数估体平均数的参数估计、总体比率体比率的参数估的参数估计和和总体方差的参数估体方差的参数估计。假假设检验在在单变量量统计分析范分析范围内,假内,假设检验分分为三种情况,三种情况,即即总体平均数的假体平均数的假设检验,总体比率的假体比率的假设检验和和总体方差的假体方差的假设检验。第四节双变

33、量统计分析一、双一、双变量量统计分析的内容分析的内容两个两个变量量间的相关关系的相关关系()按照相关方向的不同,可分()按照相关方向的不同,可分为正相关和正相关和负相关。相关。()按照相关()按照相关强度的不同,可分度的不同,可分为完全相关、不相关完全相关、不相关和不完全相关。和不完全相关。()按照相关形式的不同,可分()按照相关形式的不同,可分为线性相关和非性相关和非线性性相关。相关。两个变量间的因果关系两个两个变量量间的因果关系,是指一个的因果关系,是指一个变量的量的变化可以确化可以确定定为另一个另一个变量量变化的原因的关系。化的原因的关系。二、双变量统计分析的方法在双在双变量量统计分析中

34、,由于分析中,由于变量的量的测量量层次不同,因次不同,因而而计算两个算两个变量相关系数的方法和假量相关系数的方法和假设检验的方法也的方法也不相同。不相同。变量的量的测量量层次,可分次,可分为定定类、定序、定距、定序、定距、定比四种定比四种类型型,这样就形成了多种不同就形成了多种不同测量量层次次变量量的两两的两两组合。合。58 多多变量量统计方法是运用数理方法是运用数理统计的方法来研究多的方法来研究多变量量问题的的理理论和方法和方法, ,它是它是单变量量统计统计方法的推广,是研究多个方法的推广,是研究多个随机随机变量之量之间相互依相互依赖关系以及内在关系以及内在统计规律性的一律性的一门统计学分支

35、学科。学分支学科。 近年来,多近年来,多变量量统计方法已广泛方法已广泛应用到医学研究的各个用到医学研究的各个领域。域。医学医学现象涉及到的象涉及到的变量不止一个量不止一个, ,而是多个而是多个变量量, ,且且这些些变量量间又存在一定的又存在一定的联系系, ,需要需要处理多个理多个变量的量的观测数据。数据。第五节多变量统计分析简介59回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量 (y) - 线性回归分析线性回归分析分类型因变量分类型因变量 (y) -Logistic 回归分析回

36、归分析时间序列因变量时间序列因变量 (t) -时间序列分析时间序列分析生存时间因变量生存时间因变量 (t) -生存风险回归分析生存风险回归分析一、多变量相关分析()偏相关分析()复相关分析()典型相关分析二、多元回归分析61()多元线性回归分析()多元线性回归分析多多元元线线性性回回归归分分析析也称复复线线性性回回归归分分析析 ,它研究一组自变量如何直接影响一个因变量。自变量是指独立自由的变量,用向量X表示;因变量是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析。()logistic回归分析是自变量为定距、定比变量(或虚拟变

37、量),因变量为定类、定序变量条件下的多元回归分析方法。三、多元方差分析多元方差分析是对多个定类变量(自变量)与多个定距变量(因变量)关系的多元分析方法,其分析的统计原理与方法同一元方差分析相似,只是程序更加复杂。四、因子分析因子分析是一种从众多相关变量中抽取若干个共同因子,从而使复杂数据得以简化的多变量分析方法。五、对数线性模型分析六、结构方程模型分析七、多层线性模型分析参考应用多用多变量量统计分析分析,孙尚拱著,2011,科学出版社。基本概念统计分析描述统计推断统计参数估计点值估计区间估计假设检验虚无假设备择假设置信水平置信区间集中量数离散量数相关关系因果关系抽样分布统计量参数消减误差比例方

38、差与标准差复习思考题如何认识统计分析在社会研究中的作用?(p277-279)怎样理解统计分析的目的?(p277-278)描述统计与推断统计是一种什么样的关系?(p280)如何理解抽样分布的作用?(p280-281)为什么对数据既要进行集中量数分析又要进行离散量数分析?(p284-290)平均数、中位数和众数,各有何优点和缺点?(p284-286)参数估计与假设检验有什么联系与区别?(p290-291)怎样理解消减误差比例的含义与作用?(p290)变量间的相关关系与因果关系有何不同?(p291-292)如何才能确定变量间的因果关系?(p292)用样本统计量推断总体用样本统计量推断总体可分为两种情

39、况:一是参数估计。就是用样本统计量推断总体参数,即反映总体或研究总体的统计值。因为,总体不可能全部调查,总体参数不可能直接得到,只能通过样本统计量来估计,因而称为参数估计。二是假设检验。假设检验是一种关于在多大置信水平上可用样本统计量推断总体参数的统计方法,其操作程序是,根据研究的问题先建立一个虚无假设或零假设(用H0表示)及与之针锋相对的备择假设(用H1表示),然后检验样本与总体的关系,即样本能否用来代表总体。可参阅统计推断(英文版),2004,机械工业出版社统计分析的特点(一)数据性:由数据形成概念,从概念形成判断,由判断进行推理,并得出结论。(二)目的性:统计分析为一定的对象服务,具有明显的针对性。(三)时效性:时间越短,统计分析的价值越高。可参阅统计分析的原分析的原则(1)科学性原则。(2)规范性原则。(3)效用最大化原则。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号