描述性统计分析ppt课件

上传人:人*** 文档编号:568457401 上传时间:2024-07-24 格式:PPT 页数:42 大小:2.61MB
返回 下载 相关 举报
描述性统计分析ppt课件_第1页
第1页 / 共42页
描述性统计分析ppt课件_第2页
第2页 / 共42页
描述性统计分析ppt课件_第3页
第3页 / 共42页
描述性统计分析ppt课件_第4页
第4页 / 共42页
描述性统计分析ppt课件_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《描述性统计分析ppt课件》由会员分享,可在线阅读,更多相关《描述性统计分析ppt课件(42页珍藏版)》请在金锄头文库上搜索。

1、第三章描述性统计分析1主要内容主要内容3.1 基本描述性统计量简介基本描述性统计量简介3.2 频率分析频率分析3.3 描述性分析描述性分析3.4 探索性分析探索性分析3.5 交叉表分析交叉表分析3.6 多重响应分析多重响应分析23.1 基本描述性统计量简介基本描述性统计量简介3.1.1 描述集中描述集中趋势的的统计量量 1.均值(均值(Mean) 2.众数(众数(Mode) 3.中位数(中位数(Median) 4.总和(总和(Sum) 5.百分位数(百分位数(Percentile Value) 33.1 基本描述性统计量的定义及计算基本描述性统计量的定义及计算 3.1.2 描述离散程度的描述离

2、散程度的统计量量 1.样本方差(样本方差(Variance) 2.样本标准差(样本标准差(Std. deviation) 3.极差(极差(Range) 4.均值标准误差(均值标准误差(Standard Error of Mean) 43.1 基本描述性统计量的定义及计算基本描述性统计量的定义及计算 3.1.3 描述描述总体分布形体分布形态的的统计量量 1. 偏度(偏度(Skewness):):是描述取值分布形态对称性的统计量;偏度系数大于0,表示其数据分布形态有一条长尾拖在右边,称为右偏或正偏,偏度系数小于0,表示其数据分布形态有一条长尾拖在左边,称为左偏或负偏。偏度系数的绝对值越大,与正态分

3、布相比越偏斜。 2. 峰度(峰度(Kurtosis):):是描述变量取值分布形态陡缓的统计量;峰度系数等于0,表明数据分布的陡峭程度与正态分布相同。峰度系数大于0时为尖峰分布,表明数据分布的陡峭程度比正态分布大,峰度系数小于0时为平峰分布,表明数据分布的陡峭程度比正态分布小。53.1 基本描述性统计量的定义及计算基本描述性统计量的定义及计算 3.1.3 描述描述总体分布形体分布形态的的统计量量 来自于正态总体的偏度及峰度均近似为0,可以利用偏度和峰度的值是否接近0作为检验是否是正态分布的重要依据。6主要内容主要内容3.1 基本描述性统计量简介基本描述性统计量简介3.2 频率分析频率分析3.3

4、描述性分析描述性分析3.4 探索性分析探索性分析3.5 交叉表分析交叉表分析3.6 多重响应分析多重响应分析73.2 频率分析频率分析 3.2.1 基本概念及基本概念及统计原理原理 频率就是一个变量在各个变量值上取值的个案数,分析时不考虑其实际取值。基本统计分析往往从频率分析开始。通过频率分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。经过频率分析可以得到如下结果:(1)频率分布表:该表中包含频率、各频率占总样本数的百分比、有效百分比、累计百分比。(2)统计图:用统计图形展示变量的取值状况,频率分析中提供的统计图形可以是条形图、饼图或者直方图。83.2 频率分析频率分析3.2.2

5、 SPSS实例分析例分析【例例3-1】以下是以下是调查问卷中卷中针对被被调查人人设置的两个置的两个问题: 1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人民币为单位)单选 500-1000.1 1000-19992 2000-29993 3000-39994 4000-49995 5000-59996 6000-69997 7000-79998 8000-89999 9000-999910 10000及以上112、 您的教育程度:(指您受过的最高或正在接受的教育程度)单选 没有受过正式教育/小学.1初中.2 高中/中专/技校 .3 大专/大学非本科/高职高专4 大学本科.5研

6、究生及以上.6 从问卷中收集到的数据如表3.1所示 , 试对收集到的数据进行频数分析 93.2 频率分析频率分析第第1步步 数据组织:数据组织:根据表3.1生成SPSS数据文件,建2个变量:“收入”、“教育”, 度量标准均为序号。第第2步步 频率分析设置:频率分析设置:选择菜单:“分析 描述统计 频率”, 打开“频率(F)”对话框,将“教育”和“收入”加入到“变量”列表框中。打开“统计量”对话框,选中“百分位数” “众数”,并在“百分位数”中添加30.0、 60.0、90.0;打开“图表”对话框,选中“直方图”及后 面的复选框家庭月收入受教育程度35152515156410545表3.1103

7、.2 频率分析频率分析第第3步步 主要结果及分析:主要结果及分析:统计量表变量“教育”的频率分布表教育教育频率百分比有效百分比累积百分比有效181.01.01.02394.74.75.6311413.613.719.3416519.719.839.0545654.554.693.76536.36.3100.0合计83599.9100.0缺失系统1.1合计836100.0表中分别显示两个分析变量“教育”及“收入”的有效个案数、缺失值个数、及两个分析变量的“众数”及对应于30%、60%及90%的百分位数 。 表中显示了变量“教育”在各个取值上出现的次数(频率)、其频率占所有个案中的百分比、有效百分

8、比及累积百分比。 113.2 频数分析频数分析变量变量“收入收入”的频率分布表的频率分布表收入收入频率百分比有效百分比累积百分比有效02.2.2.218710.410.410.6215218.218.228.8315718.818.847.6413716.416.464.058810.510.574.568510.210.284.77526.26.290.98273.23.294.1991.11.195.21081.01.096.211323.83.8100.0合计836100.0100.0表中显示了变量“收入”在各个取值上出现的次数(频率)、其频率占所有个案中的百分比、有效百分比及累积百分比

9、。 123.2 频数分析频数分析变量变量“教育教育”的直方图的直方图变量变量“收入收入”的直方图的直方图表中显示了变量“教育”的直方图,从图上可以看出受访者教育程度同正态分布相比左偏,不具备明显的正态分布。 表中显示了变量“收入”的直方图,从图上可以看出受访者家庭收入同正态分布相比右偏,不具备明显的正态分布。 13主要内容主要内容3.1 基本描述性统计量简介基本描述性统计量简介3.2 频率分析频率分析3.3 描述性分析描述性分析3.4 探索性分析探索性分析3.5 交叉表分析交叉表分析3.6 多重响应分析多重响应分析143.3 描述性分析描述性分析3.3.1 基本概念及基本概念及统计原理原理 描

10、述性分析主要用于输出变量的各类描述性统计量的值,通过上一节的学习可知,频率分析同样可以做到,都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能,也不能生成频率表,但描述性分析可以将原始数据标准化为Z分数,并以变量形式存入数据文件中,以便后续分析时应用。 153.3 描述性分析描述性分析3.3.2 实例分析例分析 【例3-2】图3-8是5岁儿童体重、身高、胸围的部分SPSS数据,试对儿童身高作描述性统计分析。(数据文件:data3-2.sav)第第1步步 打开数据文件打开数据文件data3-2.sav;第第2步步 描述性分析设置:描述性分析设置:选择菜单“分析 描述统计 描述” ,打

11、开“描述性”主对话框,将要分析的变量“身高”加入“变量”列表框中。打开“描述:选项”对话框,选中“均值”、“标准差”、“最小值”、“最大值”、“峰度”、“偏度”及显示顺序的“变量列表”等选项。163.3 描述性分析描述性分析第第3步步 运行结果及分析:运行结果及分析:描述性分析结果表表中分析变量“身高”的个案数、所有个案中的极大值、极小值、均值、标准差及偏度和峰度17主要内容主要内容3.1 基本描述性统计量简介基本描述性统计量简介3.2 频率分析频率分析3.3 描述性分析描述性分析3.4 探索性分析探索性分析3.5 交叉表分析交叉表分析3.6 多重响应分析多重响应分析183.4 探索性分析探索

12、性分析3.4.1 基本概念及基本概念及统计原理原理 与前面介绍的两种分析方法相比,探索性分析更加强大,它是一种在对资料的性质、分布特点等完全不清楚的情况下,对变量进行更深入研究的描述性统计方法。在进行统计分析前,通常需要寻求和确定适合所研究的问题的统计方法, SPSS提供的探索性分析是解决此类问题的有效办法。 探索性分析提供了很多关于数据的概括分析和图表直观描述的方法,不仅对个案数据有效,而且还可以针对分组个案。在输出常用描述性统计量的基础之上,探索性分析增加了有关数据详细分布特征的文字与图形表述,如茎叶图、箱图等,显得更加详细、完整,还可以以方差齐性为目的的变量交换提供线索,有助于用户制定更

13、进一步分析的方案。 193.4 探索性分析探索性分析3.4.2 实例分析例分析【例3-3】下表是某班3门课程对应成绩的统计数据,试对其作探索性分析并做是否服从正态分布的检验。第第1 1步步 数据组织:数据组织:定义2个变量,分别为:“科目”、“成绩”,“科目”的度量标准为“名义”,“成绩”的度量标准为“度量”。第第2 2步步 探索分析设置:探索分析设置:选择菜单“分析 描述统计 探索”,打开“探索” 对话框,将“成绩”字段移入“因变量列表”,“科目”移入“因子列表”。 203.4 探索性分析探索性分析打开“统计量”对话框,选中“描述性”及“M-估计量”选项;打开“探索:图”对话框,选中“按因子

14、水平分组”、“茎叶图”、“带检验的正态图”等选项。打开“探索:选项”,选中“按列表排除个案”选项。第第3 3步步 运行结果及分析:运行结果及分析:“成绩”按科目分组的案例处理摘要表案例处理摘要案例处理摘要科目案例有效缺失合计N百分比N百分比N百分比成绩语文6100.0%0.0%6100.0%数学6100.0%0.0%6100.0%英语6100.0%0.0%6100.0%表中显示“成绩”按“科目”分组后各组的有效个案数、个案缺失数及缺失比例等 。 213.4 探索性分析探索性分析描述性统计量表描述描述科目科目统计量统计量标准误标准误成成绩绩语语文文均值均值69.1769.179.1569.156

15、均值的均值的 95% 95% 置信区间置信区间下限下限45.6345.63上限上限92.7092.705% 5% 修整均值修整均值69.9169.91中值中值73.5073.50方差方差502.967502.967标准差标准差22.42722.427极小值极小值3030极大值极大值9595范围范围6565四分位距四分位距3434偏度偏度-1.085-1.085.845.845峰度峰度1.6171.6171.7411.741表中显示“成绩”按“科目”分组后各分组的描述性统计量,左表中只显示的是”语文“分组的均值、均值的95%置信区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等 。 22

16、3.4 探索性分析探索性分析M均值估计量M-M-估计器估计器科目Huber 的 M-估计器aTukey 的双权重bHampel 的 M-估计器cAndrews 波d成绩语文72.5475.7872.8876.05数学41.4241.1341.6741.13英语56.6855.6055.0055.60a. 加权常量为 1.339。b. 加权常量为 4.685。c. 加权常量为 1.700、3.400 和 8.500d. 加权常量为 1.340*pi。表中提供了四种估计方法,每种估计方法的加权量在表下方给出,对于有异常值或极端值的数据,M均值估计有很好的稳定性,用M估计值代替均值或中位数,结果更准

17、确 。根据样本值的权重不同,可以得到不同的估计量 233.4 探索性分析探索性分析正态检验表 表中显示了按科目分为的3个分组的两种检验方法的正态性检验结果,包括各分组的统计量、自由度及显著性水平,以K-S方法的“语文”分组为例分析:其自由度sig.=0.200,明显大于0.05,故应接受原假设,认为”语文“分组中的数据服从正态分布。243.4 探索性分析探索性分析箱图 箱图中显示成绩按科目分成的三个分组,每个分组中的数据绘制成对应的箱体。每一个箱体上方那条线的取值代表该分组中最大值,下方那条线的取值代表最小值。箱体自身的三条线从上到下分别代表3/4分位点、中位点、1/4分位点的取值。253.4

18、 探索性分析探索性分析语文成绩的标准Q-Q图及趋降标准Q-Q图上图为“科目=语文”分组的成绩标准Q-Q图,Q-Q图可以用来检验数据是否服从某种分布,在Q-Q图中,检验数据是否较好地服从给定分布的标准有两个:看标准Q-Q图上的数据点与直线的重合度;Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。从上图中可以看出,”科目=语文“的分组中的数据与直线重合度较好,故很好地服从正态分布,这与前面的正态检验表中的结果是一致的。26主要内容主要内容3.1 基本描述性统计量简介基本描述性统计量简介3.2 频率分析频率分析3.3 描述性分析描述性分析3.4 探索性分析探索性分析3.5 交叉表分析交叉

19、表分析3.6 多重响应分析多重响应分析273.5 交叉表分析交叉表分析3.5.1基本概念及基本概念及统计原理原理1.交叉表分析的概念交叉表分析的概念 在实际分析中,常需要分析多个变量之间,一个变量是否对其他变量的取值存在影响,分析变量之间是否存在关系,这种分析就称为交叉表分析,用于定类型变量之间的关系分析。 交叉表是两个或多个变量交叉分组后形成的频数分布表,主要用于研究定类型变量之间有无相关性,给出了变量在不同取值下的数据分布。交叉表分析根据样本数据,产生二维或多维交叉表,并在产生交叉表的基础上,对两两变量间是否存在一定的相关性进行分析。283.5 交叉表分析交叉表分析2交叉表分析的相关关系的

20、主要交叉表分析的相关关系的主要检验方法方法 在分析中,难以在交叉表中直接发现行、列变量之间的关系及关系强度,需要借助非参数检验方法和度量变量间相关程度的统计量进行分析,通常采用检验和相关性检验。卡方统计检验:常用于检验行列变量之间是否相关。列联系数:用于名义变量之间的相关系数计算。 V系数(Phi and Cramers V):常用于名义变量之间的相关系数计算。293.5 交叉表分析交叉表分析3.5.2 SPSS实例分析例分析【例3-4】 在设置学生评价实验教学的调查表中,“实验准备”是其中的一项指标,为分析“实验准备”情况与评价结果的关系,建立的SPSS数据文件中的部分数据如下图所示,变量值

21、标签如下表所示。(参见数据文件:data3-4.sav。)变量量实验准准备评价价结果果值与与值标签1差差1差差2一般一般2一般一般3准准备充分充分3优303.5 交叉列联表分析交叉列联表分析第第1步步 数据组织:数据组织:数据文件中建立两个变量:“实验准备”、“评价结果”,两个变量均为数值型或字符型的分类变量,其度量标准为“名义”,保存为SPSS数据文件data3-4.sav。第第2步步 交叉表分析设置:交叉表分析设置:选择菜单:“分析描述统计 交叉表” ,打开“交叉表”对话框,将“实验准备”及“评价结果”字段分别加入“行(s)”及“列(c)”列表框中。打开“统计量”对话框,选中“卡方”选项。

22、打开“单元显示”对话框,选中“观察值”及“四舍五入单元格计数”选项,二者都是缺省设置。313.5 交叉表分析交叉表分析第第3步步 主要结果及分析:主要结果及分析:案例处理摘要案例处理摘要案例处理摘要案例案例有效的有效的缺失缺失合计合计N N百分比百分比N N百分比百分比N N百分比百分比实验准备实验准备 * * 评价结果评价结果5050100.0%100.0%0 0.0%.0%5050100.0%100.0%案例处理摘要表案例处理摘要表给出了数据基本信息,包括参与分析的有效给出了数据基本信息,包括参与分析的有效个案数、缺失信息等。在本例中,每个变量有个案数、缺失信息等。在本例中,每个变量有50

23、个有效个案个有效个案参与分析,无缺失值。参与分析,无缺失值。323.5 交叉表分析交叉表分析第第3步步 主要结果及分析:主要结果及分析:实验准备* 评价结果交叉表实验准备实验准备* * 评价结果评价结果 交叉制表交叉制表计数计数评价结果评价结果合计合计差差一一般般优优实验准备实验准备差差12123 30 01515一般一般9 98 81 11818准备准备充充分分0 013134 41717合计合计212124245 55050表中给出了数据的表中给出了数据的33交叉表,与原始交叉表,与原始数据在形式上基本一数据在形式上基本一致致333.5 交叉表分析交叉表分析第第3步步 主要结果及分析:主要

24、结果及分析:卡方检验结果表卡方检验卡方检验值值dfdf渐进渐进 Sig. (Sig. (双侧双侧) )Pearson Pearson 卡方卡方22.90722.907a a4 4.000.000似然比似然比29.89729.8974 4.000.000线性和线性组合线性和线性组合20.35720.3571 1.000.000有效案例中的有效案例中的 N N5050a. 3 a. 3 单元格单元格(33.3%) (33.3%) 的期望计数少于的期望计数少于 5 5。最小期望计数为。最小期望计数为 1.501.50。表中显示行、列变量通过卡方检验给出的独立性检验结果。表中显示行、列变量通过卡方检验

25、给出的独立性检验结果。共使用了三种检验方法。上表各种检验方法显著水平共使用了三种检验方法。上表各种检验方法显著水平sig.都都远远小于远远小于0.05,所以有理由拒绝实验准备与评价结果是独立的所以有理由拒绝实验准备与评价结果是独立的假设,即认为实验准备这个评价指标是同评价结果是相关的。假设,即认为实验准备这个评价指标是同评价结果是相关的。343.5 交叉表分析交叉表分析第第3步步 主要结果及分析:主要结果及分析:分组条形图 本条形图相当于是实验准备本条形图相当于是实验准备*评价结果交叉表的直观表示,评价结果交叉表的直观表示,用图形表示可更直观地得出各种情况的比较。用图形表示可更直观地得出各种情

26、况的比较。35主要内容主要内容3.1 基本描述性统计量简介基本描述性统计量简介3.2 频率分析频率分析3.3 描述性分析描述性分析3.4 探索性分析探索性分析3.5 交叉表分析交叉表分析3.6 多重响应分析多重响应分析363.6 多多重响应重响应分析分析3.6.1 基本概念及基本概念及统计原理原理1.基本概念基本概念 多重响应分析是对多选项问题的分析方法。多选项问题要求问题的答案都是序号变量或名义变量,并且允许选择的答案可以有多个的问题。 多选项问题在问卷调查中普遍存在,要求被调查者从问卷中给出的若干个可选答案中选择一个以上的答案。例如,调查消费者拥有的数码产品的种类,有如下的选项:例如,调查

27、消费者拥有的数码产品的种类,有如下的选项:(1)数码相机)数码相机 (2)数码摄像机)数码摄像机 (3)MP3 (4)DVD机机很显然,该问题可选的答案在一个以上,对于此类的多选项问题,通常,在很显然,该问题可选的答案在一个以上,对于此类的多选项问题,通常,在SPSS中处理此类问题的一般步骤为以下两大步骤:中处理此类问题的一般步骤为以下两大步骤:(1)将多选项问题分解)将多选项问题分解;(2)利用频数分析或者列联表分组下的频数分析方法进行分析。)利用频数分析或者列联表分组下的频数分析方法进行分析。 373.6 多多重响应重响应分析分析2多选项问题的分解方法多选项问题的分解方法 (1)多选项二分

28、法:)多选项二分法:该分解方法是将多选项问题中的每个答案视为一个SPSS变量,每个变量只取0或1两个值,分别表示选择该答案或没有选择该答案。 (2)多选项分类法)多选项分类法 :其分解的基本思想是估计多选项问题最多可能出现的答案个数,然后为每个答案定义一个SPSS变量,变量取值为多选项问题中的可选答案。383.6 多多重响应重响应分析分析3.6.2 多重响多重响应分析分析Spss实例分析例分析 【例例3-53-5】对对5050个消费者进行调查,拥有的数码产品的种类,个消费者进行调查,拥有的数码产品的种类,有如下的选项:有如下的选项:(1)数码相机 (2)数码摄像机 (3)MP3 (4)DVD机

29、可多选,按性别统计拥有各种数码产品的数量(data3-5.sav)。第第1步步 分解多选项问题,定义多选项变量集;分解多选项问题,定义多选项变量集;分解多项式分解多项式 :按照二分法分解多选项问题,下表为此多选项问题的前7组数据的二分法记录表,其中性别1为男性,2为女性,其他数据中的1表示拥有该产品,0表示没有。编号性别数码相机数码摄像机MP3DVD机1111112100113200014111005101106100017211118200009200111010100393.6 多多重响应重响应分析分析定义多选项变量集:定义多选项变量集:选择菜单“分析 多重响应 定义变量集”,打开“定义多

30、重响应集”对话框,将“数码相机”、“数码摄像机”、“MP3”、“DVD机”字段加入“集合中的变量”列表框中,“将变量编码为”选择为“二分法”,“计数值”设为1,输入多响应集的名称为“dp”,单击“添加(A)”按钮,将定义好的数据集添加到“多响应集”列表中。第第2步步 进行多重响应交叉分组下的频数分析:进行多重响应交叉分组下的频数分析:选择菜单“分析多重响应交叉表”,弹出“多响应交叉表”对话框,将第1步中建立的多响应集$dp添加到“列”列表框中作为交叉表的列,将“sex”字段添加到“行”列表框作为作为交叉表的行,确定“sex”的定义范围为最小值1、最大值2。403.6 多多重响应重响应分析分析第

31、第3步步 主要结果及分析:主要结果及分析:多重响应分析个案摘要多重响应交叉分析结果 左 表中给出参与分析的个案数和缺失值的信息。 sex*$dp sex*$dp 交叉制表交叉制表数码产品数码产品a a总计总计数码相机数码相机数码摄像数码摄像机机MP3MP3DVDDVD机机sexsex男男计数计数15151616222213133030女女计数计数9 97 713138 81515总计总计计数计数24242323353521214545百分比和总计以响应者为基础。百分比和总计以响应者为基础。a. a. 值为值为 1 1 时制表的二分组。时制表的二分组。 右表中显示的是多重响应交叉表分析的频数表。从表中可以看出,男性拥有数码产品的数量高于女性,各种数码数码产品中,拥有MP3的人数最多。 41The End42

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号