chap7基本统计分析

上传人:tian****1990 文档编号:75200563 上传时间:2019-01-30 格式:PPT 页数:47 大小:308.81KB
返回 下载 相关 举报
chap7基本统计分析_第1页
第1页 / 共47页
chap7基本统计分析_第2页
第2页 / 共47页
chap7基本统计分析_第3页
第3页 / 共47页
chap7基本统计分析_第4页
第4页 / 共47页
chap7基本统计分析_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《chap7基本统计分析》由会员分享,可在线阅读,更多相关《chap7基本统计分析(47页珍藏版)》请在金锄头文库上搜索。

1、2019/1/30,第七章,基本统计分析,2019/1/30,本章内容,SPSS 统计分析功能概述 SPSS 数值分析过程 基本统计分析概述 7.1 一维频数分布表Frequencies 7.2 描述统计分析过程Descriptives,7.3 探索分析 Explore 7.4 多维频数分布表(交叉表,列联表) 7.5 OLAP报告摘要表OLAP Cubes 补充: Reports的其他分析过程 练习题,2019/1/30,SPSS 统计分析功能概述,有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。 SPSS有数值分析

2、和作图分析两类方法,2019/1/30,SPSS 数值分析过程,SPSS 数值统计分析过程均在Analyze菜单中,包括: a、基本统计分析 :Reports, Descriptive Statistics b、均值比较与检验 :Compare Means c、方差分析:ANOVA Models d 、相关分析:Correlate,SPSS 数值分析过程,e、回归分析 :Regression f、聚类与判别:Classify g、因子分析:Data Reduction h、非参数检验:Nonparametric Tests 等等,2019/1/30,基本统计分析概述,基本统计分析是进行其他更深

3、入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。,基本统计分析概述,在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。,基本统计分析概述,Descriptive Statistics包括的统计功能有: Frequencies:频数分析 Descriptives:描述统计量分析 Explore:探索分析 Crosstabs:多维频数分布交叉表(列联表) Ratio:比率统计过程,基本统计分析概述,Re

4、ports包括的统计功能有: OLAP Cubes:OLAP报告摘要表 Case Summaries:观测量列表 Report Summaries in Row:行形式输出报告 Report Summaries in Columns:列形式输出报告,2019/1/30,7.1 一维频数分布表Frequencies,频数分布表的基本内容: 频数 累计频数 百分比 累计百分比,一维频数分布表Frequencies,1、了解变量的取值分布情况对整体把握数据的特征是非常有利的。 2、求分类(定类、定序)变量的频数和作图,一维频数分布表Frequencies,绘制统计图形 统计图形的种类 条形图、饼图(

5、适用于定类、定序数据和分组后的定距数据) 直方图 (适用于定距数据),一维频数分布表Frequencies,3、求定距变量(连续变量)的分布情况和作直方图Histogram ,比Descriptives 多百分位,在Statistics选项,一维频数分布表Frequencies,分位数(Percentile values):适用于定序、定距数据。数据按升序排序后,找到若干个分位点上的变量值 分位数的应用:可以从一个侧面比较两组样本数据的集中趋势;在避免极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度。 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较,

6、一维频数分布表Frequencies,4、对连续变量进行分组(recode)后再求频数,如老中青(35, 60)的比例,文化程度(中学、大学及以上)的人数及比例等,一维频数分布表Frequencies,5、菜单:Analyze + Descriptive Statistics + Frequencies 6、例子:p165:对1991年美国社会调查情况数据 (data07-01)进行统计处理。分析不同年龄(age变量)和最高受教育年限(educ变量)各水平的频数分布情况。,2019/1/30,7.2 描述统计分析过程Descriptives,1、功能:了解数据的基本统计特征和对指定的变量值进行

7、标准化处理(标准化后的新变量的均值为0,标准差为1,目的是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性)。,描述统计分析过程Descriptives,2、描述统计分析过程通过平均值(Mean)、 算术和(Sum) 、标准差(Std Dev) 、最大值(Maximum) 、最小值(Minimum) 、方差(Variance)、范围(Range)、平均数标准误(S.E. Mean)等统计量对变量进行描述。,描述统计分析过程Descriptives,描述集中趋势的统计量: 1、均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距数据。 特点:利用了全部数据,

8、但易受极端值的影响。 2、众数(mode) 一组数据中出现频数最多的变量值。(例:服装尺码) 适用于各类数据,主要用于定类数据。 特点:众数可能不唯一,不受极端值的影响。,描述统计分析过程Descriptives,描述离散程度的统计量 1、标准差(standard deviation-Std Dev) 2、方差(variance) 3、极差 (range): 最大值(minimum)-最小值(minimum) 极差很小表明所有数据几乎集中在一起,可应用于相同样本容量的两组数据的离散程度的比较,描述统计分析过程Descriptives,描述对称程度的统计量: 偏度(skewness) 描述某变量

9、所有变量值分布形态的偏斜程度和方向的统计量。 偏度为0表示对称; 大于0表示正偏差大(右偏),频数最大的值比均值小; 小于0表示负偏差大(左偏)。,描述统计分析过程Descriptives,描述陡峭程度的统计量 峰度(kurtosis) 描述某变量所有变量值分布形态陡缓程度的统计量。 峭度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,尖峰。 小于0表示比正态分布缓;平峰。 其他:标准误差,描述统计分析过程Descriptives,3、一般是求定距变量的描述统计量,从中分析差异性(max,min) 4、 Analyze +Descriptive Statistics+Descriptiv

10、es,描述统计分析过程Descriptives,5、例子: p168 1985年美国联邦调查局对50个州各种犯罪情况调查的数据(data07-02)进行描述统计分析 50个州总的情况 不同地区region的情况(2种方法:Split File+ Descriptives, 第6章的Means),7.3 探索分析 Explore,调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。,2019/1/30,7.3 探索分析 Explore,1. 考察

11、数据的奇异性和分布特征 奇异性:数据的过大或过小(找出、分析原因、是否剔除) 分布特征:数据是否来自正态分布总体 考察方法:统计量和统计图形(箱图、茎叶图(频数、茎和叶)、方差齐次性检验Spread vs level图),探索分析 Explore,2. 一般是考察定距变量 3. Analyze + Descriptive Statistics + Explore 因(分析)变量(Dependent List):定距变量 分组变量(Factor List):分类变量 标识变量(Label Cases by):为方便查找输出观测量如id,探索分析 Explore,考察方法 1、箱图 2、茎叶图 3

12、、方差齐性检验,探索分析 Explore,4.例子p173:考察银行数据(data07-03)中的不同性别的工资情况,2019/1/30,7.4 多维频数分布表(交叉表,列联表),目的:作出二维或多维交叉频数表(列联表),了解不同变量在不同水平下的数据分布情况,分析事物(变量)之间的相互影响和关系,多维频数分布表(交叉表,列联表),采用的方法 1、产生交叉列联表 列联表(二维/三维) 列变量 行变量 控制变量,多维频数分布表(交叉表,列联表),2、分析列联表中变量间的关系 目的 通过列联表分析,检验行列变量之间是否独立,实现对总体的推断。 方法 最常用:卡方检验,关于卡方检验,建立原假设 H0

13、:行、列变量之间无关联或相互独立; 构造卡方统计量,统计量服从(r-1)*(c-1)个自由度的卡方分布 count:观察(实际)频数 expected count:期望频数(期望频数反映的是H0成立情况下的数据分布特征) Residual:剩余 (观察频数-期望频数) Std residual:标准化剩余,多维频数分布表(交叉表,列联表),菜单:Analyze + Descriptive Statistics + Crosstabs 行变量(Row):需分类变量 列变量(Column):需分类变量 分层变量(Layer):条件(若有,需分类变量) Statistics选项: Chi-squar

14、e复选项及其四种检验结果 Correlations复选项:相关系数,多维频数分布表(交叉表,列联表),例子: P148:1991年美国社会调查情况数据(data07-01) 。 P149:调查男女经理的薪金是否平等(data07-04) 。,7.5比率统计过程(11-Ver新增功能),目的: 给出两个具有Scale测度的变量之比的概述统计表,以反映两个变量数量上的对比关系和一致性。,菜单: Analyze-Descriptive Statistics-Ratio (三)应用举例 P185:(data07-05),注:我们可以不使用Ratio过程,而是先计算出一个新变量代表两变量的比值,然后对该

15、变量进行描述,但是这种方法只能计算出常用描述指标,而Ratio过程可以提供许多专门的相对比描述指标,使用上更方便。,2019/1/30,7.6 OLAP报告摘要表OLAP Cubes,OLAP(Online Analytical Processing)在线分析处理过程以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。,OLAP报告摘要表OLAP Cubes,Analyze + Reports + OLAP Cubes Summary Variables:要进行统计汇总的数值型变量 Grouping Variables:分组变量(分类变

16、量),OLAP报告摘要表OLAP Cubes,注意:此分组变量在实际的运算过程中并不发挥分组的功能,而是确定进入统计的观测量的范围。如选择数学成绩作为摘要分析变量,而性别作为分组变量,要计算数学平均成绩,则结果中显示的并不是男生的数学平均成绩和女生的数学平均成绩,而是所有男女生观测量的数学成绩的总平均值。即所有性别有值(非Missing Value)的Case,才参与分析计算,OLAP报告摘要表OLAP Cubes,Statistics选项:Sum和、Number of Cases观测量数目、Mean均值、Median中位数、Maximum最大等等 例子1991年美国社会调查情况数据(data07-01) :对不同种族race的孩子childs和教育educ情况进行报告摘要分析。,2019/1/30,补充: Reports的其他分析过程,Reports的其他分析过程有: Case Summaries:观测值摘要分析 Report Summaries in Row:行形式输出报告 Report Summaries in Columns:列形式输出报告,2019/1/30,C

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号