chap7基本统计分析－金锄头文库

资源描述

《chap7基本统计分析》由会员分享，可在线阅读，更多相关《chap7基本统计分析（47页珍藏版）》请在金锄头文库上搜索。

1、2019/1/30,第七章,基本统计分析,2019/1/30,本章内容,SPSS 统计分析功能概述 SPSS 数值分析过程基本统计分析概述 7.1 一维频数分布表Frequencies 7.2 描述统计分析过程Descriptives,7.3 探索分析 Explore 7.4 多维频数分布表(交叉表,列联表) 7.5 OLAP报告摘要表OLAP Cubes 补充： Reports的其他分析过程练习题,2019/1/30,SPSS 统计分析功能概述,有了数据，可以利用SPSS的各种分析方法进行分析，但选择何种统计分析方法，即调用哪个统计分析过程，是得到正确分析结果的关键。 SPSS有数值分析

2、和作图分析两类方法,2019/1/30,SPSS 数值分析过程,SPSS 数值统计分析过程均在Analyze菜单中，包括： a、基本统计分析：Reports, Descriptive Statistics b、均值比较与检验：Compare Means c、方差分析：ANOVA Models d 、相关分析：Correlate,SPSS 数值分析过程,e、回归分析：Regression f、聚类与判别：Classify g、因子分析：Data Reduction h、非参数检验：Nonparametric Tests 等等,2019/1/30,基本统计分析概述,基本统计分析是进行其他更深

3、入的统计分析的前提，通过基本统计分析，用户可以对分析数据的总体特征有比较准确的把握，从而选择更为深入的分析方法对分析对象进行研究。,基本统计分析概述,在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。,基本统计分析概述,Descriptive Statistics包括的统计功能有： Frequencies：频数分析 Descriptives：描述统计量分析 Explore：探索分析 Crosstabs：多维频数分布交叉表（列联表） Ratio:比率统计过程,基本统计分析概述,Re

4、ports包括的统计功能有： OLAP Cubes：OLAP报告摘要表 Case Summaries：观测量列表 Report Summaries in Row：行形式输出报告 Report Summaries in Columns：列形式输出报告,2019/1/30,7.1 一维频数分布表Frequencies,频数分布表的基本内容：频数累计频数百分比累计百分比,一维频数分布表Frequencies,1、了解变量的取值分布情况对整体把握数据的特征是非常有利的。 2、求分类（定类、定序）变量的频数和作图,一维频数分布表Frequencies,绘制统计图形统计图形的种类条形图、饼图（

5、适用于定类、定序数据和分组后的定距数据）直方图（适用于定距数据）,一维频数分布表Frequencies,3、求定距变量(连续变量)的分布情况和作直方图Histogram ，比Descriptives 多百分位，在Statistics选项,一维频数分布表Frequencies,分位数(Percentile values):适用于定序、定距数据。数据按升序排序后，找到若干个分位点上的变量值分位数的应用：可以从一个侧面比较两组样本数据的集中趋势；在避免极端值影响的条件下，通过计算分位数差，比较两组样本数据的离散程度。例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较,

6、一维频数分布表Frequencies,4、对连续变量进行分组(recode)后再求频数，如老中青(35, 60)的比例，文化程度(中学、大学及以上)的人数及比例等,一维频数分布表Frequencies,5、菜单：Analyze + Descriptive Statistics + Frequencies 6、例子：p165：对1991年美国社会调查情况数据 (data07-01)进行统计处理。分析不同年龄（age变量）和最高受教育年限（educ变量）各水平的频数分布情况。,2019/1/30,7.2 描述统计分析过程Descriptives,1、功能：了解数据的基本统计特征和对指定的变量值进行

7、标准化处理(标准化后的新变量的均值为0，标准差为1，目的是为了消除各变量间变量值在数量级上的差异，从而增强数据间的可比性)。,描述统计分析过程Descriptives,2、描述统计分析过程通过平均值(Mean)、算术和(Sum) 、标准差(Std Dev) 、最大值(Maximum) 、最小值(Minimum) 、方差(Variance)、范围(Range)、平均数标准误(S.E. Mean)等统计量对变量进行描述。,描述统计分析过程Descriptives,描述集中趋势的统计量： 1、均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距数据。特点：利用了全部数据，

8、但易受极端值的影响。 2、众数(mode) 一组数据中出现频数最多的变量值。(例：服装尺码) 适用于各类数据，主要用于定类数据。特点：众数可能不唯一，不受极端值的影响。,描述统计分析过程Descriptives,描述离散程度的统计量 1、标准差(standard deviation-Std Dev) 2、方差(variance) 3、极差 (range): 最大值(minimum)-最小值(minimum) 极差很小表明所有数据几乎集中在一起，可应用于相同样本容量的两组数据的离散程度的比较,描述统计分析过程Descriptives,描述对称程度的统计量：偏度(skewness) 描述某变量

9、所有变量值分布形态的偏斜程度和方向的统计量。偏度为0表示对称；大于0表示正偏差大(右偏)，频数最大的值比均值小；小于0表示负偏差大(左偏)。,描述统计分析过程Descriptives,描述陡峭程度的统计量峰度(kurtosis) 描述某变量所有变量值分布形态陡缓程度的统计量。峭度为0表示与正态分布峭度相同。大于0表示比正态分布陡，尖峰。小于0表示比正态分布缓；平峰。其他：标准误差,描述统计分析过程Descriptives,3、一般是求定距变量的描述统计量，从中分析差异性（max，min） 4、 Analyze +Descriptive Statistics+Descriptiv

10、es,描述统计分析过程Descriptives,5、例子： p168 1985年美国联邦调查局对50个州各种犯罪情况调查的数据(data07-02)进行描述统计分析 50个州总的情况不同地区region的情况(2种方法：Split File+ Descriptives，第6章的Means),7.3 探索分析 Explore,调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。,2019/1/30,7.3 探索分析 Explore,1. 考察

11、数据的奇异性和分布特征奇异性：数据的过大或过小（找出、分析原因、是否剔除）分布特征：数据是否来自正态分布总体考察方法：统计量和统计图形（箱图、茎叶图（频数、茎和叶）、方差齐次性检验Spread vs level图）,探索分析 Explore,2. 一般是考察定距变量 3. Analyze + Descriptive Statistics + Explore 因（分析）变量（Dependent List）：定距变量分组变量（Factor List）：分类变量标识变量(Label Cases by):为方便查找输出观测量如id,探索分析 Explore,考察方法 1、箱图 2、茎叶图 3

12、、方差齐性检验,探索分析 Explore,4.例子p173：考察银行数据(data07-03)中的不同性别的工资情况,2019/1/30,7.4 多维频数分布表(交叉表,列联表),目的：作出二维或多维交叉频数表（列联表），了解不同变量在不同水平下的数据分布情况，分析事物（变量）之间的相互影响和关系,多维频数分布表(交叉表,列联表),采用的方法 1、产生交叉列联表列联表（二维/三维）列变量行变量控制变量,多维频数分布表(交叉表,列联表),2、分析列联表中变量间的关系目的通过列联表分析，检验行列变量之间是否独立，实现对总体的推断。方法最常用：卡方检验,关于卡方检验,建立原假设 H0

13、:行、列变量之间无关联或相互独立；构造卡方统计量，统计量服从(r-1)*(c-1)个自由度的卡方分布 count:观察(实际)频数 expected count:期望频数(期望频数反映的是H0成立情况下的数据分布特征) Residual:剩余 (观察频数-期望频数) Std residual:标准化剩余,多维频数分布表(交叉表,列联表),菜单：Analyze + Descriptive Statistics + Crosstabs 行变量（Row）：需分类变量列变量（Column）：需分类变量分层变量（Layer）：条件（若有，需分类变量） Statistics选项： Chi-squar

14、e复选项及其四种检验结果 Correlations复选项：相关系数,多维频数分布表(交叉表,列联表),例子： P148：1991年美国社会调查情况数据(data07-01) 。 P149：调查男女经理的薪金是否平等(data07-04) 。,7.5比率统计过程（11-Ver新增功能）,目的: 给出两个具有Scale测度的变量之比的概述统计表，以反映两个变量数量上的对比关系和一致性。,菜单： Analyze-Descriptive Statistics-Ratio （三）应用举例 P185：(data07-05),注：我们可以不使用Ratio过程，而是先计算出一个新变量代表两变量的比值，然后对该

15、变量进行描述，但是这种方法只能计算出常用描述指标，而Ratio过程可以提供许多专门的相对比描述指标，使用上更方便。,2019/1/30,7.6 OLAP报告摘要表OLAP Cubes,OLAP（Online Analytical Processing）在线分析处理过程以分组变量为基础，计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。,OLAP报告摘要表OLAP Cubes,Analyze + Reports + OLAP Cubes Summary Variables：要进行统计汇总的数值型变量 Grouping Variables：分组变量（分类变

16、量）,OLAP报告摘要表OLAP Cubes,注意：此分组变量在实际的运算过程中并不发挥分组的功能，而是确定进入统计的观测量的范围。如选择数学成绩作为摘要分析变量，而性别作为分组变量，要计算数学平均成绩，则结果中显示的并不是男生的数学平均成绩和女生的数学平均成绩，而是所有男女生观测量的数学成绩的总平均值。即所有性别有值（非Missing Value）的Case，才参与分析计算,OLAP报告摘要表OLAP Cubes,Statistics选项：Sum和、Number of Cases观测量数目、Mean均值、Median中位数、Maximum最大等等例子1991年美国社会调查情况数据(data07-01) ：对不同种族race的孩子childs和教育educ情况进行报告摘要分析。,2019/1/30,补充： Reports的其他分析过程,Reports的其他分析过程有： Case Summaries：观测值摘要分析 Report Summaries in Row：行形式输出报告 Report Summaries in Columns：列形式输出报告,2019/1/30,C

展开阅读全文