统计描述（第四讲）

资源描述

《统计描述（第四讲）》由会员分享，可在线阅读，更多相关《统计描述（第四讲）（63页珍藏版）》请在金锄头文库上搜索。

1、SPSS基本统计分析统计描述统计工作的步骤 l设计（design）l收集资料（collection）l整理资料（sorting data）l分析资料（analysis of data）分析资料（analysis of data）l其目的是计算有关指标，反映数据的综合特征，阐明事物的内在联系和规律。l统计分析包括统计描述（descriptive statistics）和统计推断（ inferential statistics）。前者是用统计指标与统计图（表）等方法对样本资料的数量特征及其分布规律进行描述；后者是指如何抽样，以及如何用样本信息推断总体特征。l进行资料分析时，需根据研究目的、

2、设计类型和资料类型选择恰当的描述性指标和统计推断方法。统计描述l统计描述是用统计图表、统计指标来描述资料分布的规律及数据特征。l在数据窗中建立或读入文件后，如何选择统计分析方法，调用本软件中何种统计分析过程，是得到正确分析结果的关键步骤。l统计描述(descriptive statistics) Frequencies 频数分析 Descriptive 描述性统计分析 Explore 探索性分析 Crosstabs 交叉列联表分析l报表分析（reports ）操作步骤：一、 frequencies过程l主要功能可对数据按组进行归类整理，形成变量不同水平的频数分布表和图形，对数据的

3、分布趋势进行初步分析。l频数分析的任务编制频数分布表频数（Frequency）百分比（Percent）有效百分比（Valid Percent）累计百分比（Cumulative Percent）l 绘制统计图柱形图或条形图（Bar Chart）饼图（ Pie Chart ）直方图（Histograms）按Format按钮，打开Format 对话框按Chart按钮，打开Chart 对话框按Statistics按钮，打开Statistics对话框显示频数分布表Frequences主对话框选择一个或多个变量右移入Variable （s）框。频数分析表输出百分位数：输出四

4、分位数，显示 25%、50%、75%的百分位数；将数据平均分为所设定的相等等份，可输入2 100 的整数，如键入4则输出第25、50、75百分位数自定义百分位数，可输入0100 的整数。输入值后：按Add：输入值后按此键，可反复操作键入多个百分位数；按Remove：删除已键入的数值按Change：重新输入新数离差栏分布参数栏中心趋势栏在计算百分位数值和中位数时，假设数据已分组，且用各组的组中值代替各组数据输出统计量对话框频数分析表Chart 对话框不输出任何图形，为默认输出条形图，各条高度代表变量各分类的频数输出圆图，圆图中各块的数值表示各分类变量的频数输出直方图

5、，此图仅适用于区间型数值变量。选择此项后，还可选择With normal curve，画出的直方图带有正态曲线只有选择了条形图和圆图项才有效，决定纵轴表示的统计量纵轴表示频数图纵轴表示百分比频数分析表Format 对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序：按变量升序排列，此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列频数分析表表四 100名大学生血清蛋白含量（%）例题1对某高校100名大学生血清蛋白含量（g%）做频数分析，数据如表49

6、 1、具体步骤按AnalyzeDescriptive StatisticFrequencies 顺序，打开 Frequencies对话框。打开数据文件“大学生血清.sav”，挑 xdh变量进入Variable框，grade变量进入Break框。选中 Display frequency tables复选框，要求输出频数分布表。单击Statistics按钮，选择要输出的统计量。单击Chart 按钮，选择Histogram项，输出直方图，并选择 With normal curve复选框，输出正态曲线。单击Format 按钮，选Ascending项。单击“OK”完成。2、输出结果及分析结果如下表、图

7、频数分析表血清蛋白含量的直方图血清蛋白含量的统计表频数分析表血清蛋白含量的频数分布表频数分析表例2：l某地区1974年为了解居民发汞的基础水平，为汞污染的环境监测积累资料，调查了居住在该市一年以上，无肝、肾疾病，无汞作业接触史的居民 238人的发汞含量。（见文件。）注：表中变量X的值是分组数据的组中值。 F：是人数。SPSS操作步骤：加权个体How ?analyzeDescriptive statistic- frequency二、descriptives过程l此过程能进行描述性统计分析，可以计算数值分析，可以计算数值变量的描述性统计量，均数、总和、标准差、方差、全距、最小值

8、、最大值、标准误。峰度系数与偏度系数可以计算标准分值（Z值、Z分数）1、Descriptive对话框：如选中此框，将对 Variables框中选择的变量进行标准化产生相应的Z分值，并作为新变量保存到数据窗口，其变量名在原变量名前加z 。1、Descriptive对话框lVariable: 变量栏，可放入一个或多个将要分析分析的变量。lSave standardized values as variables: 将标准化值保存作为变量。即在选择此项后，可为所选择的每一个变量值产生相应的标准化值（Z值），并自动在数据编辑窗中产生相应的新变量，其变量名为相应变量名前加前缀Z。其计

9、算公式为： Z=（Xi -mean）/sdlOption 选择按钮。激活选择项对话框。（见下图）2、options对话框options对话框lDispersion:离散指标多选项Std. Deviation :标准差 minimum:最小值Variance :方差 maximum:最大值Range : 极度差 S.E.Mean均数的标准误lDistribution：分布多选项Skewness: 偏度系数。Kurtosis:峰度系数。lDisplay order:显示顺序单选项Variable list: 输出结果时按变量的排列顺序显示。alphabetic: 输出结果时按变量的字母顺序显示。A

10、scending means：输出结果时按变量均数大小的升序显示。Descending means ：输出结果时按变量均数的大小降序显示。例题分析l已知20个初生婴儿的体重数据如下表，对其进行描述统计。27702915279529952860297030873126312546542272350342183418392126693707231025733881操作步骤：l建立（或打开）数据文件“婴儿体重.sav”。l打开 Descriptives主对话框，选定变量进入Variable栏中。l选中Save standardized values as variables 复选框，要求计算变量

11、的z值，并保存结果到当前数据集中。l单击Options 按钮，选中Mean、Std.Deviation、 Minimum、Maximum 、Variance 项。输出结果及分析婴儿体重的描述统计量这时打开原数据集，可看到多了一列zt，这是t 的z 分数，如图所示三、探索分析过程（Explore）l探测数据的错误来源人为的数据差错仪器测量的误差输入数据时的手误如：小写的“l”与“1”、“o”与“0”l数据探测的重要性由于数据的采集和输入不可避免的出现差错，在分析之前要检查数据的真实性。一、主要功能：调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察。剔除奇异值和错

12、误数据。探索分析过程将提供在分组和不分组的情况下常用的统计量与图形。二、探索分析按Analyze-Descriptive Statistics-Explore 顺序单击，打开 Explore 主对话框。如图探索分析过程选择一个或多个变量进入 Dependent框作为因变量，单击OK可获得因变量的一系列基本统计量和图形。此作为分组变量，可以是字符变量，对因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量，这时会按多个变量的交叉组合进行分组。该框中的变量作为标识符，在输出诸如异常值时，用该变量进行标识，只允许有一个标识符。可同时输出基本统计量和图形只输出基本统

13、计量只输出图形Explore 主对话框输出基本统计量均值的置信区间，可键入199%的任意值，根据该值算出置信区间的上下限。给出中心趋势的最大拟然比的稳健估计量，当数据分布均匀，且两尾较长，或当数据中存在极端值时，可给出比均值或中位数更合理的估计。输出最大和最小的5个数，且在输出窗口中加以标明。输出5%、10%、25%、50%、75%、 90%和95%的百分位数。Statistics对话框只有指定分组变量才有效，可输出分布水平图，同时输出回归直线斜率以及对方差的Levenes检验不输出分布水平图对每组数据产生一个中位数与四分位范围的自然对数散点图，同时在满足每组中

14、数据方差相等的条件下对数据进行幂变换的估计。根据在Power参数框中指定的变换对原始数据进行变换。不对数据进行转换Explore 栏中Plots对话框在此对话框中可选择要输出的统计图形及其参数。只有在主对话框中指定了一个以上变量时，Boxplot栏才有效。在该栏选择盒形图的输出方式：每一个因变量生成一个盒形图所有因变量生成一个盒形图不显示任何盒形图生成茎叶图，为默认生成直方图输出正态概率和离散正态概率图，同时输出K-S统计量中的Liliefors显著水平检验，如果观测数不超过20，将用W-S统计量代替 K-S。确定缺失值的处置：因变量或分组变量中带有缺失值的

15、观测量都将在分析过程中被剔除。在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。分组变量的缺失值被单独分为一组，输出频数时将标出缺失组。Explore 栏中Options对话框探索分析应用举例（SY1）对两个班的数学成绩按照性别考察数据的分布、按照性别检验其数学成绩的方差是否相等。1、操作步骤：打开 Explore主对话框，打开数据文件“Explore分析.sav”选变量height 进入Dependent List栏中，选sex变量进入Factor List栏中；在Display栏中选择 Both项；打开Statistics对话框，选中Descriptives 、M-e

16、stimation、 Outliers复选项，单击Continue返回；要求计算变量的z值，并保存结果到当前数据集中。打开Plot对话框，选择Boxplots栏中的Factor levels together项，选择 Descriptives栏内的 Stem-and-leaf复选项，选择Spread vs level with levene Test栏中的 Power estimation项，单击 Continue 返回。单击OK2、输出结果及分析输出结果如下表观测量摘要表M估计量表分组描述统计量结合Box图数学成绩的极端值正态分布检验女生数学成绩的茎叶图男生数学成绩的茎叶图其中茎叶图中茎的单位为10分，而叶子单位为1分。比如，由于第一行茎为5，因此叶子中的一个数字7代表一个数目57。每行左边有一个频数（比如第

展开阅读全文

统计描述（第四讲）

最新文档