第五章基本统计分析2014-11-19剖析.

资源描述

《第五章基本统计分析2014-11-19剖析.》由会员分享，可在线阅读，更多相关《第五章基本统计分析2014-11-19剖析.（40页珍藏版）》请在金锄头文库上搜索。

1、第五章基本统计分析(1),流行病与卫生统计学科范红敏,Descriptive statistics,概述,统计学分析有两个方面：统计学描述和统计学推断。统计描述为统计分析打下基础。统计描述有数据频数分布特征描述、集中趋势值和离散趋势值的计算等。,数据分类,Spss变量分为三类：名义变量（nominal）：定性资料计数资料和无序分类资料有序变量（ordinal）：有序分类资料尺度变量（scale）：定量资料（计量资料）,一、统计分析子菜单 descriptive statistics,频数分布分析：frequencies 描述性统计分析：descriptives 探索性统计分析：e

2、xplore 列联表资料分析：crosstabs 比值描述：ratio,二、基本统计量的定义,分为三类：描述集中趋势的统计量描述离散程度的统计量描述总体分布形态的统计量,（一）描述集中趋势的统计量,统计学中的集中趋势统计量是由样本值确定的量，样本值有向这个数据集中的趋势。测度集中趋势就是寻找数据一般水平的代表值或中心值，不同类型的数据用不同的集中趋势测度值，选择那种测度值取决于数据的类型。,1.均值（mean）又称为算术平均值适用于数值型数据，但缺点是易受极端值的影响。 2.中位数（median）中位数受数据变化影响比均值大，但不受极值影响。 3.众数（mode）是样本中出现次数（

3、频数）最多的数值。众数的优点是不受极端值的影响。众数具有不唯一性，在一组样本中可能无众数或者有好几个众数。,4.百分位数（percentile）常用的有4分位数（quartiles），指的是将数据分为四等份，分别为25%，50%和75%处的分位数。百分位数的优点是不受极端值的影响。,（二）描述离散趋势的统计量,1.样本方差（variance）:是描述样本离散趋势的常用统计量。样本方差越大，表面样本值偏离样本平均值的可能性越大。 2.样本标准差（std. deviation）:将样本方差开方后统计量，也是度量样本离散程度的重要统计量。,3.均值标准误（standard error o

4、f mean）:样本均值的标准差，是描述样本均值和总体均值平均偏差程度的统计量。 4.极差（range）：是样本数中最大值和最小值之差。 5.变异系数（coefficient of variation）:主要用于量纲不同的变量间，或均数差别较大的变量间变异程度的比较。,（三）描述总体分布形态的统计量,1.偏度（skewness）是描述取值分布形态对称性的统计量。理论上总体偏度系数为0时，分布是对称的；取正值时，分布为负偏锋；取负值时分布为正偏锋。 2.峰度（kutosis）：描述变量取值分布形态扁平程度的统计量。峰度等于0时，表示数据分布的扁平程度适中，即正态分布。峰度大于0时，表

5、示数据呈扁平分布；峰度小于0时，表明数据呈尖峰分布。,三、计量资料（数值变量）的统计描述,菜单Analyze Descriptive Statistics Frequencies,注：具体操作,制作频数表,区间数据频数分段 1.用recode进行频数分组 2.用计算公式进行数据分组：频数分组的标准计算公式：频数分组结果变量=trunc（变量-最小组下限）/组距 3.用可视化分组（visual bander）进行频数分段(自学), 最小值和最大值四分位数间距标准差,三、计量资料的统计描述,报告数据库aa1调查对象BMI水平的：,集中趋势,算术均数中位数,离散趋势,将要分析的变量BMI

6、选入变量列表,三、计量资料的统计描述,不要勾选“Display frequency tables”,单击Statistics（统计量）按钮，打开对话框。,（1）Percentile Values 是百分位数选项栏。 Quartiles 是四分位数，包括上四分位和下四分位。 Cut points for equal groups 是每隔指定的百分位间距输出一个百分位数的选项。 Percentiles 是直接指定输出的百分位数。如指定输出位于2.5%和97.5%的变量的值。,单击Statistics（统计量）按钮，打开对话框。,Mean 是平均数。 Median 是中位数。 Mode 是众数。 S

7、um 是总和或合计。,（2）Central Tendency 是集中趋势选项栏,（3）Dispersion 是离散趋势选项栏,Std.deviation 是标准差。 Variance 是方差。 Range 是全距。 Minimum 是最小值。 Maximum 是最大值。 S.E.mean 是标准误。,Skewness 是偏度系数。 Kurtosis 是峰度系数。,（4）Distribution 是分布特征选项栏,系统默认状态是不输出任何选项。如用户需要，可在上述对话框中选择。上述选项做完以后，单击Continue按钮返回频数分析对话框。,其中有四种选择： None 是不生成图。这是系统默认选项

8、。 Bar chart 是绘制条形图。 Pie chart 是绘制圆形图。 Histogram 是绘制直方图。对于直方图还可以选择是否加上正态曲线（With normal curve）。要选择了Histogram 选项，即可激活With normal curve 选项。,4.确定生成的图形,单击“Charts”按钮，打开绘图对话框。在该对话框中有两个选项栏。,（1）Chart type 统计图类型选项栏。,（2）Chart values 是作图数据的选项栏。,如果选择了Bar chart或Pie chart。便激活了Chart。,Frequencies 是按频数作图。 Percentages

9、是按百分比作图。,系统默认状态是不输出图。可按自己的需要进行选择。上述选项做完以后，单击Continue按钮返回频数分析对话框。,单击format 按钮打开格式对话框。通过选择该对话框中的选项可以定义输出频数表的格式。,5确定输出格式,Ascending values 是按变量值的升序从小到大排列。这是系统默认状态。 Descending values 是按变量值的降序从大到小排列。 Ascending counts 是按频数的升序从小到大排列。 Descending counts 是按频数的降序从大到小排列。,（1）Order by 是定义频数表的排列次序选项栏。,（2）Multiple

10、Variables 是多变量选项栏,该栏中的选项适用于用两个以上变量做频数表,如果选择了两个以上变量做频数表，则选择Compare variables（比较变量）选项，可以将它们的结果在同一个频数表中输出显示。选择Organize output by variables（按各变量单独输出）选项，将结果在不同的输出表中显示。如果选择Suppress Tables with more than N categories 选项，就激活了than 后面的窗口。输入的数字N 是频数表分组数的最大设定。当频数表的分组数大于设定的N值时，禁止它在结果中输出，以避免产生巨型表格。,系统默认状态是按变量值的

11、升序排序，多个变量在同一个表中输出。用户可根据自己需要作选择。上述选项都确定以后，单击Continue 按钮返回频数分析对话框。,6.单击OK 按钮，提交运行。用户可以在输出文件的Output 窗口看到输出的频数分布表。,Descriptives 的功能是将描述统计的各个统计部分作为分析结果输出。,Descriptives 是对变量的统计描述，它既适用于数值变量的统计描述。,四、描述统计（Descriptives）,执行下述操作： AnalyzeDescriptive Statistics Descriptives 打开Descriptives 对话框。 Save standardized

12、values as variables 是将原始数据的标准分存为新变量的选项。选择该项以后，系统将以原始数据的标准分为变量内容生成一个新变量。,1.打开描述统计对话框,从左侧的源变量窗口中选择将要进行描述统计的变量，使之进入到Variable（s）窗口中。,2.选择进行描述统计的变量,单击0ptions 按钮，打开对话框。该对话框中的大部分内容均在frequencies 中见过。只有下方的Display order 选项栏是新的。 Display order 是确定输出统计结果排列顺序的选项栏。当用户选择了多个变量进行描述时，在输出文件中如何排列这些统计结果，有该栏中的选项来确定。（1）V

13、ariable list 是将输出的统计结果按变量顺序列表，这是系统默认的选项。（2）Alphabetic 是将输出的统计结果按字母顺序列表。（3）Ascending means 是将输出的统计结果按照平均值的升序顺序列表。（4）Descending means 是将输出的统计结果按照平均值的降序顺序列表。,3选择描述统计的内容,在这个对话框中，系统默认状态是输出平均值、标准差、最大值和最小值。如需要其它的参数可以自己选择。上述选项都确定以后，单击Continue 按钮返回Descriptives 对话框。,4单击OK 按钮，提交运行。可在输出文件的Output窗口看到输出的Descri

14、ptives 统计表。,注意：descriptives过程的特点是有一个产生标准化值的选项。,六、交叉列表（Crosstabs）分析的过程,交叉列表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是分类变量也可以是分类有序变量。系统是通过生成交叉表对两个变量进行交叉列表分析的。,执行下述操作： Analyze Descriptive Crosstabs 打开Crosstabs 对话框。,1打开交叉列表分析对话框,从左侧的源变量窗口中选择两个名义变量或顺序变量分别进入Row（s）（行）窗口和Column（s）（列）窗口。进入Row（s）窗口的变量的取值将作为行的标志输出，而进入C

15、olumn（s）窗口的变量的取值将作为列的标志输出。 Display clustered bar charts 是在输出结果中显示聚类条图。 Suppress table 是隐藏表格，如果选择此项，将不输出RC 交叉表。,2确定交叉分析的变量,单击statistics 按钮，打开statistics 对话框。下面介绍该对话框中的选项和选项栏的内容：（1）Chi-square 是卡方（X2值选项,用以检验行变量和列变量之间是否独立。适用于名义变量（分类类变量）或顺序变量（定序变量）。（2）Correlations 是皮尔逊（Pearson）相关系数r 的选项。用以测量变量之间的线性相关。适

16、用于顺序变量或尺度变量（定距以上变量）。,3选择统计分析内容,Contingency coefficient：列联相关的C 系数，由卡方系数修正而得。 Phi and Cramers V：列联相关的V 系数，由卡方系数修正而得。 Lambda：系数。 Uncertainty Coefficient：不定系数。,（3）Nominal 是名义变量选项栏。,（4）Ordinal 是顺序变量选项栏,Gramma：Gramma 等级相关系数。 Somersd：Somers 等级相关d 系数。 Kendalls tau-b：肯得尔等级相关tau-b 系数。 Kendalls tau-c：肯得尔等级相关tau-c 系数。,（5）Nominal by Interval 选项栏中的Eta 是当一个变量为名义变量，另一个变量为尺度变量时，测量两个变量之间关系的相关比率。系统默认状态是不输出上述参数。如用户需要可自行选择。上述选择做完以后，单击Continue返回到Cro

展开阅读全文