第五章基本统计分析2014-11-19剖析.

上传人:今*** 文档编号:107621987 上传时间:2019-10-20 格式:PPT 页数:40 大小:249.50KB
返回 下载 相关 举报
第五章基本统计分析2014-11-19剖析._第1页
第1页 / 共40页
第五章基本统计分析2014-11-19剖析._第2页
第2页 / 共40页
第五章基本统计分析2014-11-19剖析._第3页
第3页 / 共40页
第五章基本统计分析2014-11-19剖析._第4页
第4页 / 共40页
第五章基本统计分析2014-11-19剖析._第5页
第5页 / 共40页
点击查看更多>>
资源描述

《第五章基本统计分析2014-11-19剖析.》由会员分享,可在线阅读,更多相关《第五章基本统计分析2014-11-19剖析.(40页珍藏版)》请在金锄头文库上搜索。

1、第五章 基本统计分析(1),流行病与卫生统计学科 范红敏,Descriptive statistics,概述,统计学分析有两个方面:统计学描述和统计学推断。 统计描述为统计分析打下基础。 统计描述有数据频数分布特征描述、集中趋势值和离散趋势值的计算等。,数据分类,Spss变量分为三类: 名义变量(nominal):定性资料计数资料和无序分类资料 有序变量(ordinal):有序分类资料 尺度变量(scale):定量资料(计量资料),一、统计分析子菜单 descriptive statistics,频数分布分析:frequencies 描述性统计分析:descriptives 探索性统计分析:e

2、xplore 列联表资料分析:crosstabs 比值描述:ratio,二、基本统计量的定义,分为三类: 描述集中趋势的统计量 描述离散程度的统计量 描述总体分布形态的统计量,(一)描述集中趋势的统计量,统计学中的集中趋势统计量是由样本值确定的量,样本值有向这个数据集中的趋势。测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,选择那种测度值取决于数据的类型。,1.均值(mean)又称为算术平均值 适用于数值型数据,但缺点是易受极端值的影响。 2.中位数(median) 中位数受数据变化影响比均值大,但不受极值影响。 3.众数(mode) 是样本中出现次数(

3、频数)最多的数值。 众数的优点是不受极端值的影响。众数具有不唯一性,在一组样本中可能无众数或者有好几个众数。,4.百分位数 (percentile) 常用的有4分位数(quartiles),指的是将数据分为四等份,分别为25%,50%和75%处的分位数。 百分位数的优点是不受极端值的影响。,(二)描述离散趋势的统计量,1.样本方差 (variance):是描述样本离散趋势的常用统计量。样本方差越大,表面样本值偏离样本平均值的可能性越大。 2.样本标准差 (std. deviation):将样本方差开方后统计量,也是度量样本离散程度的重要统计量。,3.均值标准误(standard error o

4、f mean):样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量。 4.极差 (range):是样本数中最大值和最小值之差。 5.变异系数(coefficient of variation):主要用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。,(三)描述总体分布形态的统计量,1.偏度(skewness)是描述取值分布形态对称性的统计量。 理论上总体偏度系数为0时,分布是对称的; 取正值时,分布为负偏锋; 取负值时分布为正偏锋。 2.峰度(kutosis):描述变量取值分布形态扁平程度的统计量。 峰度等于0时,表示数据分布的扁平程度适中,即正态分布。 峰度大于0时,表

5、示数据呈扁平分布; 峰度小于0时,表明数据呈尖峰分布。,三、计量资料(数值变量)的统计描述,菜单Analyze Descriptive Statistics Frequencies,注:具体操作,制作频数表,区间数据频数分段 1.用recode进行频数分组 2.用计算公式进行数据分组: 频数分组的标准计算公式: 频数分组结果变量=trunc(变量-最小组下限)/组距 3.用可视化分组(visual bander)进行频数分段(自学), 最小值和最大值 四分位数间距 标准差,三、计量资料的统计描述,报告数据库aa1调查对象BMI水平的:,集中趋势,算术均数 中位数,离散趋势,将要分析的变量BMI

6、选入变量列表,三、计量资料的统计描述,不要勾选“Display frequency tables”,单击Statistics(统计量)按钮,打开对话框。,(1)Percentile Values 是百分位数选项栏。 Quartiles 是四分位数,包括上四分位和下四分位。 Cut points for equal groups 是每隔指定的百分位间距输出一个百分位数的选项。 Percentiles 是直接指定输出的百分位数。如指定输出位于2.5%和97.5%的变量的值。,单击Statistics(统计量)按钮,打开对话框。,Mean 是平均数。 Median 是中位数。 Mode 是众数。 S

7、um 是总和或合计。,(2)Central Tendency 是集中趋势选项栏,(3)Dispersion 是离散趋势选项栏,Std.deviation 是标准差。 Variance 是方差。 Range 是全距。 Minimum 是最小值。 Maximum 是最大值。 S.E.mean 是标准误。,Skewness 是偏度系数。 Kurtosis 是峰度系数。,(4)Distribution 是分布特征选项栏,系统默认状态是不输出任何选项。如用户需要,可在上述对话框中选择。上述选项做完以后,单击Continue按钮返回频数分析对话框。,其中有四种选择: None 是不生成图。这是系统默认选项

8、。 Bar chart 是绘制条形图。 Pie chart 是绘制圆形图。 Histogram 是绘制直方图。对于直方图还可以选择是否加上正态曲线(With normal curve)。 要选择了Histogram 选项,即可激活With normal curve 选项。,4.确定生成的图形,单击“Charts”按钮,打开绘图对话框。在该对话框中有两个选项栏。,(1)Chart type 统计图类型选项栏。,(2)Chart values 是作图数据的选项栏。,如果选择了Bar chart或Pie chart。便激活了Chart。,Frequencies 是按频数作图。 Percentages

9、 是按百分比作图。,系统默认状态是不输出图。可按自己的需要进行选择。上述选项做完以后,单击Continue按钮返回频数分析对话框。,单击format 按钮打开格式对话框。通过选择该对话框中的选项可以定义输出频数表的格式。,5确定输出格式,Ascending values 是按变量值的升序从小到大排列。这是系统默认状态。 Descending values 是按变量值的降序从大到小排列。 Ascending counts 是按频数的升序从小到大排列。 Descending counts 是按频数的降序从大到小排列。,(1)Order by 是定义频数表的排列次序选项栏。,(2)Multiple

10、Variables 是多变量选项栏,该栏中的选项适用于用两个以上变量做频数表,如果选择了两个以上变量做频数表,则选择Compare variables(比较变量)选项,可以将它们的结果在同一个频数表中输出显示。 选择Organize output by variables(按各变量单独输出)选项,将结果在不同的输出表中显示。 如果选择Suppress Tables with more than N categories 选项,就激活了than 后面的窗口。输入的数字N 是频数表分组数的最大设定。当频数表的分组数大于设定的N值时,禁止它在结果中输出,以避免产生巨型表格。,系统默认状态是按变量值的

11、升序排序,多个变量在同一个表中输出。用户可根据自己需要作选择。上述选项都确定以后,单击Continue 按钮返回频数分析对话框。,6.单击OK 按钮,提交运行。 用户可以在输出文件的Output 窗口看到输出的频数分布表。,Descriptives 的功能是将描述统计的各个统计部分作为分析结果输出。,Descriptives 是对变量的统计描述,它既适用于数值变量的统计描述。,四、描述统计(Descriptives),执行下述操作: AnalyzeDescriptive Statistics Descriptives 打开Descriptives 对话框。 Save standardized

12、values as variables 是将原始数据的标准分存为新变量的选项。选择该项以后,系统将以原始数据的标准分为变量内容生成一个新变量。,1.打开描述统计对话框,从左侧的源变量窗口中选择将要进行描述统计的变量,使之进入到Variable(s)窗口中。,2.选择进行描述统计的变量,单击0ptions 按钮,打开对话框。 该对话框中的大部分内容均在frequencies 中见过。只有下方的Display order 选项栏是新的。 Display order 是确定输出统计结果排列顺序的选项栏。当用户选择了多个变量进行描述时,在输出文件中如何排列这些统计结果,有该栏中的选项来确定。 (1)V

13、ariable list 是将输出的统计结果按变量顺序列表,这是系统默认的选项。 (2)Alphabetic 是将输出的统计结果按字母顺序列表。 (3)Ascending means 是将输出的统计结果按照平均值的升序顺序列表。 (4)Descending means 是将输出的统计结果按照平均值的降序顺序列表。,3选择描述统计的内容,在这个对话框中,系统默认状态是输出平均值、标准差、最大值和最小值。如需要其它的参数可以自己选择。上述选项都确定以后,单击Continue 按钮返回Descriptives 对话框。,4单击OK 按钮,提交运行。可在输出文件的Output窗口看到输出的Descri

14、ptives 统计表。,注意:descriptives过程的特点是有一个产生标准化值的选项。,六、交叉列表 (Crosstabs) 分析的过程,交叉列表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是分类变量也可以是分类有序变量。系统是通过生成交叉表对两个变量进行交叉列表分析的。,执行下述操作: Analyze Descriptive Crosstabs 打开Crosstabs 对话框。,1打开交叉列表分析对话框,从左侧的源变量窗口中选择两个名义变量或顺序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。 进入Row(s)窗口的变量的取值将作为行的标志输出,而进入C

15、olumn(s)窗口的变量的取值将作为列的标志输出。 Display clustered bar charts 是在输出结果中显示聚类条图。 Suppress table 是隐藏表格,如果选择此项,将不输出RC 交叉表。,2确定交叉分析的变量,单击statistics 按钮,打开statistics 对话框。 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2值选项,用以检验行变量和列变量之间是否独立。适用于名义变量(分类类变量)或顺序变量(定序变量)。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适

16、用于顺序变量或尺度变量(定距以上变量)。,3选择统计分析内容,Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 Phi and Cramers V:列联相关的V 系数,由卡方系数修正而得。 Lambda:系数。 Uncertainty Coefficient:不定系数。,(3)Nominal 是名义变量选项栏。,(4)Ordinal 是顺序变量选项栏,Gramma:Gramma 等级相关系数。 Somersd:Somers 等级相关d 系数。 Kendalls tau-b:肯得尔等级相关tau-b 系数。 Kendalls tau-c:肯得尔等级相关tau-c 系数。,(5)Nominal by Interval 选项栏中的Eta 是当一个变量为名义变量,另一个变量为尺度变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如用户需要可自行选择。上述选择做完以后,单击Continue返回到Cro

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号