连续性变量的统计描述与参数估计.

上传人:我** 文档编号:117032212 上传时间:2019-11-18 格式:PPT 页数:44 大小:391.50KB
返回 下载 相关 举报
连续性变量的统计描述与参数估计._第1页
第1页 / 共44页
连续性变量的统计描述与参数估计._第2页
第2页 / 共44页
连续性变量的统计描述与参数估计._第3页
第3页 / 共44页
连续性变量的统计描述与参数估计._第4页
第4页 / 共44页
连续性变量的统计描述与参数估计._第5页
第5页 / 共44页
点击查看更多>>
资源描述

《连续性变量的统计描述与参数估计.》由会员分享,可在线阅读,更多相关《连续性变量的统计描述与参数估计.(44页珍藏版)》请在金锄头文库上搜索。

1、第5章 连续性变量的统计描述与参数估计 连续变量的统计描述概述 1 统计描述中的可用工具 (1)各种初步汇总描述方法 频数、百分位数。 (2)各种统计描述指标 均值、标准差、四分位数间距。 (3)统计表 (4)统计图 5.1 连续变量的统计描述指标体系 (1)集中趋势 (Central Trend): 均数(Mean) 中位数(Median) 截尾均数(Trimmed Mean) 几何均数(Geometric Mean) 众数(Mode) 调和均数(Harmonic Mean ) (4)其他趋势 单峰双峰分布、极端值(Outlier)。 (2)离散趋势(Dispersion Trend) 全距

2、(Range)、标准差(Std. Deviation)和方差(Variance)、百分 位数(Percentile)、四分位数,四分位间距、变异系数 (3)分布特征(Distribution Tendency) 偏度系数(Skewness)和峰度系数(Kurtosis) 2集中趋势的的描述指标 1 算术平均 算术平均(Arithmetic Mean)是最常用的描述数据分布的集中 趋势的统计量。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。 一、算术平均数的定义和性质 二、均数的意义 任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一 个平衡点。 但平

3、均数在高度概括观测数据从而使问题简化的同时,却丢失了某些 有用的信息,一方面它把各个观测数据之间的差异性掩盖了起来,另 一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些 情况下可能具有一定的欺骗性。 三、均数的适用范围 严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均 等级也可以使用平均数。 2 中位数 中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间 位置的那个标志。 一、中位数的定义 对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为 : 则中位数就可以按下列方式确定: 二、中位数的适用范围 3其他集中趋势指标 一、截尾均数 由于均数较

4、易受极端值的影响,因此可以考虑将数据排序后 ,按照一定的比例去掉最两端的数据,只是用中部的数据来 求均数。如果截尾均数和原均数相差不大,则说明数据不存 在极端值,或者两侧极端值的影响正好抵消;反之,则说明 数据中有极端值,此时截尾均数更好地反映数据的集中趋势 。 常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。 二、几何均数 几何均数适用于原始数据分布不对称,但经过对数转 换后呈对称分布的资料。 几何均数实际上就是对数转换后的数据lgX的算术平均数 的反对数。 四、调和均数 它实际上是观察值X倒数之均数的倒数。 三、众数(Mode) 众数指的是样本数据中出现频次最多的那个数。 众数适用于

5、任何层次的变量,特别适用于单峰对称的情 况,是比较两个分布是否接近首先要考虑的参数。 在SPSS中,众数可以在Report子菜单和Tables子菜单的 全部报表过程和制表过程中计算出来。 在SPSS中,调和均数可以在Report子菜单的4个报表过 程过程中计算出来。 3 离散趋势的描述指标 1全距(Range) 又称为极差,是一组数据中最大值(Maximun)与最小值( Minimum)之差。 极差反映的是变量分布的差异范围或离散程度,在总体中, 任何两个标志值之差都不可能超过极差。 极差存在两点不足: 一是它仅仅取决于两个极端值的水平,不能反映其间的变量 分布情况,提供的信息太少。 二是它容

6、易受个别极端值的影响,不符合稳健型的要求。 2 方差和标准差 一、方差(Variance)和标准差(Standard Deviation)的定义 将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观 察例数N,就得到方差: 方差越大,数据分布离散程度越大。 对于样本数据而言,方差的计算公式为: 将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明 数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越 大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。 二、方差和标准差的适用范围: 方差和标准差的适用范围应当是正

7、态分布。 3 百分位数、四分位数与四分位数间距 分位差是对极差指标的一种改进,是从变量数列中剔除了一部分极 端值后重新计算的类似于极差的指标。常用的分位差有四分位差、 十分位差、百分位差。 一、分位数 分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测值 分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它 大。 四分位数(quartile)、十分位数(decile)、百分位数( percentile),他们分别是用3个点、9个点、99个点将数据4等分、 10等分和100等分后各分位点上的值。 二、四分位数 四分位数:实际上是三个数值的总称,分别是P25、P50、P

8、75分位数。 很显然,中间的分位数是中位数,因此通常所说的四分位数是指 第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。 上下四分位数的差值称为四分位数间距: QR=Q3-Q1 4 变异系数 当需要比较两组数据离散程度大小的时候,往往直接使用标 准差来进行比较并不合适。这可以被分为两种情况: (1)测量尺度相差太大; (2)数据量纲不同。 在以上情形中,就应当消除测量尺度和量纲的影响,而变异 系数(Coefficient of Variance),它是标准差和其平均数的 比率。 5.2 连续性变量的参数估计 根据样本数据对总体的客观规律性作出合理估计的过程被称 为统计推断(Stat

9、istical Inference),它可以被分为参数估 计和假设检验两大类。 1 正态分布 一、正态分布的定义 若连续性随即变量X的概率分布密度函数为 则称随机变量X服从正态分布(Normal Distribution) 二、正态分布的特征 (1)正态分布是一条对称曲线,关于均数对称,因此均数被 称为正态分布的位置参数。 (2)曲线是单峰,在均值出达到最高点。 (3)正态分布曲线的高矮与标准差有关。因此标准差被称为 正态分布曲线的尺度参数。 (4)曲线无论向左或向右延伸,都越来越接近横轴,但不会 与横轴相交,以横轴为渐近线。 (5)约68%的个体的取值与平均数在距离一个标准差之内。 (6)约

10、95%的个体取值与平均数的距离在1.96个标准差之内 。 (7)99%个体的取值与平均数的距离在2.58个标准差。 三、标准正态分布(Standard Normal Distribution) 将原来的正态分布转换为标准正态分布。 在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分 ,只需要选中主对话框左下角的Save standardized values as variables 复选框即可。 四、偏度和峰度 (1)偏度(Skewness):偏度是用来描述变量取值分布形 态的统计量,指分布不对称的方向和程度。样本偏度系数: 偏态的方向指的应当是长尾的方向,而不是高

11、峰的位置。 (2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的 统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰 度系数: 2 参数的点估计 参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计 算出估计值。 对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三 个评选标准。 无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。 一致性是指样本容量越大,估计值离真实值的差异应当越小。 有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一 个作为估计值。 在许多种情况下,样本统计量本身往往就是相应的总体参数的最佳估计 ,此时就可以直接取相

12、应的样本统计量作为总体参数的点估计。 一、矩法 二、极大似然估计法 该方法的原理是在已知总体的分布,但未知其参数值时,在 待估参数的可能取值范围内进行搜索,使似然函数值最大的 那个数值为极大似然估计值。 三、稳健估计值 稳健估计值的是该统计量具有稳健性,当数据存在异常值时 受影响较小,而且对大部分的分布而言都很好。 稳健估计有M估计、R估计等不同方法。 SPSS中数出的M估计量有4种,它们分别是Huber、Andrews、Hampel 和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适 用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的 情况。如果M估计量里平均

13、数和中位数较远,则数据中可能存在异常值 。此时,应该用M估计量替代平均数以反映集中趋势。 3 参数的区间估计 一、标准误 标准误就是用来描述参数估计值可能离真实值究竟有多远的统 计量。 二、区间估计的计算 结合样本统计量和标准误可以确定一个具有较大的可信度包含 总体参数的区间,该区间称为总体参数的1-a可信区间或置 信区间(Confidence Interval)。 对于任意可信度的区间情况,总体均值在100(1-a)%可信区 间为: spss中的相应功能 1、Spss的用于连续变量统计描述的过程,均集中在Descriptive Statistics子菜单中。 (1)Frequencies:产

14、生原始数据的频数表,并能计算各种百分位数。 控制频数 表输出范 围类型的 最大数目 (2)Descriptive过程 该过程用于一般性的统计描述,相对于Frequencies过程而 言,它不能绘制统计图。 (3)Explore 过程 该过程用于对连续性资料分布状况不清楚时的探索性分析, 它可以计算许多描述统计量,给出各种统计图,并进行简单 的参数估计。 (4)Ratio 过程 用于对两个连续性变量计算相对比指标。 5.3 连续变量统计描述实例 CCSS中的消费者信心总指数index1,现状指数 index1a,预期指数index1b进行统计描述,并计算 95%个体参考值范围。 1 使用频数过程

15、进行分析 2 使用描述过程进行分析 一、Descriptive过程的结果 二、Frequencies过程的结果 3 使用Explore过程进行分析 探索分析是对数据进行初步的观察分析,主要的分析项目有 : 观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观 地反映数据的分布形式和数据的一些规律性,包括考察数据 中是否存在异常值等。 正态分布检验:检验数据是否服从正态分布。 方差齐性的检验:用Levene检验比较各组的方差是否相等。 1、单击Analyze-Descriptive statistics-Explore,打开Explore主对话框: 一、分析操作 (3)在Display栏中选择输

16、出项,依次是Both选择项,输出图形与 描述统计量(系统默认),只输出描述统计量和只输出图形。本例 中选择默认项。 (1)从左侧的变量列表中选出变量,送入Dependent List栏。 (2)选择” ”作为因子变量,送入Factor List栏。有了因子变量 ,SPSS会把所有的观测个体按照因子变量的取值分成若干各组,再分组 考察Dependent List中的各个变量,如果不选择因子变量,SPSS会对全 部观测来做探索分析。 2、单击Statistics统计量按钮,打开Statistics对话框,选择统计输出量。 (1)Descriptives基本统计 描述。同时指定均值的置信 区间的置信度,系统默认为 95。 (2)M-估计(M估计在计算时对所有观测量赋予权重,随观测 量距分布中心的远近而变化)。 (3)Outliers输出分析数据中五个最大值和五个最小值。 (4)Percentiles输出百分数。 3、单击Plots 图形

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号