描述性统计分析

上传人:g**** 文档编号:49004412 上传时间:2018-07-22 格式:PPT 页数:48 大小:1.28MB
返回 下载 相关 举报
描述性统计分析_第1页
第1页 / 共48页
描述性统计分析_第2页
第2页 / 共48页
描述性统计分析_第3页
第3页 / 共48页
描述性统计分析_第4页
第4页 / 共48页
描述性统计分析_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《描述性统计分析》由会员分享,可在线阅读,更多相关《描述性统计分析(48页珍藏版)》请在金锄头文库上搜索。

1、L/O/G/O2012年3月20日数据分析描述统计前言 在做数据分析的时候,一般首先要对数据 进行描述性统计分析,以便于描述测量样 本的各种特征及其所代表的总体的特征以 及发现其数据的内在规律,再选择进一步 分析的方法。 描述性统计分析要对调查总体所有变量的 有关数据做统计性描述,主要包括数据的 频数分析、数据的集中趋势分析、数据离 散程度分析、数据的分布、以及一些基本 的统计图形。目录 集中趋势 离散趋势 探索分析集中趋势 定义在统计学中是指一组数据向某一中心值靠拢的程 度,它反映了一组数据中心点的位置所在。 度量方法集中趋势的度量包括了均值(mean),中位数 (median),众数(mo

2、de)。均值、中位数、众数用那一个去 度量平均水平呢?以及为什么?均值、中位数、众数的渊源u定义 均值:表示一系列数据或统计总体的平均特 征的值 中位数:将总体单位的某一数量标志的各个 数值按照大小顺序排列,居于中间位置的 那个数值就是中位数。 众数:众数是指变量数列中出现次数最多或 频率最大的变量值。1.1.众数、中位数、算术平均数的比较众数、中位数、算术平均数的比较 均值比中位数、众数对数据的概括能力要 强。 相对于中位数和众数而言均值对数据的灵 敏度较大。 均值比中位数、众数偏于计算和分析。 均值的抗耐性较差,极容易受个别和少数 极端值的影响。 均值适用范围比中位数、众数窄。2.众数、中

3、位数、算术平均数数值关系 (一)对称分布情况下 (二)偏态分布情况下数据类型与集中趋势测度值为该数据类型最适合用的测度值.均值、中位数、众数的代表性衡量及使用前面我们知道均值、中位数、众数的定义不同,特点和适用范围不同 ,在衡量这些平均指标的代表性时要根据不同的情况加以具体分析。 1.对于不同的总体在平均指标相等的情况下,我们一般用总体的标准 差这个指标来衡量这些平均指标的代表性大小,一般来说,标准差较 大的总体其平均指标的代表性较小。 2.对于不同的总体在其平均指标不相等的情况下,我们一般用离散系 数来衡量这些平均指标的代表性,一般来说,这时离散系数较小的总 体其平均指标的代表性较大。 3.

4、对于同一总体中算术平均数、中位数、众数的代表性高低的衡量。 由于这些起代表意义的平均指标本身所具有的特点不同,应用范围不 同,在描述和反映不同现象时的代表性也不同,只有根据它们的不同 特点,正确恰当地根据不同的情况选择不同的平均指标,才能够提高 这些平均指标的代表性,更客观、准确地反映和描述事物现象的本质 特征。例子找一个能够代表二次装修年限的代表性指标,均值、中位 数、众数,哪一个更合理? 作业3.savStatistics 两次装修间隔时间 NValid2,700 Missin g0Mean6.70 Std. Error of Mean0.064 Median6.00 Mode10 Std

5、. Deviation3.337数据的均值是6.70, 中位数是6.众数是10 。如果一只脚放在摄氏1度的 水里,另一只脚放在摄氏79 度的水里,平均水温40度。 你感觉舒服极了!?这只是一个笑话。说明了只了 解数据的集中趋势是不够的。 还需要看数据的离散程度。离散趋势1. 离散趋势的各测度值是对数据离散程度所 做的描述 2. 反映各变量值远离其中心值的程度,因此 也称为离中趋势 3. 从另一个侧面说明了集中趋势测度值的代 表程度。离散趋势测度指标 1、全距 2、四分位差 3、平均差 4、标准差 5、方差 6、离散系数四分位差是四分位数中间两个分 位之差。 平均差是总体各单位标志值对其算 术平

6、数的离差绝对值的算术平均数 。 总体各单位标志值对其算术平均数 离差平方的算术平均数的平方根又 称均方差或均方根差标准差的平方即为方差一组变量值的最大值与最小值之差变异系数 定义:标准差与平均数的比值称为变异系数,是衡量资料中各观测值变异程度的另一个统计量。记为C.V。 作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。变异系数又称离散系数。 标准差解决了单位相同、平均数相同的 数据离散程度,那么不满足这两点数据 的离散度比较还能用标准差吗?标准差与标准误的区别 标准差 u定义:总体各单位标志值对其算术平均数离

7、差平 方的算术平均数的平方根,又称均方差或均方根 差。 u计算公式: 标准差是方差的算术平方根。 标准差能反映一个数据集的离散程度。平均数相 同的,标准差未必相同。标准误u定义:标准误差定义为各测量值误差的平 方和的平均值的平方根,故又称为均方误 差。 u计算公式: 为了描述由抽样所致的样本指标(均数或率)的 离散程度。需要计算统计量的变异指标,称样本 统计量的标准差为标准误。 标准误的意义:反映样本统计量的离散程度,也 反映抽样误差的大小。标准误越小,抽样误差越 小,用样本均数估计总体均数的可靠性大。LOGO标准差和标准误的区别标准差衡量的是 样本数据的离散 程度. 标准差主要有两 点作用:

8、对样本 进行标准化处理 和确定异常值标准误是样本均值的 标准,表示的是抽样 的误差。 标准误的作用主要是 用来做区间估计,常 用的估计区间是均值 加减n倍的标准误。95%的参考值范围 参考值的概念 参考值的计算 参考值与置信区间的区别参考值的概念 医学参考值是指包括大多数正常人的人体形态 、机能和代谢产物等各种生理及生化指标常数 ,也称正常值。习惯上取该人群的95%的个体 某项医学指标的界值。 取单侧还是双侧根据指标的实际情况而定。例 如人体血压,过高过低都为异常。参考值范围 需要确定上下限。若指标仅过高和过低为异常 ,则取单侧。过低异常,则取下限;过高异常 则单侧去上限。参考值的计算计算数据

9、的95%参考值有两种方法:数据服从正态分布时可以从正态分布原理求出; 数据非正态分布时否则就应当用百分数法求出。可信区间与参考值范围的区别1.从意义来看 95参考值范围是指同质总体内包括95个体值的估计 范围,而总体均数95可信区间是指按95可信度估计的 总体均数的所在范围。 2.从计算公式看 若指标服从正态分布,95参考值范围的公式是:1.96s 。 总体均数95可信区间的公式是: 。 前者用标准差,后者用标准误。前者用1.96,后者用为 0.05,自由度为v的t界值。 可信区间的解释 从总体中做随即抽样,对于含量为n的每个样 本而言。都可以算得一个区间。以95%的 可信区间为例: 理解1

10、意味着同一总体中做100次重复抽 样,可得到100个可信区间,平均有95个可 信区间包含总体均数。只有5个可信区间不 包含总体均数。 理解2 对于某一区间而言,它包含总体均 数的可能性为95%,而不包含总体均数犯 错误的概率仅为5%。 例子 作业5.sav分别求两组数据95%的 参考值范围和可信区间 。对于第一组 数据,因近 似呈正态分 布,所以 95%的参考 值为: (3.01,6.39) 对于第二组 数据,峰度 和偏度不为0 ,即数据不 服从正态分 布,直接取 2.5%和 97.5%: 即(63.40, 97.02)第一组数据 的置信区间 为: ( 4.53,4.87) 第二组数据 的置信

11、区间 为( 87.11,88.65 ) 异常值的检验与处理当一组数据对称分布时,经验法则表明: 约有68%的数据在平均数加减1个标准差的范围之内; 约有95%的数据在平均数加减2个标准差的范围之内; 约有99%的数据在平均数加减3个标准差的范围之内。 当一组数据不再是对称分布时,切比雪夫不等式表明: 至少有75%的数据落在平均数加减2个标准差的范围以内 ; 至少有89%的数据落在平均数加减3个标准差的范围以内 ; 至少有94%的数据落在平均数加减4个标准差的范围以内 。 什么样的数值是异常值呢?1.异常值的定义 定义:一组测定值中与平均值的偏差超过 两倍标准差的测定值。 与平均值的偏差超过三倍

12、标准差的测定值 ,称为高度异常的异常值。2.异常值的危害异常值的存在对分析结果(均值和标准差) 产生重要的影响,异常值的检验与正确处 理是保证原始数据可靠性、平均值和标准 差计算的准确性的前提。异常值的检验方法一:异常值的检验方案二: 用SPSS绘制一组数据的箱线图。 异常值:值与框的上下边界的距离在1.5倍框的长 度到3倍框的长度之间的个案。 极端值:值距离框的上下边界超过3倍框的长度的 个案。在箱线图里面异常 值用“o”表述。极 端值用“*”表示最小值四分之一 分位数中位数四分之三 分位数最大值异常值的检验方法三: 计算统计量(X1+X2+Xn)/n s=(Xi-)/(n-1)(i=1,2

13、n) Gn=(X(n)-)/s 注:式中样本平均值; s样本标准差; Gn格拉布斯检验统计量。 确定检出水平,查表得出对应n,的格拉布斯检 验临界值G1-(n)。 当GnG1-(n),则判断Xn为异常值,否则无异常值 给出剔除水平的G1-(n),当当GnG1-(n)时,Xn 为高度异常值,应剔除。 SPSS中异常值检验的几种方法介绍 离群值(箱图探索).值与框的上下边界的距离 在1.5倍框的长度到3倍框的长度之间的个案。框 的长度是内距。 极端值(箱图).值距离框的上下边界超过3倍框 的长度的个案。框的长度是内距 在回归模型诊断里面,一般称预测值与实际值的 偏差为“残差“,残差有几种表示方法:

14、标准化残差, 学生化残差等等,按照需要取一种残差,再按照 某种标准取一个阀值来限定异常点,只要那个点 的残差大于阀值,就可以认为它是异常点。正态性检验方法1.直方图 2.茎叶图 3.箱线图 4.P-P图 5.Q-Q图 6 偏度、峰度检验法: 7.样本的四分位差和标准差的比值 8.Kolmogorov-Smirnov正态性检验 9.Shapiro-Wilk(W检验)1.直方图 直方图:用矩形的宽度和高度表示频数分布 的图形。 图为作业3第一次评分结果直方图数据分组频 数 2.茎叶图频数树茎树叶 茎叶图相 当于横置 的直方图 ,但它可 以保留原 始数据的 信息。 3.箱线图中位数 与上四 分位数

15、的距离下四分 位数与 众位数 间的距 离判断方法: 观察矩形位 置和中位数 ,若矩形位 于中间位置 且中位数位 于矩形的中 间位置,则 分布较为对 称,否则是 偏态分布如何看数 据是否服 从正态分 布呢?4.P-P图理 论 累 积 概 率实际值计算的累积概率实际值计算的累积概率差 值解读:若数据服从正态分布,P-P图样本 数据点呈对角线分布。P-P趋势图应随机 分布在Y=0的两侧。 5. Q-Q图 以上两种方法以Q-Q图为佳,效率较高。观察值分位数观察值分位数理 论 分 位 数观察 值分 位数 与理 论分 布分 位数 的差 值解读:若数据服从正态分布,Q-Q图样本数 据点呈对角线分布。Q-Q趋势图应随机分布 在Y=0的两侧。 6 偏度、峰度检验法:g1表示偏度,g2表示峰度,通过计算g1和 g2及其标准误g1及g2然后作U检验。两 种检验同时得出U0.05 的结论时,才可以认为该组资料服从正态 分布7.样本的四分位差和标准差的比值比值=表示四分位差,S表示标准差。若数据服 从正态分布,则比值接近于1.3。8.Kolmogorov-Smirnov正态性 检验 定义:K-S检验是检查单一样本是否来自某 一特定分布的方法。 检验方法:以样本数据的累积频数与特定 理论分布比较,若两者间的差距较小,则 推论该样本取自某特定分布族。8.Kolmogorov-Smi

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号