数值变量资料的统计描述ppt课件

上传人:bin****86 文档编号:58545371 上传时间:2018-10-30 格式:PPT 页数:61 大小:607KB
返回 下载 相关 举报
数值变量资料的统计描述ppt课件_第1页
第1页 / 共61页
数值变量资料的统计描述ppt课件_第2页
第2页 / 共61页
数值变量资料的统计描述ppt课件_第3页
第3页 / 共61页
数值变量资料的统计描述ppt课件_第4页
第4页 / 共61页
数值变量资料的统计描述ppt课件_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《数值变量资料的统计描述ppt课件》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述ppt课件(61页珍藏版)》请在金锄头文库上搜索。

1、2018/10/30,1,2 定量资料的统计描述,朱继民安中医公共卫生与全科医学教研室,2018/10/30,2,回顾,资料通常被分为三种类型: 定量资料(measurement data):用定量的方法对观察单位进行测量得到的资料。 定性资料(enumeration data):用定性的方法得到的资料。 等级资料(ranked data):不能精确测量,仅能根据相对大小分为几个等级。,2018/10/30,3,第一节 定量资料频数分布,定量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。 一、频数分布表及其制作,2018/10/3

2、0,4,例1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。,2018/10/30,5,频数表的编制步骤:,(1)求极差(range):又称为全距R5.593.60 =1.99(mol/L),(2) 决定组数、组段和组距:10组左右,组段包含所有数值,组距为极差的十分之一, 再略加调整1.99 / 10 = 0.199 0.2 (mol/L),(3) 列出组段:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。3.6 3.8 5.2 5.45.6,(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,2

3、018/10/30,6,表2-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表,2018/10/30,7,血糖(mol/L),人数,图.某地区2002年5558岁健康成人的空腹血糖(mmol/L) 测定值的频数分布图,二、频数分布图,2018/10/30,8,三、频数表和频数分布图用途,1描述频数分布的类型(对称分布、偏态分布)2描述频数分布的特征(集中、离散)3便于发现一些特大或特小的可疑值4便于进一步做统计分析和处理(加权),2018/10/30,9,(1)对称分布 :若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,描述频数分布的类型(对

4、称、偏态),2018/10/30,10,(2)偏态分布 :,1)左偏态分布(正偏态分布):峰向左偏,频数向右侧拖尾。 2)右偏态分布(负偏态分布):峰向右偏,频数向左侧拖尾。,2018/10/30,11,正偏态(左偏态) 负偏态(右偏态),2018/10/30,12,发现一些特大或特小的可疑值,2018/10/30,13,第二节 集中趋势指标,统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。 常用的平均数有: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median) 百分位数(percentile),2018/10/3

5、0,14,一、算术均数,算术均数:简称均数(mean) 定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。 总体均数: 样本均数: x,2018/10/30,15,1、计算方法,(1)直接计算法,公式 :,2018/10/30,16,(2)加权法(利用频数表),公式 :,k:频数表的组段数f :频数:组中值,其中i=1,2,k。,2018/10/30,17,二、 几何均数(geometric mean),定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是: 当一组观察值为非对称分布且其差距较大

6、时,用 均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近 似倍数关系。,2018/10/30,18,几何均数计算公式:,几何均数:变量对数值的算术均数的反对数。,计算几何均数的观察值应大于零,2018/10/30,19,例 有7份血清的抗体效价分别为1:2, 1:4, 1:8, 1:16, 1:32, 1:64,1:128,求平均抗体效价。,2018/10/30,20,(2)加权法(当观察例数多时采用),公式:,2018/10/30,21,例 有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均

7、抗体效价。,50人的血清平均抗体效价为1:20.705。,2018/10/30,22,计算几何均数应该注意的事项变量值中不能有0或负数,因为0和负数不能取对数。 不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。,2018/10/30,23,三、 中位数与百分位数,(一)中位数(median) 定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。 其适用情况有: 当资料呈明显的偏态分布; 资料一端或两端无确定数值(如大于或小于某数值); 资料的分布情况不清楚。,2018/10/30,24,计算公

8、式:,n为奇数时,n为偶数时,2018/10/30,25,例2.5 7名正常人的血压(舒张压) 测定值(mmHg)为:72,75,76,77,81,82 ,86,求中位数。,从小到大排列: 72,75,76,77,81,82 ,86若又观察了一个人的血压,为87(mmHg) ,此时(77+81)/2=79(mmHg),2018/10/30,26,频数表资料的中位数,下限值L,上限值U,i; fm,中位数M,2018/10/30,27,例2.1频数表中位数的计算,4.60+(0.20/25 ) *132/2-61=4.64,2018/10/30,28,(二)百分位数(percentile),把一

9、组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。,中位数是第50百分位数,用P50表示。,2018/10/30,29,频数表法,公式:,2018/10/30,30,当 时,此时求得的是中位数,2018/10/30,31,例8.1 试分别求例8.1频数表的第25、第75百分位数。,P254.20+0.20x(132x25%14)/234.365 P754.80+0.20x(132x75%86)/204.930,2018/10/30,32,三种平均数的特点,算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资

10、料呈偏态分布,算术均数就变得不稳定而失去代表性。正态分布几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。偏态分布,2018/10/30,33,反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值

11、变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。,第三节 离散趋势的描述,2018/10/30,34,例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,2018/10/30,35,常用统计指标,全距(range)四分位数间距(quartile interval)方差和标准差(variance&standard deviation)变异系数(CV coefficient of variation),2018/10/30,36,全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1

12、数据,有,简单,但仅利用了两端点值,稳定性差。,一、全距(Range),R5.593.60 =1.99(mol/L),R越大,变异度越大;R越小,变异度越小。,2018/10/30,37,二、四分位数间距(quartile range),四分位数间距,用Q表示,若将一组资料分为四等份,上四分位数和下四分位数之差就是:Q=下四分位数:上四分位数:,比全距稳定;可用于一端或两端无确切数值的偏态资料。 未考虑每一个观察值。,2018/10/30,38,全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数的差值(x-),称为离均差。 由于(x-)=0,不能

13、反映变异的大小,而用离均差平方和 (x-)2(sum of deviation from mean)反映。同时还要考虑到观察值个数N的影响,用其均数,即得到总体的方差,用2表示。 公式为:,三、方差与标准差,2018/10/30,39,1. 方差(variance)是离均差平方和的均数,反映一 组数据的平均离散水平。 由于在实际工作中,往往得到的样本资料,总体均数是未知的,所以只能用样本均数 作为的估计值,即用 代替 ,用样本例数n代替N。但按公式计算的结果通常比实际的 低。所以用n来代替n进行校正。得到样本方差,离均差平方和SS,总体方差,样本方差,自由度,2018/10/30,40,标准差

14、(standard deviation),方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。标准差:将方差开平方,恢复成原度量单位,得到总体的标准差 和样本标准差S。,2018/10/30,41,样本标准差用 表示 ,其度量单位与均数一致,所以最常用。,离均差平方和SS,3. 总体标准差 用表示,公 式:,公 式:,2018/10/30,42,标准差的公式还可以写成 :,利用频数表计算标准差的公式为:,2018/10/30,43,四、变异系数,变异系数(coefficient of variation,CV) 常 用于比较度量单位不同或均数相差悬殊的两组

15、(或多组)资料的变异程度。,2018/10/30,44,例:某地7岁男孩身高的均数为123.10 cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg, 比较其变异度?,2018/10/30,45,小结:,2018/10/30,46,第四节 正态分布,2018/10/30,47,一、正态分布的概念和特征,当X服从正态分布记作XN(,2) 其中为总体均数,2为总体方差,2018/10/30,48,二、标准正态分布,用N(0,1)表示,即u值的均数为0,标准差为1。,标准正态变换,2018/10/30,49,正态分布,标准正态分布,2018/10/30,50,正态分布的特征,正态分布的面积分布有一定的规律性,总面积=1。,正态曲线(normal curve)在横轴上方,且均数所在处最高;,正态分布以均数为中心,左右对称;,正态分布有两个参数,即均数与标准差(与),标准正态分布的均数和标准差分别为0和1;,正态曲线在1,标准正态分布在1处各有一个拐点;,2018/10/30,51,2018/10/30,52,累积面积可通过对概率密度函数 f(X)积分求得,(累积)分布函数:,2018/10/30,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号