数值变量资料的统计描述课件

上传人:bin****86 文档编号:57576686 上传时间:2018-10-23 格式:PPT 页数:98 大小:482.50KB
返回 下载 相关 举报
数值变量资料的统计描述课件_第1页
第1页 / 共98页
数值变量资料的统计描述课件_第2页
第2页 / 共98页
数值变量资料的统计描述课件_第3页
第3页 / 共98页
数值变量资料的统计描述课件_第4页
第4页 / 共98页
数值变量资料的统计描述课件_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《数值变量资料的统计描述课件》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述课件(98页珍藏版)》请在金锄头文库上搜索。

1、1,数值变量资料的统计描述,预防医学,预防医学教研室,2,第五章 数值变量资料的统计描述第一节 数值变量资料的频数分布,3,一、 频数表对一组研究对象进行观察,某变量或指标数值出现的次数称为频数(frequency)。,4,例 8.1 某地区2002年132名5558岁健康成人的空腹血糖(mmol/L)测定值如下:5.17 5.56 4.86 4.87 4.55 5.16 5.15 5.16,5,6,极差,或称全距(R)R=最大值最小值=5.593.60=1.99(mmol/L) 组距(i)i=R组数=1.99100.2(mmol/L)(组数一般分815,组距尽可能取整),7,组段每一组的起点

2、称为组下限,终点称为组上限。70分 80分(下限) (上限)第一组应包括最小值,最后一组应包括最大值。,8,频数(f)划记、合计每组的变量个数。,9,10,二、频数分布的特征集中趋势(central tendency):频数向中间集中,中等水平的人数最多。离散趋势(tendency of dispersion):随变量值逐渐变大变小,人数越来越少,即向两端分散。,11,1、频数分布的图示以变量值(血糖)为横轴,以频数为纵轴,每一组段画一直条,直条的面积与该组频数成正比,称为直方图(histogram)。,12,13,2、频数分布的类型(1)对称分布:观察值向中央部分集中,以中等数据居多,左右两

3、侧分布大体对称。,14,对称分布,15,(2)偏态分布:观察值偏离中央,尾部偏向数轴正侧,称正偏态,尾部偏向数轴负侧,称负偏态。,16,正偏态分布:高峰偏于左侧,长尾向右侧伸延,负偏态分布:高峰偏于右侧,长尾向左侧伸延,17,对称分布,18,第二节 集中趋势指标平均数(average):描述一组数值变量资料的集中趋势、平均水平或中心位置的指标。常用的平均数有算术平均数、几何均数和中位数。,19,一、算术平均数(arithmetic mean)简称均数,总体均数用表示,样本均数用 表示。适用条件:对称分布资料,特别是正态分布资料。,20,1、直接计算法观察例数不多或计算机分析选用。,21,例:某

4、地抽样得5名7岁男孩体重(kg)分别为:17.3,18.0,19.4,20.6,21.2。求其均数。19.3(kg),22,2、加权法观察例数多又无计算机处理时选用。,23,例 计算某地区2002年5558岁健康成人的空腹血糖(mmol/L)的平均值。组中值=(本组下限+下组下限)/2fx=fxfx2=x fx =fx2,24,25,二、几何均数()(geometric mean)适用条件对数正态分布资料:变量值呈倍数关系,当变量值取对数后服从正态分布或近似正态分布。,26,、直接法观察例数不多时选用。,27,例题:6份钩端螺旋体显凝试验的血清效价为:1:50,1:100,1:200,1:40

5、0,1:800,1:1600 。求其平均血清效价。,28,lg1(2.4515)282.5故其平均血清效价为1:282.5。,29,2、加权法观察例数较多时选用。先将资料编成频数分布表,再按公式计算:,30,例8.4 计算某地60人抗体效价的平均滴度。=lg1(1.31602)=20.705平均滴度为1:20.705 。,31,32,三、中位数(median)和百分位数适用条件偏态分布资料分布类型不清的资料;数据一端或两端无界限的资料。,33,34,、中位数一组从小到大排列的变量值,位于正中间位置的变量值称为中位数。用表示。,35,(1)直接计算方法将变量值从小到大排列,再按下式计算:为奇数

6、(n+1)/2n为偶数,36,例:11例颅脑外伤病人的伤后来院时间为1、2、4、5、7、8、8、10、12、16、20小时,求其伤后来医院治疗的平均时间。本例11为奇数(n+1)/268(h),若本例只收前10例病人,则(h),37,(2)频数表计算方法将资料编制成频数分布表,再计算:中位数所在组段的下限fx :中位数所在组段的频数f L :中位数所在组段以前的累积频数,38,例8.6 某传染病的潜伏期(天)见表8-3,求其平均潜伏期。,39,40,中位数所在组的确定1、累计频数刚超过n/2所在组,2、累计频率刚超过50所在组,41,、百分位数将n个观测值从小到大排列,分成100等份,与第x百

7、分位次对应的观测值称为第x百分位数,用x表示。百分位数是一种位置指标。,42,一个百分位数将全部观察值分为两部分,理论上有的观察值比它小,(100)观察值比它大。,43,中位数是一个特定的百分位数,即50在全部观察值中,有50的观察值比它小,(10050)观察值比它大。,44,用频数表计算百分位数的公式:第x百分位数所在组段的下限fx :第x百分位数所在组段的频数 fL:第x百分位数所在组段以前的累积频数,45,46,应用中位数和百分位数时注意1、对资料的分布没有特殊要求,所有的资料均可计算。,2、分布在中间的百分位数(50)较稳定,靠近两端的百分位数(99)不稳定。,47,3、中位数不如均数

8、精确,但抗极端值的影响比均数的稳定性好。当资料适合计算均数或几何均数时,不宜计算中位数表示其平均水平。,48,第三节 离散程度指标离散指标又称变异指标,它描述数值变量资料频数分布的离散趋势。常用指标有:全距、方差、标准差、变异系数和四分位数间距。,49,例:二组变量值(单位略)A:8、9、10、11、12 XA=10B:6、9、10、11、14 XB=10,均数只描述集中趋势,没有描述变量值之间的差异,变异指标描述变量的变异(离散)趋势。,50,一、全距(极差,R)R最大值最小值RA1284 RB1468说明B组观测值的变异程度大A组。,极差只表示两极端数值的差异,而不能综合反映每个变量值的变

9、异情况。,51,二、四分位数间距(Q)Q是上四分位数Qu(P75)与下四分位数QL(P25)之差。QQuQL其间包括全部观察值的一半。,52,Q和R类似,比R稳定,但仍未考虑到每个观察值的变异程度。Q与M配合使用(MQ),用于描述偏态分布资料、分布末端无界限而不能计算全距、方差和标准差的资料。,53,三、方差和标准差为衡量每个变量值的变异情况,计算:离均差之和 (X)但(X)0。,54,于是计算:离均差平方和 (X)2用SS或 表示,它又受样本含量(变量值个数)大小的影响,所以取其平均值表示,称为方差(MS)。,55,方差是另一变异指标,方差越大,表示变量值的变异程度越大。,56,方差的单位被

10、平方,与均数单位不一致,不便于比较,于是取其平方根,称为(总体)标准差()。标准差是最常用的变异指标。,57,总体均数常是未知的,只能用样本均数X 代替,而得样本标准差(S) ,作为总体标准差的估计值。,58,数理统计研究:样本标准差较总体标准差偏小,因此用n代替n,,n称为自由度(v)。,59,1、标准差的计算方法(1)直接法(小样本)为方便计算,前式变为:,60,X X28 649 8110 10011 12112 14450 510,A组资料S计算表,61,( 2)加权法(大样本)先将资料编成频数表,再按公式计算:,62,以例8.1资料为例计算,63,64,(3)标准差的应用适用于对称分

11、布,特别是正态分布资料,表示观测值分布的离散程度。,65,标准差大,说明观测值的变异程度大,即观测值围绕均数分布较离散,均数的代表性较差;标准差小,说明观测值的变异程度小,即观测值围绕均数分布较密集,均数的代表性较好。,66,估计观测值的频数分布和医学参考值范围。计算标准误。计算变异系数,67,四、 变异系数(CV)比较均数相差悬殊或单位不同的两组(或多组)观测值的变异程度时,不宜用标准差,而需计算变异系数进行比较。,68,例 某地7岁男孩身高(单位cm)X1=114.82,s1=5.52;体重(单位kg) X2=20.91,s2=2.05。比较身高和体重的变异程度。,CV1 CV2 ,体重的

12、变异程度大于身高。,69,第四节 正态分布和医学参考值一、正态分布(nomal distribution)从例8.1频数分布图看:频数分布以均数为中心,靠近均数两侧的频数较多,较远两侧频数逐渐减少,两侧基本对称。,70,71,72,如果不断增多观测例数、缩小组距,则图形趋向于光滑曲线。这是一条中间高、两头低、左右对称的钟型曲线,在统计学上称为正态分布曲线,表示为N(,2) 。,73,74,为应用方便,将任何正态分布 N(,2)变换成的正态分布N(0,1),称为标准正态分布(u分布)。,变换方法是将变量值X变换为u(标准正态离差),75,76,二、正态分布的特征、在均数处最高。、以均数为中心,左

13、右对称,逐渐降低,两端永不与横轴相交。,77,、有两个参数均数:位置参数,决定曲线的中心位置;越大,曲线越向右移;越小,则曲线越向左移。,78,79,标准差:形状参数,决定曲线的陡峭或扁平:越大,曲线越扁平(矮胖);越小,曲线越陡峭(瘦高)。,80,81,4、正态曲线下的面积有一定的规律在正态图形中,横轴为变量X,纵轴为频数f。可用曲线下的面积代表频数分布。,82,若以曲线下的面积为100,正态曲线下面积的分布规律,83,84,85,86,如果资料呈正态分布,且样本足够大(如n100),可样本指标代替总体指标,87,88,89,三、医学参考值范围(一)医学参考值的意义医学参考值:正常人(或动物

14、)的个体形态、功能和代谢产物等的各种生理和生化常数。由于个体指标的变异,需要确定其波动范围,即医学参考值范围。,90,(二)制定参考值的基本步骤1、选择样本含量足够大的“正常人”足够大的样本含量,一般认为每组 n100。“正常人” 指排除了影响所研究指标的疾病和有关因素的同质人群。,91,2、控制测量误差测量误差控制在一定的范围内。3、判断是否需要分组确定参考值范围原则上组间差别明显,差别有实际意义应分开,否则应当合并确定。,92,4、决定单侧和双侧界限根据专业知识确定:双侧:指标过高、过低均为异常单侧上限:指标过高为异常单侧下限:指标过低为异常,93,5、选择适当的百分界值医学参考值范围是指绝大多数正常人的变量值所在的范围。“绝大多数”习惯包括80、90、95、99,最常用为95 。,94,6、对资料的分布进行正态性检验7、选择估计方法,95,(三)估计方法1、正态分布法(95界值)适用于正态或近似正态分布资料。双侧界值:us (1.96s)单侧上限:us (1.64s)单侧下限:us (1.64s),96,97,例8.14.653(mmol/L)s0.401(mmol/L)计算95正常参考值范围:,98,2、对数正态分布法实用于对数正态或近似分布资料,3、百分位数法实用于偏态分布资料双侧界值:P2.5P97.5单侧上限: P95单侧下限: P5,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号