正态分布及其应用Normal distribution and its applications 统计学中最重要的理论分布之一 主要内容(Content)o随机变量的概率分布o正态分布的概念及图形o正态分布的特征o正态分布曲线下面积的规律o标准正态分布o正态分布的应用o总结随机变量o变量和随机变量o变量取值的相对频率说明了具有某个性质的观察对象出现的可能性o随机变量n离散型:性别、血型、子女数、事故数n连续型:身高、体重例:密度函数和分布函数o抛两枚硬币,抛两枚硬币,密度函数分布函数例:密度函数和分布函数例:密度函数和分布函数x随机变量的概率分布o概率函数(Probability Function),或者说概率密度函数(Probability Density Function) 、密度函数o在统计学中,我们说变量具有分布函数(Distribution Function)用此函数的大小来说明变量取某些值的可能性o当变量的取值包括了所有可能的取值时,分布函数为1o当变量具备了以上两个函数之后,称它具有某种分布(Distribution)正态分布oNormal distributiono德国数学家Gauss发现o最早用于物理学、天文学oGaussian distribution(a)(b)(d)(c)正态分布的概念及图形正态分布的概率密度函数 o如果随机变量X的概率密度函数 则称X服从正态分布,记作X~N(,2),其中, 为分布的均数, 为分布的标准差。
(-∞< X <+∞) 正态分布图示X0.1.2.3.4f(X)方差相等、均数不等的正态分布图示312均数相等、方差不等的正态分布图示213正态分布的特征o单峰分布;高峰在均数处;o以均数为中心,均数两侧完全对称o正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)o有些指标本身不服从正态分布,但经过变换之后可以服从正态分布o正态曲线下的面积分布有一定的规律 正态曲线下某一区域的面积用定积分来求:正态曲线下的面积正态曲线下的面积规律oX轴与正态曲线所夹面积恒等于1 o对称区域面积相等S(-, -X)S( +X,)=S(-, -X)正态曲线下的面积规律o对称区域面积相等S( -x1, -x2)-x1 -x2 +x2 + x1S( -x1, -x2)= S( +x1, +x2)正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 S(- , -3 )=0.0013S(- , -2 )=0.0228S(- , -1 )=0.1587S(- , )=0.5S(- , +3 )=0.9987S(- , +2 )=0.9772S(- , +1 )=0.8413S(- , )=1正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 1-S( -3 , +3 )=0.00261-S( -2 , +2 )=0.04561-S( - , + )=0.3174正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 S(- , -3 )=0.0013S(- , -2 )=0.0228S(- , -1 )=0.1587S(- , )=0.5S(- , +3 )=0.9987S(- , +2 )=0.9772S(- , +1 )=0.6587S(- , )=1正态曲线下的面积规律-3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.5S(-3, -2)=0.0115S(-2, -1)=0.1359S(-1, )=0.3413 -4 -3 -2 -1 0 1 2 3 4 正态曲线下的面积规律-3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.5S(-3, -2)=0.0115S(-2, -1)=0.1359S(-1, )=0.3413 -3 -2 -1 0 1 2 3正态曲线下的面积规律 -3 - + +3 -2 +2 S(-3, -2)=0.0115S(-2, -1)=0.1359S(-1, )=0.3413S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.5正态曲线下的面积规律-1.96+1.962.5%2.5%95%正态曲线下的面积规律-1.64+1.645%5%90%正态曲线下的面积规律-2.58+2.580.5%0.5%99%正态曲线下的面积规律o正态分布的一个显著特点 其曲线下面积完全决定于以标准差为单位从点x到µ的离差。
231X2=-σ2X2X1=-σ1X1X3=-σ3X30.15870.15870.1587正态曲线下的面积规律o正态曲线下面积总和为1;o正态曲线关于均数对称;对称的区域内面积相等;o对任意正态曲线,按标准差为单位,对应的面积相等; o-1.64~ +1.64内面积为90%;o-1.96~ +1.96内面积为95%;o-2.58~ +2.58内面积为99%o小于-3的面积为 0.13%;o小于-2的面积为 2.28%;o小于- 的面积为15.87%正态分布转换为标准正态分布o若 X~N(,2),作变换: 则u服从标准正态分布ou称为标准正态离差(standard normal deviate)标准正态分布o标准正态分布(standard normal distribution)是均数为0,标准差为1的正态分布o记为N(0,1)o标准正态分布是一条曲线o概率密度函数: (-∞< u <+∞) 标准正态分布曲线下面积(u) u 0.00 -0.02 -0.04 -0.06 -0.08-3.00.0013 0.0013 0.0012 0.0011 0.0010-2.50.0062 0.0059 0.0055 0.0052 0.0049-2.00.0228 0.0217 0.0207 0.0197 0.0188-1.90.0287 0.0274 0.0262 0.0250 0.0239-1.60.0548 0.0526 0.0505 0.0485 0.0465-1.00.1587 0.1539 0.1492 0.1446 0.1401-0.50.3085 0.3015 0.2946 0.2877 0.2810 00.5000 0.4920 0.4840 0.4761 0.46810u正态分布的应用Ø估计频数分布Ø质量控制Ø确定临床参考值范围总结o正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;o正态分布是一簇分布,由两个参数决定:均数和标准差;o正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。
需要掌握的内容o正态分布的性质o正态曲线下面积的分布规律o参考值范围确定的原则和方法估计频数分布o某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g若以2500g作为低体重儿,试估计低体重儿的比例n首先计算标准离差:n查标准正态分布表: (-1.86)=0.0314n结果:估计低体重儿的比例为3.14%.质量控制o质量控制的意义n监控日常工作、科研过程、生产过程中误差的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、取样时间M+3SDM+2SD MM-2SDM-3SD质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、取样时间M+3SDM+2SD MM-2SDM-3SD质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、取样时间M+2.58SDM+1.96SD MM-1.96SDM-2.58SD质量控制图(quality control chart) 123456789101112131415取样时间M+3SDM+2SD MM-2SDM-3SD参考值范围(reference interval)o参考值范围又称正常值范围(normal range)。
o什么是参考值范围:n是绝大多数正常人的某观察指标所在的范围n绝大多数:90%,95%,99%等等o确定参考值范围的意义:n用于判断正常与异常o“正常人”的定义:n排除了影响所研究的指标的疾病和有关因素的同质的人群参考值范围的估计方法:正态分布法2.5%2.5%95%-1.96+1.96参考值范围确定的原则o选定足够例数的同质的正常人作为研究对象 o控制检测误差o判断是否分组(性别,年龄组) o单、双侧问题 o选择百分界值(90%,95%) o确定可疑范围单侧与双侧参考值范围o根据医学专业知识确定!n双侧:白细胞计数,血清总胆固醇,n单侧:上限: 转氨酶,尿铅,发汞 …… 下限: 肺活量,IQ,正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧) 正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧) 正常人病人假阳性率假阴性率病人正常人与病人的数据分布重叠示意图(双侧)参考值范围的估计方法:百分位数法P2.5P97.5参考值范围的估计方法方法双侧 单侧下限单侧上限正态分布法百分位数法 P2.5~~P97.5 >P5
由得95%参考值范围: 下限: -1.96s=73.5-1.96×3.9=65.9(g/L) 上限: +1.96s=73.5+1.96×3.9=81.1(g/L) 此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值参考值范围的特点o与种族有关o与年龄、性别有关o与环境、气候有关o与仪器本身有关o不同的医院,参考值范围不同迁安新闻网 qianannews 彟巚嬆。