正态分布及其应用,Normal distributionand its applications统计学中最重要的理论分布之一,,,,,,,,,,,,正态分布(Normal distribution),法国概率论学者狄莫弗德国数学家Gauss最早用于物理学、天文学Gaussian distribution,2,,,3,4,为什么如此摆放奖品? 平时,我们很少有人会去关心小球下落位置的规律性,人们可能不相信它是有规律的高尔顿钉板试验,正态分布的背景-一个街头赌博游戏,5,O,,,,,,,,,,,这条曲线就是我们将要介绍的正态分布曲线正态分布的背景-高尔顿钉板试验,6,,,124,132,140,148,156,164,0,0.10,0.20,0.30,0.40,频率,图 某市120名12岁男童身高(cm)的频数分布,组 段 频 数 频 率124~ 1 0.0083128~ 2 0.0167132~ 10 0.0833136~ 22 0.1834140~ 37 0.3083144~ 26 0.2167148~ 15 0.1250152~ 4 0.0333156~ 2 0.0167160~164 1 0.0083 合 计 120 1.0000,7,极差=160.9-125.9=35 分10组,组距=极差/10=35/10=3.5,组距取 4 下界 124 ,上界164,8,身高的分布,正态分布的概率密度函数,如果随机变量X的概率密度函数则称X服从正态分布,记作X~N(,2),其中, 为分布的均数, 为分布的标准差。
∞< X <+∞),正态分布图示,,,x,,,,,,,,,,0,,.1,,.2,,.3,,.4,,,,,f(x),方差相等、均数不等的正态分布图示,,,均数相等、方差不等的正态分布图示,,,,,1,正态分布的特征,正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差) 高峰在均数处; 均数两侧完全对称 正态曲线下的面积分布有一定的规律正态曲线下的面积规律,X轴与正态曲线所夹面积恒等于1 对称区域面积相等S(-, -X),S( +X,)=S(-, -X),,X,,,正态曲线下的面积规律,对称区域面积相等S(-x1, -x2),,-x1 -x2 x2 x1,S(x1,x2)=S(-x2,-x1),,,,,,,,,,正态曲线下的面积规律,-4 -3 -2 -1 0 1 2 3 4,-3 -2 - + +2 +3,S(-, -3)=0.0013,S(-, -2)=0.0228,S(-, -1)=0.1587,S(-, )=0.5,S(-, +3)=0.9987,S(-, +2)=0.9772,S(-, +1)=0.8413,S(-, )=1,正态曲线下的面积规律,-4 -3 -2 -1 0 1 2 3 4,-3 -2 - + +2 +3,1-S(-3 , +3)=0.0026,1-S(-2 , +2)=0.0456,1-S(- , +)=0.3174,正态曲线下的面积规律,-3 -2 - + +2 +3,S(-, -3)=0.0013 S(-, -2)=0.0228 S(-, -1)=0.1587 S(-, -0)=0.5,S(-3, -2)=0.0215 S(-2, -1)=0.1359 S(-1, )=0.3413,-4 -3 -2 -1 0 1 2 3 4,,,正态曲线下的面积规律,,,-1.96,+1.96,2.5%,2.5%,,,95%,,,正态曲线下的面积规律,,,,正态曲线下的面积规律,-2.58,+2.58,0.5%,0.5%,,,99%,,,S(-1.96, +1.64)=?,思考,正态曲线下的面积规律,正态曲线下面积总和为1; 正态曲线关于均数对称;对称的区域内面积相等; 对任意正态曲线,按标准差为单位,对应的面积相等; -1.64~ +1.64内面积为90%; -1.96~ +1.96内面积为95%; -2.58~ +2.58内面积为99%。
小于-3的面积为 0.13%; 小于-2的面积为 2.28%; 小于- 的面积为15.87%标准正态分布,标准正态分布(standard normal distribution)是均数为0,标准差为1的正态分布 记为N(0,1) 标准正态分布是一条曲线 概率密度函数:,(-∞< u <+∞),正态分布转换为标准正态分布,若 X~N(,2),作变换:则u服从标准正态分布 u称为标准正态离差(standard normal deviate),标准正态分布曲线下面积(u),u 0.00 0.02 0.04 0.06 0.08 -3.0 0.0013 0.0013 0.0012 0.0011 0.0010 -2.5 0.0062 0.0059 0.0055 0.0052 0.0049 -2.0 0.0228 0.0217 0.0207 0.0197 0.0188 -1.9 0.0287 0.0274 0.0262 0.0250 0.0239 -1.6 0.0548 0.0526 0.0505 0.0485 0.0465 -1.0 0.1587 0.1539 0.1492 0.1446 0.1401 -0.5 0.3085 0.3015 0.2946 0.2877 0.28100 0.5000 0.4920 0.4840 0.4761 0.4681,,0,u,正态分布的应用,估计频数分布 质量控制 确定临床参考值范围,估计频数分布,某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。
若以2500g作为低体重儿,试估计低体重儿的比例 首先计算标准离差:查标准正态分布表: (-1.86)=0.0314 结果:估计低体重儿的比例为3.14%.,,质量控制,质量控制的意义监控日常工作、科研过程、生产过程中 误差的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施参考值范围(reference interval),参考值范围又称正常值范围(normal range) 什么是参考值范围: 是绝大多数正常人的某观察指标所在的范围 绝大多数:90%,95%,99%等等 确定参考值范围的意义: 用于判断正常与异常 “正常人”的定义: 排除了影响所研究的指标的疾病和有关因素的同质的人群参考值范围确定的原则,选定同质的正常人作为研究对象 控制检测误差 判断是否分组(性别,年龄组) 选择百分界值(90%,95%) 确定可疑范围 单、双侧问题,单侧与双侧参考值范围,根据医学专业知识确定! 双侧:白细胞计数,血清总胆固醇, 单侧:上限: 转氨酶,尿铅,发汞 …… 下限: 肺活量,IQ,,参考值范围的估计方法,方法 双侧 单侧下限 单侧上限 正态分布法,,例,20 ~ 29岁正常成年男子尿酸浓度求双侧95%的参考值范围: 下限 上限,总结,正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一; 正态分布是一簇分布,由两个参数决定:均数和标准差; 正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。
需要掌握的内容,正态分布的性质 正态曲线下面积的分布规律 参考值范围确定的原则和方法,抽样误差及其规律性,Sampling variability and its attributes,从一个例子来谈抽样误差,假如事先知道某地七岁男童的平均身高为119.41cm研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了五次38,,39,,,,40,,导致总体均数与样本均数、样本均数之间有差别的可能原因是?,41,抽样误差的定义,五次抽样得到了不同的结果,原因何在?,42,,,,抽样误差的表现,43,,,抽样误差,定义: 由于个体变异的存在,由抽样引起的样本统计量与总体参数间的差别 原因:个体变异+抽样 表现: 不同样本统计量间的差别 样本统计量与总体参数间的差别抽样误差是不可避免的! 抽样误差是有规律的!,44,★ ★ ★ ★ ★,均数的抽样误差之特点,各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律;,45,中心极限定理(central limit theorem),Case 1:从正态分布总体N(μ,σ) 中随机抽样(每个样本的含量为n[如10]),可得无限多个样本[如1000次],每个样本计算样本均数,则样本均数也服从正态分布。
样本均数的均数为 μ; 样本均数的标准差为 46,中心极限定理(central limit theorem),Case 2:从非正态分布总体(均数为μ,方差为σ)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要抽样次数足够大(n>50),样本均数也近似服从正态分布 样本均数的均数为 μ; 样本均数的标准差为 47,标准误(standard error),样本统计量的标准差称为标准误 样本均数的标准差称为均数的标准误 均数的标准误表示样本均数的变异度前者称为理论标准误,后者称为样本标准误48,,这个公式是怎么来的?,,已知变量x的方差V(x)=S2,则2x的方差为?已知变量x1的方差V(x1)=S12,变量x2的方差V(x2)=S22,则x1+x2的方差为?,49,标准误与标准差(1),联系: 都表示变异的大小;样本含量一定时,标准差越大,标准误越大标准误与标准差(2),标准差 含义:一组变量值离散程度;标准差越小,均数的代表性越好; 应用: 估计参考值范围; 与n的关系:样本含量越大,标准差越稳定,n 很大时,标准差趋向于总体标准差。
标准误与标准差(3),标准误 含义: 样本统计量的离散程度; 标准误越小,用样本均数来反映总体均数越可靠; 应用: 计算可信区间; 与n的关系: 样本含量越大,均数的标准误越小,n很大时,标准误趋向于053,,样本均数的抽样分布,与样本含量的关系,n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄;对称分布接近正态分布的速度,大于非对称分布分布越偏,接近正态分布所需样本含量就越大54,抽样误差的规律性(1),均数的抽样误差规律: 在样本含量足够大时,无论总体分布如何,其均数的分布趋于正态分布,55,56,f(t),(标准正态曲线),,,, =3,,0.1,,,0.2,,,,-4,,,-3,,,-2,,,-1,,,0,,1,,,2,,,3,,4,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,。