离散程度、正态分布

上传人:自*** 文档编号:48406896 上传时间:2018-07-14 格式:PPT 页数:75 大小:1.40MB
返回 下载 相关 举报
离散程度、正态分布_第1页
第1页 / 共75页
离散程度、正态分布_第2页
第2页 / 共75页
离散程度、正态分布_第3页
第3页 / 共75页
离散程度、正态分布_第4页
第4页 / 共75页
离散程度、正态分布_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《离散程度、正态分布》由会员分享,可在线阅读,更多相关《离散程度、正态分布(75页珍藏版)》请在金锄头文库上搜索。

1、离散趋势的描述吴立娟 流行病与卫生统计学系 阶平楼230对以下三组数据特征进行分析甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34定量描述离散趋势的指标,称为变异指标 。反映一组同质的计量资料观察值之间变 异程度。指标按间距计算:全距和四分位间距按平均差距计算:离均差平方和、方差、 标准差、变异系数一、全距(range)优点:简便;计量单位与原变量计量单 位相同 缺点:只利用了两个极端值没有涉及数据的集中位置的信息不稳定,对离群值敏感n大,R也会大用途:一般用于描述单峰对称分布 小样本资料的离散程度或用 于初步了解资料的变异程度二、四分

2、位数间距分位数 介于最大值和最小值 之间的一个数值,它 使得变量的一部分观 察值小于或等于它, 另一部分观察值大于 或等于它。P100(max)P75P50(中位数)P25P0(min)百分位数 是一个位置指标,用Xp%表示。 对样本来说,它表示按照升序排列的数列中, 其左侧(即小于Xp%侧)的观察个数在整个样本 中所占的百分比为p%,其右侧(即大于Xp%侧)的 观察个数在整个样本中所占的百分比为(100-p )%。百分位数计算L为第x百分位数所在组的下限i为第x百分位数所在组的组距fp为第x百分位数所在组的频数为第x百分位数所在组的前一段的累积频数累积频率刚好大于x%的组即为第x百分位数所在

3、 的组组段(1)频数,f (3)累计频数Sf (4)累计计百分率0.5331.9 0.69127.5 0.7122415.0 0.8133723.1 0.9175433.8 1.0187245.0 1.1209257.5 1.21811068.8 1.31712779.4 1.41314087.5 1.5914993.1 1.6815798.1 1.71.8合计计3160100.0 160P250.9+0.1x(160x25%37)/170.92P751.3+0.1x(160x75%110)/171.36四分位数间距(inter-quartile range)将特殊的3个分位数X25%, X5

4、0%, X75%统称为四 分位数,并且分别称为第一四分位数,第 二四分位数和第三四分位数,记为Q1,Q2和 Q3. Q3与Q1的差值为四分位间距。QQ3 Q1= X75%-X25% 四分位数间距常用于描述偏态分布资料,两端无确切值或分布不明确资料的离散程度 四分位数间距较全距稳定,常与中位数一起,描述偏态分布资料的特征。 计量单位与原变量的计量单位相同,且它对离群值的敏感远远低于全距,受样本量的影响较小。 缺点是仅使用了原变量的部分信息。三、离均差平方和平均偏差:为了利用每一个观察值的信息,一 个自然的设想是计算各观察值偏离平均数的平 均差距,为了避免正负抵消,可将每个观察值 与均数之差的绝对

5、值相加,然后取平均,称作 平均偏差。离均差平方和(sum of square, ss)四、方差(mean of square,MS)总体方差样本方差S2样本均数代替总体均数,导致离均差缩小 ;英国统计学家Gosset W-S 提出自由度, 以n-1代替n。 n-1又称作自由度(degrees of freedom) ,指随机变量可以“自由”变动的个数。 n-限制条件的数目五、标准差(standard of deviation, SD)总体标准差样本标准差S组段(1)频数,f (3)组中值,X (4)fX (5)= (3)(4)fX2 (5)= (3)(4) 20.530.551.650.91

6、0.690.655.853.80 0.7120.759.006.75 0.8130.8511.059.39 0.9170.9516.1515.34 1.0181.0518.9019.85 1.1201.1523.0026.45 1.2181.2522.5028.13 1.3171.3522.9530.98 1.4131.4518.8527.33 1.591.5513.9521.62 1.681.6513.2021.78 1.71.8合计计31.755.259.19 160182.30221.52 方差(221.52182.302/160)/(160-1) 0.0869标准差0.29标准差的基本

7、内容是 “离均差”,它显 示一组变量值与其均数的间距,故标准 差直接地、总结地、平均地描述了变量 值的离散程度。R SS MS S 甲组 8 40 10.0 3.16 乙组 12 90 22.5 4.74 丙组 8 34 8.5 2.92六、变异系数(coefficient of variation)亦称离散系数,是标准差s与均数之比,即:适用范围 观察指标单位不同,如身高、体重 不 同单位资料 均数相差悬殊例:某地20岁男子100人,身高均数为 166.06cm,标准差为4.95cm;体重均数为 53.7kg,标准差为4.96kg,试比较身高和体 重的变异。身高体重 没有单位反映标准差占均数

8、的百分比或标准差是均数的几倍可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度 变异系数的特点及相应的 用途绝对变异受平均水平的影响 相对变异排除了平均水平的影响平均数与变异度的关系平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。 变异指标小结1极差较粗,适合于任何分布 2标准差与均

9、数的单位相同,最常用,适合于 近似正态分布 3变异系数主要用于单位不同或均数相差悬殊 资料 4平均指标和变异指标分别反映资料的不同特 征,常配套使用如正态分布:均数、标准差; 偏态分布:中位数、四分位间距1. 变异系数主要用于 A比较不同计量指标的变异程度 B. 衡量正态分布的变异程度 C. 衡量测量的准确度 D. 衡量偏态分布的变异程度 E. 衡量样本抽样误差的大小2. 对于近似正态分布的资料,描述其变异程度应选用的指 标是 A. 变异系数 B. 离均差平方和 C. 极差 D. 四分位数间距 E. 标准差3已知动脉硬化患者载脂蛋白B的含量(mg/dl)呈明显偏态 分布,描述其个体差异的统计指

10、标应使用 A全距 B. 标准差 C.变异系数 D方差 E.四分位数间距第五章第四节 正态分布一、正态分布的概念和特征二、正态分布的应用一、正态分布概念和特征一种连续型随机变量常见而重要的分布首先由德国数学家德.莫阿弗尔于1733年提 出德国数学家高斯在研究测量误差时也建立 了正态分布,并对正态分布的性质作了进 一步的研究,因此正态分布也叫高斯分布 。正态分布的图形某地用随机抽样方法检查了140名成年男子的红 细胞数,当取组距为0.05时,图2.1 140名正常男子红细胞计数的直方图 如果将观察人数逐渐增多,组距也不断缩 小,图中直条将逐渐变窄,整个图形将逐 渐接近于一条光滑的曲线,即接近于近似

11、 正态分布曲线。连续型随机变量及其概率分布 随机变量X取各种值的概率的规律称为概 率分布规律,简称分布,是研究随机事物 的工具和统计分析的理论基础 在某一区间内随机变量取值的概率可通过 计算积分获得,被积函数则称为连续型随 机变量的密度函数 如果X为连续型随机变量,其密度函数为 f(x),则其分布函数为如果连续型随机变量X在实数范围内取值 ,且具有如下的概率密度函数和概率分布函数X Xf f( (X X) )m m正态分布的特性 正态分布曲线为位于X轴上方的钟型曲线, 且以X=为对称轴左右对称。以X轴为渐近 线,两端与X轴永不相交 正态分布曲线在X=处有最大值,其值为 f()=1/ ,X远离,

12、f(X)值越小; 正态曲线在X+ 处有拐点; 正态分布有两个参数,即均数和标准差 ,不同的、不同的对应于不同的正态分 布曲线恒定时,增大,曲线沿横轴向右移动;减小, 曲线沿横轴向左移动恒定时,越大,曲线越宽,表示数据越分散; 越小,曲线越窄,表示数据越集中 标准正态分布 N( 0,1 ) 标准正态分布指数据经标准化后, = 0, = 1时 的正态分布 公式 或任何一个正态分布,都可以通过变换,成为标准 正态分布只要确定服从标准正态分布的随机变量取值及其 概率,就可利用这一关系计算一般正态分布的取 值概率正态曲线下面积的分布规律(1)服从标准正态分布的随机变量在一区间 上曲线下的面积与该随机变量

13、在同一区间 的取值的概率相等例 140名成年男子红细胞均数和标准差分别 为 4.781012/L和 0.371012/L,求红细 胞数在4 1012/L5.3 1012/L范围内所 占的比例。(2)X轴与正态曲线下所夹的面积恒等于1。 (3)如果uN(0,1),根据标准正态分布的分布 函数为简化计算制成了附表2,欲求服从标 准正态分布的随机变量在区间(-,u) (u0)上曲线下的面积,可直接查表;对于u0,可根据对称性:(u)=1- (-u)u在区间(u1,u2)取值概率的计算公式: P( u1uu2 )= (u2)- (u1)例 已知z1=-1.76,z2=-0.25, 求标准正态 曲线下(

14、-1.76,-0.25)范围内的面积例 已知z1=-1.20,z2=1.6,求标准正态曲线下 (-1.20,1.6)范围内的面积(4) 正态曲线下面积的分布规律(5)如果XN(,2),X在区间(X1,X2)上 取值的概率为例 140名成年男子红细胞均数和标准差分 别为 4.781012/L和 0.371012/L,求红 细胞数在4 1012/L5.3 1012/L范围内 所占的比例。u1=(4-4.78)/0.37= -2.11 u2=(5.3-4.78)/0.37=1.41 P1=0.0174 P2=0.9207 P=0.9207-0.0174=0.9033mmol/L ,mmol/L ,试

15、估计该地正常女子血清甘油三脂在1.10 mmol/L以下者占正常女子血清甘油三脂总人 数的百分比。 查附表得:0.4483=44.83%正态分布的应用 制定医学参考值范围 质量控制 正态分布是许多统计方法的理论基础医学参考值范围 “正常”人的解剖、生理、生化指标及组织代谢产物含量等数据正常与否的参考值。由于个体差异的存 在,人群中的医学参考值有一定波动范围,医学参 考值范围是指按一定的概率所确定的医学参考值的 波动范围。 目的 基于临床实践,着眼于个体 基于预防医学实践,着眼于人群医学参考值范围的制定方法 确定观察对象和抽取足够的观察单位 明确研究总体”正常人”总体,指排除了影 响所研究变量的疾病和有关因素的同质人群。 例如,某市欲制定学龄前儿童血铅的参考值范 围,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号