数值变量资料的统计分析(上)课件

上传人:woxinch****an2018 文档编号:44740962 上传时间:2018-06-14 格式:PPT 页数:193 大小:2.50MB
返回 下载 相关 举报
数值变量资料的统计分析(上)课件_第1页
第1页 / 共193页
数值变量资料的统计分析(上)课件_第2页
第2页 / 共193页
数值变量资料的统计分析(上)课件_第3页
第3页 / 共193页
数值变量资料的统计分析(上)课件_第4页
第4页 / 共193页
数值变量资料的统计分析(上)课件_第5页
第5页 / 共193页
点击查看更多>>
资源描述

《数值变量资料的统计分析(上)课件》由会员分享,可在线阅读,更多相关《数值变量资料的统计分析(上)课件(193页珍藏版)》请在金锄头文库上搜索。

1、第九章 数值变量资料的统计描述学习要点:1.熟悉频数分布表的编制方法;2.掌握描述数值变量资料集中趋势常用指标(均数、几何均数、中位数)的计算及适用条件;3.掌握描述数值变量资料离散趋势常用指标(极差、四分位数间距、方差、标准差和变异系数)的计算及适用条件;4.熟悉正态分布的概念、特征和参考值范围的估计。第一节 数值变量资料的频数分布一、数值变量的颁数分布频数:相同变量值的个数。频数分布:变量在取值范围内各组段的分布情况。表9-1 某地140名健康成年男性血清尿素氮浓度(mmol/L) 频数表的编制步骤1、求全距(极差)(6.55-2.10=4.45(mmol/L)2、按全距的大小决定组数,组

2、段和组距。习惯上分815组,组距 i=R/12=4.45/12=0.37(mmol/L),将取整i=0.40(mmol/L)划分组段:第一组段(2.00)包含最小值。最后一个组段(6.406.80)包含最大值。每一组段都有上限和下限上限:组段的终点(最大值)下限:组段的起点(最小值)除最后一个组段外,其余各组段均不标出上限。BUN组段(1)2.002.302.402.70 2.803.103.203.50(间断)BUN组段(2) 2.002.402.402.802.803.203.203.60(重叠)BUN组段(3)2.002.402.803.20(正确)3、列表划记:统计各组段内的数据频数得

3、出表9-2的“频数”栏,该表称之为频数表。2.频数表的用途1.揭示频数的分布特征2.揭示频数的分布类型3.便于发现可疑值。4.便于进一步计算统计指标和进行统计分析。特征离散趋势集中趋势对称分布偏态分布类型1、集中趋势:频数向中央部分集中。2、离散趋势:从中央部分到两侧频数分布逐渐减少。(二) 频数分布的类型1、正态分布2、偏态分布 正偏态:集中位置偏向数值小的一侧; 负偏态:集中位置偏向数值大的一侧 正偏态 负偏态(麻疹年龄分布)(肺癌年龄分布)二、频数分布图二、平均水平指标常用的描述指标:一、算术均数(arithmetic mean) 二、几何均数(geometric mean) G三、中位

4、数(median) M平 均 数(一)算术均数(arithmetic mean) w 均数的计算方法(1)直接法(适用于观察单位较少时)1.191(mmol/L)例9-2 某班级中10名女孩身高(cm)的测量值分别为132 .4,151.3,126.8,138.1,146.6,139.5,154.2,147.5,148.1,137.6,求其算术均数。(2)加权法(适用于大样本,频数表资料)例 用表9.3(P290)资料计算均数。2.均数的两个重要特征(1)离均差(各观察值X与均数 之 差)的总和为零。(2)离均差平方和小于各观察值X与 任何数 ( )之差的平方和。3.均数的应用(1)在合理分组

5、的基础上,对同质的事物求均数才有意义,才能反映事物的平均水平。(2)适用于对称分布,尤其是正态分布资料。(二)几何均数应用:1.几何均数常用于等比级资料或对数正态分布资料。2.观察值中不能有0。3.观察值不能同时有正值或负值。4.同一组资料求得的几何均数小于均数。几何均数的计算1.直接法例9-3 有8份血清的抗体效价分别为1:200,1:25,1:400,1:800,1:50,1:50,1:100,1:50,1:25,求平均抗体效价。2.加权法例9-4 某地对112名儿童接种某种疫苗一个月后,测定了各儿童血清抗体的滴度,结果见表9-4,求平均滴度。表9-4 某地112名儿童接种疫苗后血清抗体滴

6、度的计算表(三)、中位数(M)是指将一组观察值从小到大排列,位次居中的观察值就是中位数。小大四、百分位数把一组数据从小到大排列后,分成 100等份,处于第 百分位置的数值。它将全部数据分为两部分,有 的数据小 于 ,有 的数据大于 。如中位数即是第 50 百分位数, 小大(一)中位数的计算1.直接法当n为偶数时当n为奇数时例9-5 8名食物中毒患者的潜伏期分别为1,2,3,3,4,5,8,16,求中位数。n=8,为偶 数例9-6 某传染病11名患者的潜伏期(天)分别为1,2,2,3,3,4,5,6,7,7,9,求中位数。 n=11,为奇数2. 频数表法 步骤:(1)计算累计频数和累计频率(2)

7、找出中位数(百分位数)所在组段:M所在组段,即累计频率为50%的(或累计频数为n/2)所在组。 (3)将数据代入公式计算M。(二)中位数的应用偏态分布资料开口资料(数据无确切值)分布不明的资料 理论上,中位数可用于任何分布的计量资料, 但实际应用中常用于偏态分布,特别是开口资料。在对称分布资料中,MX 小结:1.掌握描述数值变量资料离散趋势 常用指标(极差、四分位数间距 、方差、标准差和变异系数)的 计算及适用条件;2.熟悉正态分布的概念、特征和参 考值范围的估计。学习要点:三、 离散趋势的描述三组同性别、同年龄儿童体重(kg)甲组 26 28 30 32 34 乙组 24 27 30 33

8、36丙组 26 29 30 31 3430 30 30 8 12 8描述变异程度的指标:1.极差(全距)RR=最大值最小值意义:R愈大,离散度愈大,R愈小,离散度愈小。 优点:计算简单,意义明了 缺点:1、利用资料的程度低,不能反映每一个观察值的变异;2、不够稳定。样本例数越大,R可能越大;3、抽样误差大。(1)四分位数将数据从小到大排列后,等分为四份。2575P25P75(2)四分位数间距计算 50P50 P75P25(常用于偏态分布资料)2.四分位数间距缺点:w 1、比R稳定,但仍未考虑每一个观察值的变异;w 2、常用于描述偏态资料的离散度。3.方差R*要全面考虑每个变量值的离散情况(即每

9、个变量值与均数之差) 甲组26283032348丙组26293031348R总体方差样本方差4.标准差总体标准差样本标准差(二)标准差的计算1、直接法:例数少 时公式(9-13)2、加权法:频数表 资料公式( 9-14 )例9-8 以例9-2中10名12岁女孩的身 高数据为例,求标准差 例9-9 利用表9-3中资料计算140名 正常成年男子血清BUN浓度的标准差 2.标准差的应用(1)反映资料的离散程度(事物的变异程度),(2)衡量均数的代表性标准差越大,变异程度越大,均数的代表性越差(3)结合均数描述频数分布特征(4)计算变异系数和标准误(5)结合均数与正态分布的规律,估计参考值范围5.变异

10、系数 CV(描述观察值的变异相 对于其平均水平的大小)标准差与均数比,用百分数表示。用于:(1)比较度量衡单位不同的几组资料的变异程度。(2)比较均数相差悬殊的几组资料的变异程度。例9-10 某地40名7岁男童身高的均数是121.48cm,标准差为4.65cm;体重均数为22.18kg,标准差为2.35kg。试比较该40名男童身高和体重的变异程度。第二节 正态分布参考值范围的估计一、 正态分布的概念和特征(一)概念:正态曲线呈对称钟形,均数 所在处最高,两侧逐渐下降,两端在无穷 处与横轴无限接近。二、标准正态分布(u 变换)将每个 x 值转变成 u 值使均数为 0( =0 ),标准差为 1(

11、=1 ),则 正态分布 N ( , ) 标准正态分布 N( 0 ,1 )(u分布)(二)正态分布的特征1、正态曲线在横轴上方,且均数所在处最高;2、正态分布以均数为中心,左右对称;3、正态分布有两个参数 N( ),4、正态分布的面积分布有一定的规律性.正态分布的图形由两个参数决定:位置参数 (总体均数)变异度参数 (总体标准差)1、 越大,曲线沿横轴向右移动;反之 越小, 则向左移动。2、 越大,数据越分散,曲线越“ 矮胖” ; 越小,表示数据越集中,曲线越“ 瘦高”。(4) 正态曲线下面积分布规律a.正态曲线与横轴间的面积为 1 或 100%b.以均数为中心,正态曲线下对区间面积相等。c.在

12、 范围内的面积占 68.27%在 范围内的面积占 95%在 范围内的面积占 99%在 范围内的面积占 68.27%在 范围内的面积占 95%在 范围内的面积占 99%在正态曲线下面积分布有一定规律,其分布可通过其密度函数积分求得:为了免去计算的麻烦,统计学家已编制出标准正态分布曲线下的面积(表9-8,P299)应用时应注意:(1)如u已知,可直接查表。(2)如u未知,先按 求出u值,再查表。(3)表中只列出负值,如果u为正值,可按负值查表。练习1:标准正态曲线下(-1.76,0)的面积占总面积的百分数。练习2:标准正态曲线下(0,1.20)的面积占总面积的百分数。练习3:标准正态曲线下(-1.

13、76,1.20)的面积占总面积的百分数。练习4:试估计成年男子尿酸浓度在375 以下的比例。练习4:试估计成年男子尿酸浓度在375 以下的比例。(1)先求出u值:(2)查表得:(-1.50)=0.0668三、参考值范围的估计医学参考值范围:大部分正常人的形态、功能、代谢产物的生理、生化、指标常数。制定参考值范围的基本步骤: 1、从正常人的总体中抽样,且样本量要足够(通常n100),抽样遵循随机化原则;2、控制测量误差3、判定是否需要分组确定参考值范围。4、决定取单侧还是双侧。该指标过大过小均为异常 双侧该指标仅过大或过小为异常 单侧5、选定合适的百分界限(常用95%)5、选定合适的百分界限(常

14、用95%)6、根据资料的分布类型选定适当的方法进行参考值范围的估计。正态分布资料 正态分布法对数正态分布资料 对数正态分布法偏态分布资料 百分位数法为可信度:如制定95%参考值范围:则=0.05制定99%参考值范围:则=0.01U可通过查表求得如:双侧的U0.05=1.960 , U0.01=2.576单侧的U0.05=1.645 , U0.01=2.326例9-11 利用表9-1的资料求95%的参考值范围例9-12 利用表9-7的资料计算7岁男童血铅95%的参考值范围练习:公共汽车的车门高度是根据正常成年男子的身高来制定的,如正常成年男子的身高均数为170cm,标准差为10cm,今欲要求有9

15、9%的成年男子上车时不会碰到头,车门高度应为多高。第三节数值变量资料的统计推断学习要点:1.掌握均数的抽样误差与标准误的概念;2.了解t分布的概念与特征;3.熟悉总体均数的区间估计;4.熟悉假设检验的基本原理和步骤;5.掌握t检验和u检验的方法;6.了解两类错误和假设检验的注意事项。一、均数的抽样误差与标准误一、均数的抽样误差 统计推断(statistical inference) 用样本的信息推论总体的特征。参数估计统计推断假设检验14岁女生 (身高 )120人均数的抽样误差-由于抽样造成的样本均数与总体均数、样本均数之间的差异。样本1样本2样本k总体均数根据中心极限定理:1 .从正态总体中抽样,抽取样本含量为n的样本,样本均数 服从正态分布。即使是从偏态总体中抽样,在样本含量足够(n50)大时,也近似正态分布。2.从均数为 ,标准差为 的正态或偏态总体中抽样样本例数为n的样本,新样本组成的数据中,样本均数为 ,标准差标准误:样本均数的标准差。反映各均数间的离

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 机械/制造/汽车 > 汽车维修/保养

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号