统计学:第10章 计量资料统计描述

上传人:s9****2 文档编号:570171799 上传时间:2024-08-02 格式:PPT 页数:61 大小:920.50KB
返回 下载 相关 举报
统计学:第10章 计量资料统计描述_第1页
第1页 / 共61页
统计学:第10章 计量资料统计描述_第2页
第2页 / 共61页
统计学:第10章 计量资料统计描述_第3页
第3页 / 共61页
统计学:第10章 计量资料统计描述_第4页
第4页 / 共61页
统计学:第10章 计量资料统计描述_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《统计学:第10章 计量资料统计描述》由会员分享,可在线阅读,更多相关《统计学:第10章 计量资料统计描述(61页珍藏版)》请在金锄头文库上搜索。

1、例例 某年某市抽样调查了某年某市抽样调查了120名名5岁女孩身高岁女孩身高(cm), 欲欲了解平均身高是多少了解平均身高是多少?资料分布有什么特点资料分布有什么特点?105.5 118.6 110.5 104.2 110.9 107.9 108.1 99.1 104.8 116.5 110.4 105.7 118.2 117.0 112.3 116.5 113.2 107.9 104.8 109.6109.1 108.1 109.4 118.2 103.9 116.0 110.1 99.6 109.3 107.5108.6 100.6 108.8 103.8 95.3 104.4 102.7

2、101.0 112.1 118.7100.2 102.1 114.5 110.4 115.0 120.5 115.5 112.7 103.5 114.4100.7 116.3 105.1 112.8 118.5 113.3 107.9 114.6 121.4 110.7108.8 114.7 110.6 110.7 116.6 106.9 105.5 107.4 118.4 115.3 119.7 113.9 116.5 112.9 112.9 110.0 99.5 112.7 106.7 119.1109.6 110.7 102.8 111.3 105.2 117.0 114.9 120.0

3、 103.4 109.3108.8 105.7 109.0 108.8 108.1 116.4 108.3 111.0 113.0 101.4108.7 119.1 106.2 115.2 124.0 98.7 106.0 114.7 111.9 107.3104.1 109.1 108.8 111.0 106.8 120.2 105.8 103.1 105.0 115.01第十章第十章 数值变量资料的统计分析数值变量资料的统计分析计量资料:计量资料: 连续型计量资料:连续型计量资料: 变量取值为一定范围的任意值,不变量取值为一定范围的任意值,不能一一列举的能一一列举的, 比如身高(比如身高(

4、cm)、)、体重体重(kg)等等 离散型计量资料:离散型计量资料: 变量取值可以一一变量取值可以一一列举的,如脉搏数(次列举的,如脉搏数(次/分)分)2第一节第一节 数值变量资料的统计描述数值变量资料的统计描述 例例1 某研究者调查了某地区某研究者调查了某地区434名名15-64岁少数岁少数民族已婚妇女现有子女数,结果发现有子女数民族已婚妇女现有子女数,结果发现有子女数0-7人不等,欲了解有不同子女数的分布情况,人不等,欲了解有不同子女数的分布情况,需要制作频数分布表。需要制作频数分布表。频数频数 (frequency):): 不同组别内的观察值个数不同组别内的观察值个数离散型计量资料离散型计

5、量资料?连续型计量资料连续型计量资料?一、数值变量资料的频数分布一、数值变量资料的频数分布 31. 离散型计量资料的频数表离散型计量资料的频数表某年某地区某年某地区434名少数民族已婚妇女现有子女数的频数分布名少数民族已婚妇女现有子女数的频数分布 现有子女数现有子女数 频数频数 频率频率 累积频数累积频数 累积频率累积频率 (个个) (f) (%) (%)012345671773167604827168合计合计 43440.787.1415.4413.8211.066.223.691.8417720827533538341042643440.7847.9363.3677.1988.2594.4

6、798.16100.04 0 1 2 3 4 5 6 7频频数数现有子女数现有子女数 52. 连续型资料的频数表和频数分布连续型资料的频数表和频数分布例例2 某年某市抽样调查了某年某市抽样调查了120名名5岁女孩身高岁女孩身高(cm),资料资料 如下如下. 试通过频数表和频数分布图进行描述试通过频数表和频数分布图进行描述.105.5 118.6 110.5 104.2 110.9 107.9 108.1 99.1 104.8 116.5 110.4 105.7 118.2 117.0 112.3 116.5 113.2 107.9 104.8 109.6109.1 108.1 109.4 11

7、8.2 103.9 116.0 110.1 99.6 109.3 107.5108.6 100.6 108.8 103.8 95.3 104.4 102.7 101.0 112.1 118.7100.2 102.1 114.5 110.4 115.0 120.5 115.5 112.7 103.5 114.4100.7 116.3 105.1 112.8 118.5 113.3 107.9 114.6 121.4 110.7108.8 114.7 110.6 110.7 116.6 106.9 105.5 107.4 118.4 115.3 119.7 113.9 116.5 112.9 11

8、2.9 110.0 99.5 112.7 106.7 119.1109.6 110.7 102.8 111.3 105.2 117.0 114.9 120.0 103.4 109.3108.8 105.7 109.0 108.8 108.1 116.4 108.3 111.0 113.0 101.4108.7 119.1 106.2 115.2 124.0 98.7 106.0 114.7 111.9 107.3104.1 109.1 108.8 111.0 106.8 120.2 105.8 103.1 105.0 115.06编制频数表编制频数表 步骤步骤: 1. 求全距求全距 (rang

9、e, R) (极极差差): 全部观察值中的最大值与最小值之差全部观察值中的最大值与最小值之差. R=124.0-95.3= 28.7cm 2. 划分组段划分组段 (区间区间) 确定组数确定组数: 810组组 确定组距确定组距: 等距分组时等距分组时, 组距组距 = 全距全距/ 组数组数 确定各组段的上下限确定各组段的上下限: 3. 统计各组段频数统计各组段频数7某市某市120名名5岁女孩身高频数分布岁女孩身高频数分布 组段组段 频数频数 频率频率 累积频数累积频数 累积频率累积频率 (cm) (f) (%) 95-98-101-104-107-110-113-116-119-122-12517

10、10182521151571合计合计 120 100.0 - - 0.83 5.83 8.3315.0020.8317.5012.5012.505.830.831818366182971121191200.836.6715.0030.0050.8368.3380.8393.3399.17100.08910111213141516171819频数分布图频数分布图连续型计量资料的频数分布应该绘制连续型计量资料的频数分布应该绘制直方图直方图直方的直方的面积表示频数面积表示频数的多少,的多少,直方面积占总面积的直方面积占总面积的比例表示频率大小比例表示频率大小横轴横轴- 观察变量观察变量 (组中值(组

11、中值)纵轴纵轴 频数或频率频数或频率20频数表和频数图的频数表和频数图的主要用途主要用途1. 揭示频数分布的特征揭示频数分布的特征2. 揭示频数分布的类型揭示频数分布的类型对称分布:对称分布:偏态分布:偏态分布:3. 便于发现特大或特小的可疑值便于发现特大或特小的可疑值4. 便于进一步计算统计指标和进行统计分析便于进一步计算统计指标和进行统计分析 集中集中 或或 离散离散21二、二、 集中趋势的描述集中趋势的描述例例3 现有现有12名名5岁女孩的身高值分别为岁女孩的身高值分别为112.9,99.5,100.7,101.0,112.1,118.7,107.9,108.1,99.1,104.8,1

12、16.5,试问平均身高是多,试问平均身高是多少?少?算术均数算术均数 (arithmetic mean)简称简称均数(均数(mean) 22前例前例2 某年某市抽样调查了某年某市抽样调查了120名名5岁女孩身高岁女孩身高(cm),资料资料 如下如下. 试计算平均数试计算平均数f - 频数频数, X- 组中值组中值= (本组下限(本组下限+下组下限)下组下限)/2 加权加权法(法(weight method)23某市某市120名名5岁女还身高频数分布岁女还身高频数分布 组段组段 频数频数 频率频率 累积频数累积频数 累积频率累积频率 (cm) (f) (%) 95-98-101-104-107-

13、110-113-116-119-122-1251710182521151571合计合计 120 100.0 - - 0.835.838.3315.0020.8317.5012.5012.505.830.8324252627例例4 4 某地某地5 5例例微丝蚴血症患者治疗微丝蚴血症患者治疗7 7年后年后, ,用间接荧用间接荧光抗体试验测其抗体滴度光抗体试验测其抗体滴度, ,其倒数分别为其倒数分别为10,20,40,40,160,10,20,40,40,160,求平均滴度求平均滴度. . n-例数例数几何均数几何均数 (geometric mean, G) 28例例5 某医院预防保健科用流脑疫苗为

14、某医院预防保健科用流脑疫苗为75名名儿童进儿童进行免疫接种后,抗体滴度测定结果如下表,求平行免疫接种后,抗体滴度测定结果如下表,求平均滴度。均滴度。表表2.3 75名儿童的抗体滴度名儿童的抗体滴度 抗体滴度抗体滴度 频数(频数(f)1:41:81:161:321:641:1281:256 4 8 16 32 64128256lgX 0.60210.90311.20411.50511.80622.10722.4082滴度倒数滴度倒数 4 9212012 5 4合计合计 75 107.7676flgX2.40848.127925.286130.102021.674410.53609.632829=

15、27.35平均抗体滴度为平均抗体滴度为 1:27.3530例例 6 某研究者测得某研究者测得7名名中年知识分子中年知识分子SCL-90得分,得分,分别为:分别为:87,90,91,92,95,96,108. 试求平试求平均水平均水平.中位数(中位数(median,M)31例例7 为研究中年知识分子的心理健康状况为研究中年知识分子的心理健康状况,某学院对某学院对1503名名知识分子进行了知识分子进行了SCL-90测定测定,结果如下表结果如下表,试试求平均水平求平均水平.LM : 中位数所在组段下限中位数所在组段下限i : 中位数所在组段的组距中位数所在组段的组距fM : 中位数所在组段的频数中位

16、数所在组段的频数fL: 中位数所在组段前一组的累积频数中位数所在组段前一组的累积频数 3280-100-120-140-160-180-200-220-240-260-280-300表表4 1503名名中年知识分子中年知识分子SCL-90得分得分SCL-90总分总分频数频数44852022613079443091034累积频数累积频数448968119413241403144714771486149614991503累积频率累积频率29.8164.4079.4488.0993.3596.2798.2798.8799.5399.73100.0033描述集中趋势的指标描述集中趋势的指标:1. 算术

17、均数算术均数 (均数均数, mean)小样本小样本直接计算直接计算大样本大样本 加权法加权法适用条件适用条件: 特点特点: 各观察值与均数之差各观察值与均数之差( (离均差离均差) )的总和等于零的总和等于零 各观察值离均差平方和最小各观察值离均差平方和最小适用于描述单峰对称分布适用于描述单峰对称分布,特别是正态分布特别是正态分布 或近似正态分布的资料或近似正态分布的资料342. 几何均数几何均数 (geometric mean, G) 适用条件适用条件:原始观察值呈偏态分布原始观察值呈偏态分布,但经过但经过对数变换对数变换后呈正态分布或近似正态分布的资料后呈正态分布或近似正态分布的资料,如如

18、血清抗体滴度、细菌计数等。血清抗体滴度、细菌计数等。应用时注意事项:应用时注意事项: 几何均数常用于等比资料或对数正态分布资料几何均数常用于等比资料或对数正态分布资料 观察值中若有观察值中若有0或负值,或负值, 则不能直接使用几何则不能直接使用几何 均数均数 观察值一般同时不能有正值和负值观察值一般同时不能有正值和负值 353. 中位数中位数 (median,M) 中位数是将一组观察值按大小顺序排列后,中位数是将一组观察值按大小顺序排列后,位次居中的观察值位次居中的观察值适用条件:适用条件: 可用于各种分布的资料可用于各种分布的资料 正态分布资料:正态分布资料: 均数均数=中位数中位数对数正态

19、分布资料:对数正态分布资料: G=M 也也适用于两端无确切值或分布不明确的资料适用于两端无确切值或分布不明确的资料 百分位数百分位数 (percentile) 是一种位置指标是一种位置指标, ,用用PxPx来表示来表示 36例例2.11 根据表根据表2.1资料求某地区资料求某地区434名少数民族已婚妇名少数民族已婚妇女现有子女数的女现有子女数的第第80百分位数百分位数。 百分位数百分位数 (percentile,P)将将观察值观察值从小到大排列后从小到大排列后处于第处于第X百分位置百分位置上的数值,上的数值,PxLX : 第第X百分位数所在组段下限百分位数所在组段下限i : 第第X百分位数所在

20、组段的组距百分位数所在组段的组距fX : 第第X百分位数所在组段的频数百分位数所在组段的频数fL: 第第X百分位数所在组段前一组的累积频数百分位数所在组段前一组的累积频数 37某年某地区某年某地区434名少数民族已婚妇女现有子女数的频数分布名少数民族已婚妇女现有子女数的频数分布 现有子女数现有子女数 频数频数 频率频率 累积频数累积频数 累积频率累积频率 (个个) (f) (%) (%)012345671773167604827168合计合计 43440.787.1415.4413.8211.066.223.691.8417720827533538341042643440.7847.9363.

21、3677.1988.2594.4798.16100.038三、三、 离散趋势的描述离散趋势的描述例例8 某医学院用自编生存质量量表测量某医学院用自编生存质量量表测量3组同组同年龄、同性别中年知识分子年龄、同性别中年知识分子 的躯体功能维度得的躯体功能维度得分。分。甲组:甲组: 8 8 9 10 11 12 12 乙组:乙组: 5 6 8 10 12 14 15丙组:丙组: 1 2 5 10 15 18 19 1. 极差(全距)极差(全距)= 最大值最大值-最小值最小值甲甲R=12-8=4;乙:乙:R=15-5=10 丙:丙:R=19-1=18 392. 2. 四分位数间距四分位数间距 四分位数

22、(四分位数(quartile,Q):是特定的百分位是特定的百分位数数。即。即 将将1或或100等分为等分为4个部分,在第个部分,在第25 位、位、50位、位、75位位3个点上的数值就是四分位数。记作:个点上的数值就是四分位数。记作: P25,P50,P75下下四分位数四分位数= QL = P25上四分位数上四分位数= QU = P75四分位数间距四分位数间距= QU-QL403.方差方差 (variance) 标准差标准差 (standard deviation, SD)离均离均差差: X- 离均差离均差平方和平方和: 总体方差总体方差: 样本方差样本方差: 41自由度自由度: degree

23、of freedom, (df ) 或或 (n-1) 允许自由取值的变量值个数允许自由取值的变量值个数标准差标准差 (SD)方差方差开方开方42例例2.9 某医学院用自编生存质量量表测量某医学院用自编生存质量量表测量3组组同年龄、同性别中年知识分子同年龄、同性别中年知识分子 的躯体功能维的躯体功能维度得分。度得分。甲组:甲组: 8 8 9 10 11 12 12 乙组:乙组: 5 6 8 10 12 14 15丙组:丙组: 1 2 5 10 15 18 19 求求标准差?标准差? 甲组甲组 S =1.73 分分 乙组乙组 S =3.87 分分 丙组丙组 S =7.52 分分43方差和标准差方差

24、和标准差 是描述对称分布,特别是是描述对称分布,特别是正态分布或近似正正态分布或近似正态分布态分布资料资料离散趋势(变异程度)离散趋势(变异程度)的常用指标的常用指标方差和标准差越大方差和标准差越大- 变异程度越大变异程度越大例例. 某市城区某市城区120名名5岁女孩身高均数为岁女孩身高均数为110.15cm ,标准差为标准差为 5.86cm; 体重均数为体重均数为17.71kg, 标准差为标准差为1.44kg , 请比较离散程度请比较离散程度身高身高: 体重体重: =110.15cm =17.71kg S=5.86cmS=1.44kgCV=5.32%CV=8.13%44例例 120名名5岁岁

25、女孩体重的均数和标准差女孩体重的均数和标准差,及及5个月女孩个月女孩的体重的均数和标准差的体重的均数和标准差,比较其离散程度比较其离散程度.=17.71kg S=1.44kg5岁岁:5个月个月: =7.37kg S=0.77 kg4. 变异系数(变异系数(coefficient of variation, CV)也称离散系数也称离散系数CV=8.13%CV=10.45%用途用途:1. 比较比较计量单位不同计量单位不同的几组资料的离散程度的几组资料的离散程度2. 比较比较均数相差悬殊均数相差悬殊的几组资料的离散程度的几组资料的离散程度45小小 结结描述计量资料离散程度的指标有描述计量资料离散程度

26、的指标有: 1. 极差极差 (R) 2. 四分位数间距四分位数间距 (Q) Q = QU-QL= P75-P253. 方差方差 (S2) 标准差标准差 (SD) 4. 变异系数变异系数 (CV)46第二节第二节 正态分布及其应用正态分布及其应用正态分布正态分布是自然界最常见的一种分布,例如,是自然界最常见的一种分布,例如,测量误差、人体的尺寸、许多生化指标的值都测量误差、人体的尺寸、许多生化指标的值都近似服从正态分布。近似服从正态分布。正态分布是一种重要的连续型随机变量的概率正态分布是一种重要的连续型随机变量的概率分布。分布。一一. 正态分布正态分布4748二、正态分布的特征和曲线下面积的规律

27、二、正态分布的特征和曲线下面积的规律正态分布的密度函数为:正态分布的密度函数为: - X + , 总体标准差总体标准差; , 总体均数总体均数; , 是常数是常数; e 自然自然对数的底对数的底X, 随机变量随机变量; f(X)是密度函数是密度函数 49F(X)X50 正态分布曲线图形特点:正态分布曲线图形特点:1. 曲线在横轴上方均数处最高曲线在横轴上方均数处最高 2. 正态分布以均数为中心,左右对称正态分布以均数为中心,左右对称 3. 有两个参数,即有两个参数,即位置参数位置参数 和和 形态参数形态参数 51 1 2 3 3 2 1当当 固定时,固定时, 越小,曲线越陡峭越小,曲线越陡峭

28、越大,曲线越低平越大,曲线越低平当当 固定时,曲线的固定时,曲线的位置随位置随 不同而不同不同而不同不同的不同的 ,不同的,不同的 对应不同的正态曲线对应不同的正态曲线记作记作 N( , 2)524. 正态密度函数曲线的面积分布有一定的规律正态密度函数曲线的面积分布有一定的规律(1) 正态密度函数曲线与横轴间的面积恒等于正态密度函数曲线与横轴间的面积恒等于1 或或100% (总面积总面积=1)(2) 正态分布是一种对称分布正态分布是一种对称分布,其对称轴为直其对称轴为直线线 X= ; 对称轴两侧的面积各占对称轴两侧的面积各占50%. (3) 曲线下不同区间的面积是固定的曲线下不同区间的面积是固

29、定的 68.27%95.00%99.00% 2.58 53对应于不同的参数对应于不同的参数 和和 会产生不同位置、不会产生不同位置、不同形状的正态分布。为了应用方便,可以通过同形状的正态分布。为了应用方便,可以通过变量变换,将正态分布变量变换,将正态分布 N( , 2)转换成转换成 N( 0, 1) 的标准正态分布。的标准正态分布。 0三三. 标准正态分布标准正态分布 5468.27%95.00%99.00% 2.58 68.27%95.00%99.00%0 0-1-1- -1.961.96-2.58-2.581 11.961.962.582.58 N( 0, 1) N( , 2) 横轴横轴u

30、值值55引入标准变换后,只须制定标准正态曲线下面积分引入标准变换后,只须制定标准正态曲线下面积分布表,即布表,即标准正态分布表(表标准正态分布表(表9-8),),对于其他正对于其他正态分布均可借助标准正态分布表估计任意(态分布均可借助标准正态分布表估计任意(X1,X2)范围内的频数比例。范围内的频数比例。例例2.17 已知已知 u1= -1.76, u2= -0.25, 求标准正态曲求标准正态曲 线下线下 (-1.76, -0.25) 范围内的面积范围内的面积(-1.76, -0.25) = 0.4013-0.0392 = 0.3621例例2.18 已知已知 u1= -1.2 , u2= 1.

31、6 , 求标准正态曲求标准正态曲 线下线下 ( -1.2, 1.6 ) 范围内的面积范围内的面积56例例2.19 已知已知120名女孩身高均数为名女孩身高均数为110.15cm ,标准差标准差为为5.86cm ,现欲估计该市城区某年身高界于现欲估计该市城区某年身高界于104.0-108.0cm 范围内的范围内的5岁女孩所占比例及岁女孩所占比例及120名名5岁女孩岁女孩中身高界于中身高界于104.0-108.0cm 范围内的人数范围内的人数.= 110.15 S=5.86 X1=104.0 u1= (104.0-110.15) / 5.86 = -1.05 X2=108.0 u2= (108.0

32、-110.15) / 5.86 = -0.37 (u1 u2 )曲线下面积曲线下面积 = 0.2088 104.0108.0cm 范围内范围内5岁女孩所占的比例岁女孩所占的比例=20.88%身高在身高在104.0108.0cm 范围内的范围内的人数人数=120*20.88%=25名名57四四. 正态分布的应用正态分布的应用1. 估计频率分布估计频率分布 例例2.20 某研究得到某地婴儿出生体重均数为某研究得到某地婴儿出生体重均数为3100g ,标准差为标准差为300g ,估计该地当年出生低体重儿估计该地当年出生低体重儿( 2500g )所占比例所占比例.u = (2500-3100) / 30

33、0 = -2.00 查附表查附表1 : (-2.00) = 0.0228 当地婴儿出生体重服从当地婴儿出生体重服从 N( 3100, 3002) 正态分布正态分布X = 2500g 出生低体重儿出生低体重儿( 2500g )所占比例为所占比例为 2.28% 582. 制定医学参考值范围制定医学参考值范围 表表 医学参考值范围的制定医学参考值范围的制定 (双侧双侧) 正态分布法正态分布法%百分位数法百分位数法909599P5 P95P 2.5 P 97.5P 0.5 P 99.5例例2.21 某地调查成年男子某地调查成年男子200人的红细胞数人的红细胞数,得均得均数为数为 =55.26*1012

34、/L , 标准差标准差 S=0.38*1012/L,试估试估计该地成年男子红细胞数的计该地成年男子红细胞数的95%参考值范围参考值范围95%医学参考值范围:医学参考值范围:55.2610121.960.381012593. 3. 质量控制质量控制 实验中的检测误差服从正态分布实验中的检测误差服从正态分布 上下警戒线上下警戒线: 上下控制值上下控制值:4. 正态分布是许多统计方法的理论基础正态分布是许多统计方法的理论基础 60小结小结 反映计量资料的集中趋势指标反映计量资料的集中趋势指标 均数、中位数、几何均数均数、中位数、几何均数 描述计量资料离散程度的指标描述计量资料离散程度的指标 极差、四分位数间距、方差和标准差、极差、四分位数间距、方差和标准差、 变异系数变异系数 正态分布和标准正态分布正态分布和标准正态分布 分布特征、分布特征、 应用应用 61

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号