文档详情

计量资料(定量资料)的统计描述资料ppt课件

pu****.1
实名认证
店铺
PPT
808.50KB
约85页
文档ID:578755892
计量资料(定量资料)的统计描述资料ppt课件_第1页
1/85

第十一章第十一章 资料的描述性分析资料的描述性分析 2024/8/252第十一章第十一章 资料的描述性分析资料的描述性分析v第一节第一节 计量资料的统计描述方法计量资料的统计描述方法v第二节第二节 计数资料的统计描述方法计数资料的统计描述方法v统计图表统计图表 2024/8/253第一节第一节 计量资料的统计描述方法计量资料的统计描述方法v 常用的描述定量资料分布规律的统计方法常用的描述定量资料分布规律的统计方法有两类:有两类:§ 统计图表:频数分布表统计图表:频数分布表/图图§ 选用适当的统计指标:选用适当的统计指标:•集中趋势指标:均数、中位数集中趋势指标:均数、中位数•离散趋势指标:极差、标准差离散趋势指标:极差、标准差 2024/8/254v频数分布表频数分布表(( frequency distribution table )):: 将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表((frequency table )) 第一节第一节 数值变量资料的频数分布数值变量资料的频数分布 2024/8/255最小最小值值最大值第一节第一节 数值变量资料的频数分布数值变量资料的频数分布 2024/8/2561. 频数表的编制步骤频数表的编制步骤v((1)求数据的极差)求数据的极差: 极差(极差(range)是全部数)是全部数据中的最大值与最小值之差,它描述了数据的变据中的最大值与最小值之差,它描述了数据的变异幅度。

异幅度 公式:公式:R==XMax--XMin 例例8.1:: XMax =5.59 XMin =3.60 R=5.59-3.60=1.99 第一节第一节 数值变量资料的频数分布数值变量资料的频数分布 2024/8/257 ((2)划分组段)划分组段v 确定组数确定组数: n>100,,10~~15组;组;n<100,,8~~10组组v 确定组距:确定组距:§组距可以相等也可以不相等,一般采用等距分组,组距可以相等也可以不相等,一般采用等距分组,§组距组距=极差极差/组数组数 例8.1 1.99/10≈2,故组距,故组距=2mmol/L1. 频数表的编制步骤频数表的编制步骤 2024/8/258((2)划分组段)划分组段 v 确定各组段的上下限:确定各组段的上下限:§每个组段的起点称为该组的每个组段的起点称为该组的下限(low limit), 终点称为终点称为上限(upper limit), 上限上限=下限下限+组距;组距;§第一组段必须包括最小值,因此其下限取包含最小值、较为第一组段必须包括最小值,因此其下限取包含最小值、较为整齐的数值;整齐的数值;例8.1 第一组段下限为第一组段下限为 3.60,上限为,上限为3.60+0.20=3.80 §各组段不能重叠,每一组段均为半开半闭区间,即包括下限,各组段不能重叠,每一组段均为半开半闭区间,即包括下限,不包含上限。

不包含上限例8.1 第一组段为第一组段为3.60~ 即即[3.60,3.80);以此类推以此类推§ 最后一组段,须包括最大值,且要列出这一组段的下限和最后一组段,须包括最大值,且要列出这一组段的下限和上限,即上限,即5.40~5.60,, [5.40,5.60] 1. 频数表的编制步骤频数表的编制步骤 2024/8/2591. 频数表的编制步骤频数表的编制步骤最后一组段最后一组段第一组段第一组段列出各组段列出各组段 2024/8/2510((3)列表划记)列表划记v 1. 频数表的编制步骤频数表的编制步骤将原始数据一一对将原始数据一一对应入每个组段,通应入每个组段,通过划过划“正正” 字,来字,来统计每个组段内的统计每个组段内的数据数据 2024/8/2511((3 3)列表划记)列表划记1. 频数表的编制步骤频数表的编制步骤统计每个组段内的统计每个组段内的频数(例数)频数(例数)频数的合计数等于频数的合计数等于样本含量样本含量 2024/8/25121. 频数表的编制步骤频数表的编制步骤((3 3)列表划记)列表划记计算出每个组段的计算出每个组段的频率频率每组的频数每组的频数 样本含量样本含量 2024/8/25131. 频数表的编制步骤频数表的编制步骤((3 3)列表划记)列表划记计算出每个组段的计算出每个组段的累计频率累计频率= =本组段的频率本组段的频率+ +上上一组段的累计频率一组段的累计频率 2024/8/25141. 频数表的编制步骤频数表的编制步骤 2024/8/25152.绘制频数分布直方图绘制频数分布直方图 绘制频数分布直方图绘制频数分布直方图v坐标轴坐标轴§横坐标:变量值即研究指标,无需从横坐标:变量值即研究指标,无需从0开始,以单位尺度开始,以单位尺度划分。

划分§纵坐标:为频数纵坐标:为频数f,必须从,必须从0开始(开始(f为每一组段内的人数)为每一组段内的人数)v直条直条§直条的宽度:组距直条的宽度:组距§直条的高度:每一组段的频数直条的高度:每一组段的频数v累计累计 2024/8/25162.绘制频数分布直方图绘制频数分布直方图 2024/8/25172.绘制频数分布直方图绘制频数分布直方图 2024/8/25183、频数分布的特征、频数分布的特征从频数表可以看到频数分布的两个重要的特征从频数表可以看到频数分布的两个重要的特征 v 集中趋势(集中趋势(central tendency))§血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居多,是为集中趋势多,是为集中趋势v 离散趋势(离散趋势(tendency of dispersion))§从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势数分布逐渐减少,是为离散趋势v集中趋势和离散趋势是频数分布的两个重要侧面,从这两集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。

方面就可全面的分析所研究的事物 2024/8/25194.频数分布的类型频数分布的类型 频数分布又可分为对称分布和偏态分布频数分布又可分为对称分布和偏态分布v对称分布:对称分布:集中位置在正中,左右两侧频数分布大体对称v偏态分布:偏态分布:集中位置偏向一侧,频数分布不对称§正偏态分布:集中位置偏向年龄小的一侧正偏态分布:集中位置偏向年龄小的一侧§负偏态分布:集中位置偏向年龄大的一侧负偏态分布:集中位置偏向年龄大的一侧v 不同类型的分布,应采用相应的统计分析方不同类型的分布,应采用相应的统计分析方法 2024/8/25204.频数分布的类型频数分布的类型正态分布正态分布(( normal distribution ))中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布正态分布 2024/8/25214.频数分布的类型频数分布的类型 a.a.尖峭峰尖峭峰 b.b.正态峰正态峰c.c.平阔峰平阔峰 2024/8/2522正偏态分布正偏态分布正偏态分布:正偏态分布:峰偏左,尾部向右侧延伸峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布如:以儿童为主的传染病发病人数的分布右偏态右偏态4.频数分布的类型频数分布的类型负偏态分布负偏态分布负偏态分布:负偏态分布:峰偏右,尾部向左侧延伸峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布如:以老年人为主的慢性病发病人数的分布左偏态左偏态((positive skewed))((negative skewed)) 2024/8/25235.频数表的用途频数表的用途v频数表可揭示资料的频数表可揭示资料的分布特征分布特征和和分布类型分布类型v便于进一步计算统计指标和统计分析处理(第二节)便于进一步计算统计指标和统计分析处理(第二节)v便于发现某些特大或特小可疑值,便于资料的校对。

便于发现某些特大或特小可疑值,便于资料的校对 2024/8/2524一、集中趋势指标一、集中趋势指标v算术均数算术均数(arithmetic mean)v几何均数几何均数(geometric mean)v中位数和百分位数中位数和百分位数(median   percentile)以上统称为以上统称为平均数(平均数(average))常用于描述一组常用于描述一组变量值的集中位置,代表其平均水平或是集中位变量值的集中位置,代表其平均水平或是集中位置的特征值置的特征值 2024/8/25251.算术均数算术均数又简称为又简称为均数(均数(mean))v定义:定义:是反映一组观察值在数量上的平均水平是反映一组观察值在数量上的平均水平§总体均数用希腊字母总体均数用希腊字母   表示,样本均数用表示,样本均数用 表示表示v计算方法:计算方法:§直接法:直接法:§频数表法:频数表法:v应用:应用: 正态分布或近似正态分布资料正态分布或近似正态分布资料 (arithmetic mean)(arithmetic mean) 2024/8/25261.算术均数算术均数计算方法计算方法v直接法:即将所有观察值直接法:即将所有观察值x1,x2,x3,…,xn直接相加再直接相加再除以观察值的个数,写成公式除以观察值的个数,写成公式 为样本均数为样本均数 n n为变量值个数,为变量值个数,i i为各变量值,为各变量值, ΣΣ表示求和表示求和 2024/8/25271.算术均数算术均数 例例1 有有9名健康成人的空腹胆固醇测定值名健康成人的空腹胆固醇测定值((mmol/L)为)为5.61,,3.96,,3.67,,4.99,,4.24,,5.06,,5.20,,4.79,,5.93,求算术均数。

求算术均数 2024/8/25281.算术均数算术均数 计算方法计算方法v 频数表法(频数表法(weighting method))§当资料中相同观察值的个数较多时,可将相同观察值的个数,当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数即频数f,乘以该观察值,乘以该观察值x,以代替相同观察值逐个相加以代替相同观察值逐个相加§对于频数表资料,用各组段的频数作对于频数表资料,用各组段的频数作f,以相应的组中值,以相应的组中值((class mid-value)作)作x组中值=(下限+上限)/ 2§公式 f fi i为各组段的频数为各组段的频数x xi i为各组段的组中值为各组段的组中值 2024/8/25291.算术均数算术均数 2024/8/25301.算术均数算术均数§组中值组中值= =(下限(下限+ +上限)上限)/ 2/ 2§如:如:3.60~3.60~组段的组中值组段的组中值= =((3.60+3.803.60+3.80))/2=3.70/2=3.70以此类推以此类推 2024/8/2531vf1, f2,…,fk分别为各组段的频数,这里的分别为各组段的频数,这里的f起到了起到了“权数权数”的作用,它权衡了各组中值由于频数不同的作用,它权衡了各组中值由于频数不同对均数的影响。

即频数多,权数大,作用也大;对均数的影响即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法频数少,权数小,作用也小,故称为加权法1.算术均数算术均数用组中值,加用组中值,加权法计算出的权法计算出的均数是精确值均数是精确值吗?吗? 2024/8/2532 均数的两个重要特性均数的两个重要特性v各离均差(即各观察值各离均差(即各观察值x与均数与均数 x之差)的总和等之差)的总和等于零v离均差的平方和小于个观察值离均差的平方和小于个观察值x与任何数与任何数α(( α ≠ x )之差的平方和之差的平方和1.算术均数算术均数 2024/8/25331.算术均数算术均数v各离均差(即各观察值各离均差(即各观察值x x与均数与均数 x x之差)的总和等于零之差)的总和等于零偶知道另一个也能偶知道另一个也能证明了!嘿嘿证明了!嘿嘿 2024/8/2534v1 1、最常用,特别是正态分布资料、最常用,特别是正态分布资料v2 2、均数对极值特别敏感,、均数对极值特别敏感, 极大值或极小值通常将均数拉向自极大值或极小值通常将均数拉向自己己1.算术均数算术均数均数的特征均数的特征 2024/8/2535CASIO fx-3600PCASIO fx-3600P计算器统计功能计算器统计功能 步骤步骤 键键 盘盘 说说 明明 1. MOOD 3 进入进入SD统计功能统计功能 2. SHIFT AC 清除原有数据清除原有数据 3. 2.35 DATA 输入数据输入数据 4.21 DATA 3.32 DATA   4. SHIFT 1(数字键)(数字键) 显示计算的显示计算的 5. SHIFT 3 (数字键)(数字键) 显示计算的显示计算的S 6. Kout 3 (数字键)(数字键) 显示计算的显示计算的n 7. Kout 1 (数字键)(数字键) 显示计算的显示计算的 2024/8/25362.几何均数几何均数v定义:定义:有些医学资料,如抗体滴度、细菌计数等,其频有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。

此时宜用几何均数反映其平均增减倍数v计算方法:计算方法:§直接法直接法§加权法加权法v应用:等比资料或对数正态分布资料应用:等比资料或对数正态分布资料((geometric mean)) 2024/8/2537 计算方法:计算方法:v直接法:直接法:直接将直接将n个观察值(个观察值( x1,x2,x3,…,xn )的乘积)的乘积开开n次次§公式公式§写成对数形式为写成对数形式为 2.几何均数几何均数几何均数:几何均数:变量对数值变量对数值的算术均数的算术均数的反对数的反对数 2024/8/2538v例例3 有有7 7份血清的抗体效价分别为份血清的抗体效价分别为1:21:2,,1:41:4,,1:81:8,,1:161:16,,1:321:32,,1:641:64,,1:1281:128,求平均抗体效价求平均抗体效价§本例先求抗体效价的倒数,再求几何均数本例先求抗体效价的倒数,再求几何均数2.几何均数几何均数血清抗体的平均效价为血清抗体的平均效价为1 1::1616 2024/8/2539计算方法:计算方法:v加权法:加权法:当资料中相同观察值得个数当资料中相同观察值得个数f(即频数)(即频数)较多时,如频数表资料较多时,如频数表资料§写成公式写成公式2.几何均数几何均数 2024/8/2540v例例4 有有6060人的血清抗体效价,分别为人的血清抗体效价,分别为7 7人人1 1::5 5,,1111人人 1 1::1010,,2222人人1 1::2020,,1212人人1 1::4040,,8 8人人1 1::8080,求平,求平均抗体效价。

均抗体效价 2.几何均数几何均数6060人的血清平均抗体效价为人的血清平均抗体效价为1 1::20.70520.705 2024/8/2541 注意事项注意事项§等比资料,如:抗体的平均滴度、药物的平均效价、卫生事等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长业平均发展速度、人口的几何增长§对数正态分布:是右偏态分布对数正态分布:是右偏态分布§观察值不能有观察值不能有0 0因为0 0不能去对数,不能与任何其他数呈倍不能去对数,不能与任何其他数呈倍数关系§观察值不能同时有正值和负值若全是负值,计算是可以把观察值不能同时有正值和负值若全是负值,计算是可以把负号去掉,得出结果后再加上负号负号去掉,得出结果后再加上负号§同一组资料求得的几何均数小于算术均数同一组资料求得的几何均数小于算术均数2.几何均数几何均数 2024/8/2542 若一组数值变量资料为偏态分布,变量为若一组数值变量资料为偏态分布,变量为x x,令,令y=lgxy=lgx后,后,变量变量y y服从正态分布,请问变量服从正态分布,请问变量x x为什么样的偏态分布资料?为什么样的偏态分布资料?2.几何均数几何均数正偏态分布正偏态分布正态分布正态分布变量变量y 服从服从则变量则变量x服从服从抗体滴度抗体滴度 ⑴ ⑴ 人数人数, ,f f⑵⑵ 滴度倒数滴度倒数, ,X X ⑶ ⑶lglgX X⑷⑷1:2.5  1:101:401:1601:640 合合计计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.8062102.1032 2024/8/25433.中位数和百分位数中位数和百分位数v((1)中位数)中位数§定义:定义:是将一组观察值从小到大按顺序排列,位次居是将一组观察值从小到大按顺序排列,位次居中的中的观察值观察值就是中位数。

就是中位数§例:例:( (((median   percentile))) ) X X:: 5 5,,5 5,, 6 6,, 7 7,, 2020,, 位次:位次: 1 2 3 4 51 2 3 4 5中位数中位数(M):: 6 66.56.523 23 6 6 2024/8/2544((1)中位数)中位数§计算方法:•直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算: 2024/8/2545 例例5 有有7 7名正常人的血压(舒张压)测定值名正常人的血压(舒张压)测定值((mmHgmmHg)为:)为:72,75,76,77,81,82,8672,75,76,77,81,82,86,求中位数求中位数v解:解:n=7 n=7 为奇数为奇数 变量变量x: 72,75,76,77,81,82,86x: 72,75,76,77,81,82,86 位位 次:次: 1 2 3 4 5 6 71 2 3 4 5 6 7((1)中位数)中位数 请大家思考下:计算中位数和其他平均数有什么不同?请大家思考下:计算中位数和其他平均数有什么不同?特点:仅特点:仅利用了中利用了中间的间的1 1~~2 2个数据个数据 2024/8/2546§计算方法:计算方法:•用频数表计算中位数,用频数表计算中位数,–按所分组段,由小到大计算累计频数和累计频率。

按所分组段,由小到大计算累计频数和累计频率–再按下面公式计算为:再按下面公式计算为:((1)中位数)中位数 2024/8/2547下限值下限值L L上限值上限值U Ui; fm中位数中位数M M((1 1)中位数)中位数 2024/8/25480 ~ 2.27 ~ 4.55 ~ 10.61 ~ 28.03 ~ 46.21 ~ 65.15 ~ 80.30 ~ 89.39 ~ 96.97 ~ ((1 1)中位数)中位数累计频数累计频数3 614376186106118128132 2024/8/2549((1 1)中位数)中位数1.反映了位次反映了位次居中的观察值的水平居中的观察值的水平 优点:不受两端特大值和特小值影响优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值缺点:并非考虑到每个观测值2.适用于各种分布类型的资料,适用于各种分布类型的资料, 特别适合于:特别适合于:大样本偏态分布资料大样本偏态分布资料 或者一端或者一端/两端无确切数值的资料两端无确切数值的资料 3.中位数和算术均数再对称分布的资料中,理论上数值是相中位数和算术均数再对称分布的资料中,理论上数值是相 同的同的中位数的特征中位数的特征 2024/8/2550((2 2)百分位数)百分位数v定义:定义:是一种位置指标,用是一种位置指标,用 P PX X 来表示。

来表示将将n n个变量值从小到大依次排列,再把它们的位次转换为百分位个变量值从小到大依次排列,再把它们的位次转换为百分位对应于对应于X%X%位次的数值即为第位次的数值即为第X X百分位数百分位数 变量值:变量值: 5 5 8 … 89 … 758 位位 次:次: 1 2 3 … 75 … 150 百分位次:百分位次:0.7% 1.3% 2% … 50% … 100% 2024/8/2551百百分分数数示示意意(100-x)%x%位位图图((2 2)百分位数)百分位数 一个一个PX将全部变量值分为两部分,在不包含将全部变量值分为两部分,在不包含 PX的全部变量值中有的全部变量值中有X%的变量值比它小,的变量值比它小, 有有(100-X)%的变量值比它大的变量值比它大 PX是一是一个界值 2024/8/2552((2 2)百分位数)百分位数v计算方法计算方法 频数表法频数表法 公式如下公式如下Lx:第:第X百分位数所在组段的百分位数所在组段的下限下限ix:第:第X百分位数所在组段的百分位数所在组段的组距组距fx:第:第X百分位数所在组段的百分位数所在组段的频数频数 :第:第X百分位数所在组段百分位数所在组段上一组段累计频数上一组段累计频数 2024/8/2553l例例3 某传染性疾病的潜伏期(天)见表某传染性疾病的潜伏期(天)见表8-38-3,求平,求平均潜伏期和潜伏期的第均潜伏期和潜伏期的第2525、、7575与与9595百分位数百分位数P P2525,,P P7575,,P P9595。

2 2)百分位数)百分位数 2024/8/2554((2 2)百分位数)百分位数 2024/8/25551、四分位数(四分位数(Quartile)(三个四分位数))(三个四分位数)2、十分位数、十分位数(Centile): 9个十分位数个十分位数3、百分位数(、百分位数(Percentile))99个百分位数个百分位数((2 2)百分位数)百分位数P P5050P P2525P P7575 2024/8/2556v百分位数是用于描述样本或总体观察值序列在某百分百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的是位置的水平,最常用的是P P5050即中位数;多个百分位数即中位数;多个百分位数结合应用时,可更全面地描述总体或样本的分布结合应用时,可更全面地描述总体或样本的分布v百分位数常用于确定医学参考值范围(百分位数常用于确定医学参考值范围(reference reference rangesranges)),(,(下节后述下节后述) )v一般,分布中部的百分位数相当稳定,具有较好的代一般,分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只在样本例数足够多表性,但靠近两端的百分位数,只在样本例数足够多时才比较稳定。

因此,样本例数不够多时,不宜取太时才比较稳定因此,样本例数不够多时,不宜取太近两端的百分位数近两端的百分位数2 2)百分位数)百分位数 2024/8/2557常用平均数的意义及其应用场合常用平均数的意义及其应用场合小小 结结 2024/8/2558第三节第三节 离散趋势指标离散趋势指标平均水平的指标只是描述了一组数据的集中趋势指标,平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?有多大?如何计算? 2024/8/2559第三节第三节 离散趋势指标离散趋势指标盘号 盘号  甲甲乙乙丙丙15605205102540510505350050050044604904955440480490合计250025002500均数均数500500500例:例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数数,每人数5 5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm/mm3 3))甲甲乙乙丙丙 2024/8/2560描述计量资料数据间离散程度的指标描述计量资料数据间离散程度的指标 —变异变异指标。

指标常用的指标:常用的指标:§极差极差 §四分位间距四分位间距§方差方差§标准差标准差§变异系数变异系数第三节第三节 离散趋势指标离散趋势指标 2024/8/25611.极差极差v定义:定义:亦称为全距,即一组观察值中最大值与最小值亦称为全距,即一组观察值中最大值与最小值之差之差v计算方法计算方法: R==XMax--XMin v意义意义: R R值越大,表示该组数据的变异越大值越大,表示该组数据的变异越大v缺点缺点: 数据利用不全,仅利用了两个极端值数据利用不全,仅利用了两个极端值, ,部分信息部分信息损失,在例数少时结果不稳定损失,在例数少时结果不稳定Range)) 2024/8/25621.极差极差v例例 三组同龄男孩的身高值(三组同龄男孩的身高值(cmcm)) R 甲组 90 95 100 105 110 100 20 乙组 96 98 100 102 104 100 8 丙组 96 99 100 101 104 100 8 2024/8/25632、四分位数间距、四分位数间距v 四分位数(四分位数( quartile ):):可看作特定的百分位数,第可看作特定的百分位数,第2525百分位数百分位数P P2525, ,表示全部观察值中有表示全部观察值中有2525%(四分之一)的%(四分之一)的观察值比它小,为下四分位数观察值比它小,为下四分位数, ,记做记做Q QL L ; ;同理第同理第7575百分位数百分位数P P7575为上四分位数,记做记做为上四分位数,记做记做Q Qu u ; ;v四分位数间距四分位数间距,,简记为简记为Q,Q,第第7575百分位数与第百分位数与第2525百分位数百分位数之差。

之差inter-quartile range))P P5050P P2525P P7575 2024/8/2564v计算方法计算方法:Q= Qu – QL=P75%-P25%v意义意义: Q值越大,表示该组数据的变异度越大值越大,表示该组数据的变异度越大v优点:优点:1. 四分位数间距包括了全部观察值的一半,因此四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差也可看成是中间一半观察值的极差 2.四分位数间距作为说明个体差异的指标,比极差稳定四分位数间距作为说明个体差异的指标,比极差稳定v缺点:缺点:未考虑到每个观察值的变异度未考虑到每个观察值的变异度大v应用:应用:常用于表示常用于表示偏态分布资料偏态分布资料的变异2、四分位数间距、四分位数间距 2024/8/2565v例例7 利用表计算四分位数间距利用表计算四分位数间距Q Q2、四分位数间距、四分位数间距 2024/8/2566v极差仅采用了观察值中的最大值和最极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观上、下四分位数,均没有考虑每个观察值,因此这两项指标察值,因此这两项指标不能全面反映不能全面反映资料的离散程度。

资料的离散程度第三节第三节 离散趋势指标离散趋势指标 2024/8/25673.方差方差v若要克服以上缺点,就必须全面考虑到每一个观察值若要克服以上缺点,就必须全面考虑到每一个观察值v可用总体中每一个观察值可用总体中每一个观察值x xi i与总体均数与总体均数  ,,之差的总和之差的总和(离均差总和),反映资料的离散程度,但(离均差总和),反映资料的离散程度,但v若计算离均差平方和若计算离均差平方和 ,结果就不为,结果就不为0 0,但受到,但受到样本例数多少的影响,为了消除这一影响,就取样本例数多少的影响,为了消除这一影响,就取离均差平离均差平方和的均数方和的均数,该指标简称为方差(,该指标简称为方差(variancevariance)v总体方差用总体方差用σ2 2 表示,样本方差用表示,样本方差用S S2 2表示 ((variance)) 2024/8/25683.方差方差公公 式式奇怪:为什么样本方差是除以奇怪:为什么样本方差是除以n-1呢?呢?后述后述 2024/8/2569 方差方差 ((variance))是全部观察值的离均差平方和是全部观察值的离均差平方和的均值。

表示一组数据的平均离散情况表示一组数据的平均离散情况v特点:特点: 方差的分子方差的分子——离均差平方和,是将每一个观察离均差平方和,是将每一个观察值与均数作差之后平方:值与均数作差之后平方:反映了全部观察值的离反映了全部观察值的离散程度散程度;但同时也将变量值的度量衡;但同时也将变量值的度量衡单位平方单位平方了,了,变成了(变成了(m m))2 2、(、(kgkg))2 2…3.方差方差唉!这个指标还是不够尽善尽美,继续探索唉!这个指标还是不够尽善尽美,继续探索…… 2024/8/25704.标准差标准差v方差的单位是原度量衡单位的平方,为了用原单方差的单位是原度量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这位,就把总体方差开平方,取其正的平方根,这就是就是总体标准差总体标准差,用,用σσ表示表示::((standard deviationstandard deviation))其单位与原变量其单位与原变量x x的单位相同的单位相同 2024/8/2571v总体标准差总体标准差σσ在实际的应用当中只是个在实际的应用当中只是个“理论值理论值”v因为实际工作中常常得到的是样本资料,因为实际工作中常常得到的是样本资料, 不知道的,只能用不知道的,只能用样本均数样本均数 来估计,这样就用来估计,这样就用 代替代替 ,,用样本例数用样本例数n n代替代替N N,但这样计算得结果常比真实的,但这样计算得结果常比真实的σσ低,英低,英国统计学家国统计学家W.S.GossetW.S.Gosset提出用样本例数提出用样本例数n-1n-1代替代替n n来校正。

来校正v应用更多的是样本标准差应用更多的是样本标准差S S4.标准差标准差频数表频数表资料资料基本基本公式公式 样本方差为什么要除以(样本方差为什么要除以(n n--1 1)) 与自由度(与自由度(degrees of freedomdegrees of freedom)有关 自由度是统计学术语,其意义是自由度是统计学术语,其意义是随机变量能自由取值的随机变量能自由取值的个数个数如:n n个数据如不受任何条件的限制,则个数据如不受任何条件的限制,则n n个数据可取个数据可取任意值,称为有任意值,称为有n n个自由度若受到个自由度若受到k k个条件的限制,就只有个条件的限制,就只有((n n--k k)个自由度了个自由度了4.4.标准差标准差如有一个如有一个n=4数据样本,受到数据样本,受到 ==5的条件限制,在自由确定的条件限制,在自由确定4,,2,,5三个数据之后,第四个数据只能是三个数据之后,第四个数据只能是9,否则均数不是,否则均数不是5,,推而广之,推而广之,任何统计量的任何统计量的v=n-限制条件的个数限制条件的个数 计算标准差时,计算标准差时,n n个变量值本身有个变量值本身有n n个自由度。

但受到样个自由度但受到样本均数的限制,任何一个本均数的限制,任何一个“离均差离均差”均可以用另外的(均可以用另外的(n n--1 1)个)个“离均差离均差”表示,所以只有(表示,所以只有(n n--1 1)个独立的)个独立的“离均离均差差”因此只有(因此只有(n n--1 1)个自由度个自由度2024/8/2572 2024/8/2573v例例8 有三组成人的舒张压资料(见表有三组成人的舒张压资料(见表8.48.4),求全距、),求全距、方差和标准差,进行比较方差和标准差,进行比较4.标准差标准差编号编号甲组甲组乙组乙组丙组丙组甲甲2乙乙2丙丙216060603600360036002666872435646245184375757556255625562548279776724624159295868686739673967396合计合计369368370277012748627734 2024/8/2574编号编号甲组甲组乙组乙组丙组丙组甲甲2乙乙2丙丙216060603600360036002666872435646245184375757556255625562548279776724624159295868686739673967396合计合计369368370277012748627734全距全距262626方差方差117.2100.388.5标准差标准差 10.8310.019.414.标准差标准差三组舒张压值的三组舒张压值的全距全距R R相同,不能反映出相同,不能反映出各组数据的离散程度的区别;各组数据的离散程度的区别; 方差和标准差考虑了每个数据和均数的相差情况,方差和标准差考虑了每个数据和均数的相差情况,三组的三组的S S2 2和和S S明显不同,明显不同,全面的反映了资料的变异情况全面的反映了资料的变异情况。

2024/8/2575v例例 利用表利用表8-28-2资料和加权法计算标准差资料和加权法计算标准差4.标准差标准差 2024/8/2576v意义:意义:从上例可以看出,方差、标从上例可以看出,方差、标准差越大,其观察值之间的变异就准差越大,其观察值之间的变异就越大,则平均数的代表性就越差越大,则平均数的代表性就越差4.标准差标准差 2024/8/2577 用用 途:途:v反映一组观察值的离散程度,标准差小,反映一组观察值的离散程度,标准差小,数据间的离散程度小,均数的代表性好数据间的离散程度小,均数的代表性好v用于计算变异系数用于计算变异系数v用于计算标准误用于计算标准误v结合均值与正态分布规律估计医学参考值结合均值与正态分布规律估计医学参考值范围4.标准差标准差 2024/8/25785.变异系数变异系数 变异系数变异系数(coefficient of variation(coefficient of variation,,CV)CV)即标准差即标准差s s与均数与均数 之比用百分数表示,写成公式为之比用百分数表示,写成公式为单位:单位:极差、四分位数间距和标准差都是有单位的,其单位与极差、四分位数间距和标准差都是有单位的,其单位与观察值单位相同,而观察值单位相同,而变异系数是相对数,没有单位变异系数是相对数,没有单位,更便于资,更便于资料间的分析比较。

料间的分析比较 2024/8/2579 应应 用用v((1 1)比较度量衡单位不同的多组资料的变)比较度量衡单位不同的多组资料的变异度异度v((2 2)比较均数相差悬殊的多组资料的变异)比较均数相差悬殊的多组资料的变异度5.变异系数变异系数 2024/8/2580v((1 1)比较度量衡单位不同的多组资料的变异度)比较度量衡单位不同的多组资料的变异度例例 比较某地比较某地2020岁男子岁男子100100人,其身高和体重的均数、标准人,其身高和体重的均数、标准差如下表,试比较身高、体重变异度何者为大?差如下表,试比较身高、体重变异度何者为大?5.变异系数变异系数均数均数 标准差标准差身高身高166.06 cm4.95cm体重体重53.72 kg4.96 kg 2024/8/2581v((2 2)比较均数相差悬殊的多组资料的变异度比较均数相差悬殊的多组资料的变异度例:例: 表表 某地不同年龄组男童身高(某地不同年龄组男童身高(cm)) 年龄组年龄组 S CV% 1-2月月 56.3 2.1 3.73 5-6月月 66.5 2.2 3.31 3-3.5岁岁 96.1 3.1 3.22 5-5.5岁岁 107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。

结论:随着年龄增加,身高的变异变小 5.变异系数变异系数 2024/8/2582变异指标小结变异指标小结1.1.极差较粗,适合于任何分布极差较粗,适合于任何分布2.2.四分位数间距,也不全面,常用于偏态分布四分位数间距,也不全面,常用于偏态分布3.3.标准差标准差与均数的单位相同,最常用,适合于正态与均数的单位相同,最常用,适合于正态/ /近似近似正态分布正态分布4.4.变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料5.5.平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布:正态分布:均数、标准差;均数、标准差; 偏态分布:偏态分布:中位数、四分位数间距中位数、四分位数间距 2024/8/2583数值变量资料的统计描述数值变量资料的统计描述 小结小结*1.在医学杂志中,在医学杂志中,正态或近似正态资料,正态或近似正态资料,常以常以 的形式表达,描述和比较数据的平均水平和离散的形式表达,描述和比较数据的平均水平和离散程度。

程度2.2.偏态分布或特定资料偏态分布或特定资料(生存时间、病程、潜伏期(生存时间、病程、潜伏期时间等)用中位数和四分位间距描述时间等)用中位数和四分位间距描述 表达形式:表达形式:M M,(,(Q Q))3.3.等比数据和正偏态资料等比数据和正偏态资料可用几何均数和几何标准可用几何均数和几何标准差描述差描述 表达形式:表达形式:G G±±S SG Gû û 2024/8/2584实实 例例 2024/8/2585谢谢大家!谢谢大家! 。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档