统计描述,作为医学统计学的重要组成部分之一,是进行统计推断的基础它是在收集、整理数据的基础上,通过相应的统计量以及统计图和统计表来描述资料某些牲的统计方法 一般说来,进行统计描述应遵循这样的原则:根据分析目的和资料类型选择恰当的统计量以及统计图和统计表来描述资料的统计特征统计描述,一、计量资料的统计描述 1.频数分布表 为了解数据的分布范围、集中位置、分布形态等特征,需要编制频数表1)频数分布表的编制 例1:某医生收集了81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果如下,试编制频数分布表81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果,步骤:,求全距 R=max-min= 278.8-97.5=181.3,定组数 K 通常取8~15组为宜本例取K=10.,求组距 I=R/K (注意取整) 本例I=181.3/10=18.13≈20,制表 确定各组段的下限、统计各组段内的频 数、算出各组段的频率、累计频数、累计 频率,将所得数据填入表中81例健康男子血清总胆固醇值(mg/dl)的频数分布表,利用频数分布表,还可绘制出相应的频数分布直方图.频数分布图以横轴表示被观察现象,纵轴表示频数或频率,以各矩形(宽度为组距)的面积代表各组段的频数或频率。
81名健康男子血清总胆固醇值的频数分布图,由图可见,该资料的频数分布呈基本对称分布2)频数分布表的作用 描述数据分布特征: 数据的分布范围 集中位置 分布形态等 计算有关指标 发现奇异值2.集中趋势 反映集中趋势和集中位置的指标,亦称平均数 1)算术均数 适用于分布比较对称的资料 定义式:,加权式:,例:由例1的数据:,2)几何均数 适用于变量值呈倍数关系的资料例2 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512试计算其几何均数或,,即7名慢性迁延性肝炎患者HBsAg滴度的几何均数为164例3 52例慢性肝炎患者的HBsAg滴度数据如下表试计算滴度的几何均数故知,52例慢性肝炎患者的HBsAg滴度的几何均数约为1∶119.753)中位数 先介绍分位数的概念 分位数:分位数是一个界值或者分割值,一种位置指标 将一组数据按从小到大的顺序排列为: x1(最小值), x2, …, xn(最大值) 分位数X*是介于x1(最小值)与xn(最大值)之间的一个数值,它使得n个数据中的一部分观察值小于或等于它,另一部分观察值大于或等于它。
X*,x1,xn,如果将顺序排列的一组数据分为q个相等频数的区间(即每个区间中有相同的数据个数),这时共有q-1个分位点,则称这些分位点为q分位数常用的分位数有中位数(二分位数)、四分位数、 百分位数等中位数(二分位数):上述分位数的定义中,令q=2,即取一个分位点X*,使得n个数据中有二分之一的数据小于或等于X*,则称X*为中位数,记为X*=M 显然,这样定义的中位数可由下式算得:,此时M为位置居中的那个数,此时M为位置居中的两个数的平均值,中位数有以下特点: 对离群值不敏感故当有离群值或数据分布不对称时,可采用中位数来描述集中趋势 当数据分布对称时,均数和中位数很接近例4 某厂发生食物中毒,9名患者潜伏期(小时)分别为:16、2、6、3、30、2、l0、2、24, 试求其中位数 先将数据由小到大排列为: 2、2、2、3、6、10、16、24、30 由于n=9为奇数,故有,,四分位数:在分位数的定义中,令q=4,即q-1=3,即取三个分位点Q1、Q2、Q3,使得n个数据中有四分之一的数据小于或等于Q1,则称Q1为下四分位数,Q3为上四分位数,而Q2即为中位数M下四分位数Q1,上四分位数Q3,中位数Q2=M,百分位数:在分位数的定义中,令q=100,即q-1=99,即取99个分位点P1,P2,.,P99,使得n个数据中有1%的数据小于或等于P1,则称P1为1%位数,。
一般地,称Px为x%位数,对于频数表资料,百分位数的计算公式如下:,式中:L是 Xp% 所在组段的下限,i是该组段的组距,fp是该组段的频数, n 是总频数, ∑fL是该组段以前的累计频数显然,中位数即为50%位数,下四分位数即为25%位数,上四分位数即为75%位数例5 某地130名健康成年男性血清肌红蛋白数据列于下表,试求其P25、P75以及中位数先寻找欲求的百分位数分别落在哪些组,由累计频率列可见,P25位于“20~”这个组段,P75位于“30~”组段,而中位数,即 位于“25~”组段 将相应数据分别代入百分位数计算公式,,,,2.离散趋势:反映数据分布的离散程度 先看一个例子:现有甲乙两名射击运动员,其训练成绩如下: 甲:5 8 9 10 4 乙:7 7 8 7 7 现需派出一人去参加比赛已知总成绩达到36环即可确保第二名作为教练,你应该选谁去参赛?,为了比较全面地把握资料的分布特征,不仅需要了解数据的集中位置,而且需要了解数据的离散程度常用的描述离散趋势的统计指标包括极差、四分位数间距、方差、标准差和变异系数 1)全距: R=MAX-MIN 2)四分位数间距 :上下四分位数之差 Q=Q3-Q1 称为四分位数间距。
3).方差,4).标准差,5).变异系数,例6 测得8名大一女生的身高(cm)分别为162、158、157、149、155、170、167、162试求其算术均数、标准差身高,体重,例7 抽样调查某地大二女生的身高和体重,得知其身高均数为165cm,标准差为3cm;体重均数为45kg,标准差为3kg试比较该地大二女生身高与体重的变异程度 虽然已知身高和体重的标准差数值均为3,但其单位不一致,导致直接不可比故选择变异系数身高和体重的变异系数分别为,几个离散指标的比较 全距简单易求,但所用的信息较少,对离群值较敏感,与样本含量n有关, n越大,全距可能越大四分位数间距简单易求,对离群值的敏感度小于全距,受样本含量影响较小但使用的信息量仍然较少方差使用了全部信息量,特别是利用了数据集中位置的信息,优于全距和分位数间距但方差作了一个平方处理,夸大了各数据点与集中位置的离散程度标准差是方差的平方根,它将方差夸大了的离散程度 作了还原,且具有方差的全部优点,因此标准差在实际应用中最为常用变异系数用来度量相对变异程度,是一个无量纲的指标,可以用来比较不同量纲变量之间的变异程度,也可以用来比较量纲相同但均数相差较大的变量之间的变异程度。
3.定量资料统计描述常用指标的意义及适用场合,注意:数据变化对集中趋势和离散程度度量指标的影响,比较X1和X2两个变量的度量指标可看出: 1).一个变量加上一个常数后,新变量的均数等于原变量的均数加上这个常数,方差和标准差均不变,变异系数变小 2).一个变量乘以一个常数后,新变量的均数等于原变量的均数乘以这个常数,方差等于原变量的方差乘以这个常数的平方,标准差等于原变量的标准差乘以这个常数,变异系数不变案例 某市1974年留驻该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民238人的发汞值(μmol/kg)检测结果如下表的第1和3列所示试对该市居民发汞水平进行统计描述某市1974年238人的发汞检测结果,为描述该市居民发汞水平的集中趋势和离散趋势,某研究者采用算术均数和标准差两个统计指标 算术均数为 (μmol/kg) 标准差为 (μmol/kg) 你认为这样统计描述合理吗?为什么?,,,,4.描述分布形态的统计指标 本例资料的频数分布直方图,显然,该地居民发汞含量的频率分布是不对称的这类分布称为偏峰分布从图中可以看到,频率最大的组段处于左侧第二的位置, 而不是居中绝大多数变量值集中在左侧四个组段。
越往右侧的组段, 频率越小一般称这种峰向左侧偏移的分布为正偏峰分布而峰向右侧偏移的分布称为负偏峰分布 1). 偏度系数 样本偏度系数,,理论上总体偏度系数为0时,分布是对称的;偏度系数取正值时,分布为正偏峰(图形的尾部向右);偏度系数取负值时,分布为负偏峰(图形的尾部向左)2). 峰度系数 样本峰度系数 理论上, 正态分布的总体峰度系数为0;峰度系数取负值时,其分布较正态分布的峰平阔;峰度系数取正值时,其分布较正态分布的峰尖峭。