描述性统计

上传人:M****1 文档编号:488024959 上传时间:2023-03-16 格式:DOCX 页数:28 大小:69.34KB
返回 下载 相关 举报
描述性统计_第1页
第1页 / 共28页
描述性统计_第2页
第2页 / 共28页
描述性统计_第3页
第3页 / 共28页
描述性统计_第4页
第4页 / 共28页
描述性统计_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《描述性统计》由会员分享,可在线阅读,更多相关《描述性统计(28页珍藏版)》请在金锄头文库上搜索。

1、第一章描述性统计统计分析:包括统计描述和统计推断。步骤:数据-描述性统计统计推断data statistical description statistical inference统计描述:主要是描述样本的特征。统计推断:参数估计,假设检验。第一节变量与数据一、变量的类型:1. 连续型变量(计量资料):取值范围为实数轴上的一个连续区间。如:身高体重 脉搏 血细胞计数III计量资料(measurement data):连续型变量的观察值构成的资料。2. 离散型变量(计数资料)只能在孤立的几个数中取值的变量。如:二值变量(binary variable)。也称为类别变量(categorical v

2、ariable)或名义 变量(nominal variable)。如:性别男、女职业工、农、商、学、兵计数资料(count data):离散型变量的频数资料。3. 有序变量(等级资料)如:疗效无效、有效、显效、痊愈等级资料(ranked data):有序变量的频数资料。二、数据的结构和特点: 1.基本观察单位:是按研究需要确定的采集数据的基本单位。观察对象 本身可以是一个基本观察单位,也可以同时具有若干个基本观察单位。2.记录项目:用于统计分析的记录项目通常由分组因素、反应变量和协 变量三部分组成。患者编 号年龄(岁)性别治疗分组收缩压 (kPa)舒张压 (kPa)心图疗效判定_ 一上一.13

3、7男A药T8T67HT47正常显效245女对照20.0012.53正常有效 10054女B药16.8011.73正常有效表1.1100名高血压患者治疗后的临床记录III第二节频数表与直方图统计描述包括:图表描述和指标描述。频数表(frequency table)与直方图(histogram):形象直观描述。1.频数表:离散型频数表:表1.2 108名病人中性别频数表类别频数频率(%)累积频数累积频率(%)女4541.74541.7男6358.3108100.0合计108100.0表1.3 108名病人中职业频数表类别频数频率(%)累积频数累积频率(%)工2825.92825.9农2321.35

4、147.2商2422.27569.4学1816.79386.1兵1513.9108100.0合计108100.0连续型频数表:制作频数表的一般方法:5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.045.145.464.664.204.704.284.375.334.784.755.395.274.896.184.135.224.834.113.294.184.134.063.424.684.525.193.705.51例1.3某地随机抽取正常成年男子120名,其红细胞计数值(1012/

5、L)如下:试作该批样本的频数表。(1)求极差 R:R=6.18 一 3.29=2.89 确定组距i:通常分8-15个组,为方便计,取参考极差的十分之一,再略加调整。i= R /10=2.89/10=0289 0.30(3)列出组段:第一组包括最小值,最后一个组段必须封口,并且包含 最大值。(4)划记归组获得频数。表1丘1述名正常成年男子红细胞计数的巍数表组段划记频数频率堡) 累积频数 累积频率(%)(5)3.如T21.721.73.5。正54.275.93刽正正108.31714.24.1口正正正不1915.83630.04.4口正正正正下2319.25949.24.70-正正正正不2420.

6、08369.25.叫正正正正-2117.510483.75.3。正正-119.211595.95.如7F43.311999.25.90-6.2011.7120100.0合计120100.02.直方图:离散型频数图一直条图对离散型变量,可在横轴上等距离标出属性的各个类别或各类别所对应的 变量值;在横轴的相应位置上绘制垂直线段,其高度反映各类别的频数 (图1.1,图12)。数频职业性别图1.1 108名病人性别频数图x :性别,0:女,1:男图1.2 108名病人职业频数图 y:职业,1:工,2:农,3:商,4:学,5:兵连续型频数图一直方图对连续型变量,可在横轴上等距离标出各组段的起始点,在各组

7、段上分别 绘制长方形,本例为等组距分组,长方形高度等于频数,如图1.3a所示, 即令长方形的高度等于频数。250红细胞记数7 6 5 4 3 2 1 0000000 度密率频505数频0 _O_ _ _ _ _ _ _ _O6.203.203.804.40 5.005.606.20红细胞记数(a)频数直方图(b)频率密度直方图图1.3据120名正常成年男子红细胞计数(1012/L)的频数表绘制第三节样本平均水平的度量数字描述,对连续型变量我们常着重描述两个特征:平均水平和变异 性。根据不同的分布规律可选取不同的指标来描述一组变异值的平均水 平。现介绍三种常用的指标。1. 算术均数(arithm

8、etic mean)适用情形:当样本值的频数直方图接近对称时,能较好地代表其平均 水平的指标是算术均数,简称均数(mean, average),它是样本观察值的 总和除以个体值数目。(1)直接法:记各个体的观察值为x , x , , x,算术均数为厂,则12nx + x + + x 3 x.X = 12n = i=1 nn(2 )频数表法:当不掌握原始数据而只有频数表时,可利用频数表来近 似计算算术均数,称为频数表法。通常取各组段的组中值作为该段的代表值。用数学公式可表示为:zfx.x = i=1 i i = * 一n i * 11 n)利用频数表计算的样本均数等于组中值的加权平均,权重系数为

9、频数。2. 几何均数(geometric mean):是将n个观察值X的乘积再开n次方所得的 根。若对各观察值乂取对数,对数值均值的反对数即为G。适用情形:如果原始变量经对数转换后近似对称分布,适用几何均数。常用于微生物学和免疫学指标。一般地,设样本中几个个体值均大于零,记为x ,x ,.,x ,几何均数 12n记为 X,则:X = log -1 f 崛 X1+ lOg X2 + - + lOg Xn )gg kn)或X = n x X Xg1 2 n几何均数的计算可参考算术均数的计算,唯一不同的是需要在计算前将变量取对数,最后将结果转换回其真值。3.中位数(median):已知原始数据,由小

10、到大排序,x ,x ,.,x,设某12n观察值,有50%的观察值小于它,有50%的观察值大于它,称该观察值为中 位数。适用情形:数据分布非对称的情形,开口资料。例:1, 1, 2, 2, 3, 4, 6, 9, 10 ( n = 9,为奇数)Md =第5位=3一般,Md =第n(50%) 05 位例:1 , 1 , 2 , 2 , 3 , 4 , 6 , 9 , 10 , 13( n=10,为偶数)Md =第5位和第6位的平均=(3+4)/2一般,Md =第n(50%)位和其后一位的平均第四节样本变异性的度量 平均数仅描述了一组数据的集中趋势,由于变异的客观存在,需要一类指标 描述资料的离散趋

11、势。两者结合使用才能对数据进行全面的统计学描述。例:三组同年龄、同性别儿童体重(kg )数据如下:甲组2628303234乙组2427303336丙组2629303134常用的指标:极差或全距,四分位数间距,方差与标准差,变异系数1.极差或全距R:极差=最大值一最小值2.四分位数间距Q:Q = 75%分位数一 25%分位数3. 方差与标准差:充分利用全部个体的信息。离均差=个体值一总体均数=x ,离均差之和=0i (离均差)2总体方差。2 = (离均差)2的平均总体标准差,总体均数常不知道,用样本均数代替离均差=个体值一样本均数=X -XI(离均差)2= (x x)2 + (x x)2 + (

12、x x)2 (变小了!)12n样本方差:(X - x)2 +(X _ )2 + . +(X _ x)2S2 =12nT、(让分母也变小)z(x -X)2i i其中,n-1称为自由度。样本标准差,:s = (二_ :)2 nX计算公式:4.变异系数(coefficient of variation , CV )CV_ sX例:均数标准差变异系数青年男子身高170 cm6 cm0.035体重60 kg7 kg0.117第五节相对数与率的标准化一、比、频率和强度:1.比(ratio):任两个量之比值。例:新生儿性别比=男性新生儿数/女性新生儿数体块指数=体重/ (身高)22. 频率(frquency

13、):是一种特定形式的比,分子和分母都是计数值, 而分子又是分母的一部份。对于一份随机样本,当分母适当大时,频率近似地描述某事件在总体 中发生的机会。例如,医治100例病人,90例痊愈,则治愈率=治愈人数=90 = 90%治疗人数100频率没有量纲,可表示为0,1区间上的百分比或小数。3.强度(intensity):是另一种特殊类型的比,分母是一定时期内总的观察人-年,分子是该时期内某事件的发生数。例如,某年死亡率(mortality rate)的定义为:某年死亡率=该年内死亡人数该年内暴露于死亡危险的人年数分子的量纲为“人”分母的量纲为“人x年”,死亡率的量纲为“人/ (人x年)”或“ 1/年”。如果分子看作是“校正的总人数x1年”,则死亡率可以看作是一年内 校正的死亡频率。一般来说,强度可以理解为“单位时间内的频率”,它反映单位时间 内某事件发生的机会。因为不同性质的相对数所适用的统计方法有所不同,如欲就某个相对数通过样本推断总

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号