医学统计学2课件

上传人:aa****6 文档编号:54250502 上传时间:2018-09-10 格式:PPT 页数:191 大小:7.64MB
返回 下载 相关 举报
医学统计学2课件_第1页
第1页 / 共191页
医学统计学2课件_第2页
第2页 / 共191页
医学统计学2课件_第3页
第3页 / 共191页
医学统计学2课件_第4页
第4页 / 共191页
医学统计学2课件_第5页
第5页 / 共191页
点击查看更多>>
资源描述

《医学统计学2课件》由会员分享,可在线阅读,更多相关《医学统计学2课件(191页珍藏版)》请在金锄头文库上搜索。

1、医学统计学 (2),方法的 类型,研究和应用程度,统计学,理论统计学,应用统计学,描述统计学,推断统计学,在中医药科研实践中通过观察、调查、实验等方式搜集到的各种资料含有大量信息,由此揭示或表达样本信息特征,不仅需要依据相关专业知识,还需借助适当的统计学方法和手段。 统计描述又称描述性统计,是运用适宜的统计指标、统计表、统计图等方法,对研究对象(变量)的分布类型和数量特征进行展示的过程。 通过统计描述,可了解研究对象的基本特征,便于对样本资料作进一步的统计分析。,频数分布 正态分布 数值变量的统计描述 分类变量的统计描述 统计表 统计图,频数表及频数图是统计描述的基本内容,也是揭示样本数据分布

2、特征的基本手段。,频数表又称频数分布表,是将某变量各组段及其相应的频数按一定顺序排列而成的表格形式,主要用于描述数据的分布特征,是对样本含量较大的资料进行统计描述的常用方法。,【例2-1】随机抽取某年某地120例正常人血清铜的含量,见表2-1,试编制频数表。,1.数值资料频数表的编制,(1)找出120例血清铁数据的最小值(9.23)与最大值(19.84)。 (2)计算全距(range,R),也称为极差。R=最大值一最小值=19.849.2310.61 (3)确定组段数(k):组段数应根据研究目的和观察值多少而定,当n100时,通常取1015组,不宜过粗或过细。本例n=120,可先将原始资料粗略

3、定为11组。 (4)确定组距(i):组距等于全距比组数,一般等距分组。 i=R/k 本例中:i=10.61/11=0.9651,频数表的手工编制方法,(5)确定组段:第一组段应包括最小值,最后一个组段应包括最大值。每一组段的起始值称为下限,终点值称为上限(即下一组段的下限),为避免汇总时的重复,组段不包括本组段的“上限”,但最后一个组段应同时写出下限和上限。如本例最小值为9.23 ,为计算方便,第一组段的下限取9.00 ,然后每隔一个组距列一个组段,直至最后一个组段19.0020.00 。 ( 6 )列表并统计频数,还可计算频率、累计频数和累计频率,见表2-2。,表中:组中值=(上组段下限值+

4、下组段下限值)/2; 频数即各组段内观察值的个数; 频率即各组段频数与总观察值个数之比,一般用百分数表示; 累计频数是由上至下将频数累加; 累计频率是由上至下将频率累加。 从本例的分布可见:以第六组段(14.00)分布的数据最多,22例,占18.3%,且以该组段为中心呈对称分布,小于15.00umol/L的数据占59.1%。,SPSS软件绘制频数表,对【例2-1】资料进行统计描述,2.分类资料频数表的编制,(1)一维频数表:用分类资料的分类水平代替上述数值资料频数表的组段,然后通过分类计数便可编制其频数表,见表2-3。,(2)二维频数表:分类资料的二维频数表在各种医学杂志中较为常见。按分类资料

5、的分类水平特征,可组合成各种不同的二维表,不同二维表名称见表2-4 。,(3)配对设计分类资料的频数表:同一研究对象同时接受两种不同的处理,观测的结果为属性相同的分类资料时,这样就形成了配对设计的分类资料,可用行数与列数相同的方形表归纳其频数分布,见表2-5。,频数图是在频数表基础上,以直方(或直条)的面积大小表示频数的多少或频率的大小的图形,可直观显示数据的分布类型和特征。,1 .数值资料频数图直方图的绘制,(1)等距分组:横轴表示随机变量,纵轴表示频数(或频率)。表2-1资料的频数图,见图2-1。,SPSS绘制频数图,(2)不等距分组:横轴表示变量,纵轴是每个横轴单位的频数。表2-6资料的

6、频数图,见图2-2。,2.分类资料频数图直条图的绘制,频数表和频数图的用途,1.描述频数分布的类型 资料的频数分布类型有对称分布和偏态分布两种。 如果频数分布集中位置(单峰最高处)在中间,左右两侧频数大体对称,称为对称分布。 如果频数分布不对称,集中位置偏向一侧,则称为偏态分布。若集中位置偏向观察值小的一侧,称为正偏态,又称右偏态。若集中位置偏向观察值大的一侧,称为负偏态,又称左偏态。 不同资料的频数分布类型,见图2-4。对于不同频数分布类型的资料,应选用不同的统计方法进行分析。,描述频数分布形态的统计量有两个:峰度系数和偏度系数。 理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏

7、态;取负值时,分布为正偏态。 正态分布的总体峰度系数为0;取负值时,分布为平阔峰;取正值时,分布为尖峭峰。 正态分布是一种特殊的以集中性、对称性和均匀变动性为特点的对称分布,故无论尖峭峰或平阔峰,均为非正态分布。,2.展示频数分布的特征 频数分布有两个重要特征:一是集中趋势,反映一组观察值的中心位置或平均水平;二是离散趋势,反映观察值之间参差不齐的程度。对数值变量资料作统计描述,就是用统计指标将这两个重要特征数量化。 3.便于发现某些特大或特小的异常值 对资料中出现的异常值应谨慎对待,必要时对原始资料进行核实,并再次进行观察或测量。若条件不允许再次观察或测量,在有充分依据的前提下,可将异常值予

8、以剔除,然后再做统计描述和分析。 4.有利于进一步计算有关指标和统计分析处理,频数分布 正态分布 数值变量的统计描述 分类变量的统计描述 统计表 统计图,正态分布是生物医学和统计学上极其重要的一种分布,医学研究的很多指标都服从或近似服从正态分布。 在统计学上,很多分布都是由正态分布导出,同时正态分布又是多种分布的极限分布。,正态分布( normal distribution):是描述连续型随机变量最重要的分布。其分布曲线叫正态分布曲线,呈中间高,两边低,左右基本对称的“钟型”曲线,又称高斯分布。,正态分布由德国数学家 Gauss 在描述误差分布时所发现,并加以推广,所以通常称为高斯分布(Gau

9、ss distribution)。,高 斯,10马克的钱币,正态分布的公式,和是正态分布的两个参数,和决定了x的概率分布;习惯上用 N (, 2)表示均数为,标准差为的正态分布。,正态分布的特征,(1)集中性:正态分布是一条单峰分布,高峰位置在均数处。 (2)对称性:正态分布以均数为中心,左右完全对称。 (3)正态分布曲线的形态取决于两个参数,即总体均数和总体标准差。 (4)正态分布曲线下的面积分布具有一定的规律性。,当固定不变时,越大,曲线沿横轴 越向右移动;反之, 越小,则曲线沿横轴越向左移动,所以叫正态曲线N(, 2)的位置参数, 。,1. 位置参数:,正态分布位置随参数变换示意图,2.

10、 形状参数:,正态分布形态随参数变换示意图,当固定不变时,越大,曲线越平阔; 越小,曲线越尖峭, 叫正态曲线N(, 2)的形状参数。,正态分布面积分布规律,(1)正态分布曲线与横轴所夹面积为1。 (2)区间在(-, +)内的面积或概率为0.683,此区间之外概率为0.317,左右两侧各0.1585。 (3)区间在(-1.96, +1.96)内的面积或概率为0.95,此区间之外概率为0.05,左右两侧各0.025。 (4)区间在(-2.58, +2.58)内的面积或概率为0.99,此区间之外概率为0.01,左右两侧各0.005。,正态分布应用于以下 3 个方面: 1.制定医学参考值范围 2.质量

11、控制 3.统计方法的理论基础,正态分布的应用,1.制定医学参考值范围,参考值范围(reference range):指所谓“正常人”的解剖、生理、生化等指标的波动范围。,制定方法: 制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。 测量样本人群相应指标的值,测量的过程中要严格控制各种误差。 而后根据指标的实际用途确定单侧或双侧界值,根据研究目的和使用要求选定适当的百分界值,常用95%。,单侧临界值:标准正态分布单侧尾部面积等于时所对应的正侧变量值,记作Z。,双侧临界值:标准正态分布双侧尾部面积之和等于时所对应的正侧变量值,记作Z/2。,以不同的方法计算参考值范围:,举例1:调查某地

12、120名健康女性血红蛋白,直方图显示其分布近似正态,均数 X =117.4, 标准差S =10.2 ,试估计该地 健康女性血红蛋白的95%参考值范围。,解析:,1. 分布近似正态,2. 过高过低均为异常,3. 求上、下界值,上界:,下界:,所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。,举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。,解析:,1. 分布近似正态,2. 仅过低为异常,3. 求下界值,下界:,所以,该地健康成年男子第一秒肺通气量的95%参

13、考值范围为不低于3.05(L)。,2.质量控制,基本原理: 许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。,质量控制领域的“3原则”:其意义是指正常情况下检测误差服从正态分布,根据正态分布的曲线面积或概率分布理论可知,3之外的观察值出现的概率不到3,如果超过这一值,则提示测量或产品质量有问题。 统计学规定:以x为中心线,x2S 为警戒线,x3S为控制线,根据以上的规定还可以绘制出质量控制图。,中心线,警戒线,控制线,控制线,警戒线,3.统计方法的理论基础t 分布、F 分布、x2分布都是在正态分布的基础上推导出

14、来的,u 检验也是以正态分布为基础的。二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。,频数分布 正态分布 数值变量的统计描述 分类变量的统计描述 统计表 统计图,从数值资料的频数表和频数图中虽可以看出观察值的分布情况,但为了揭示数据的基本特征,还需用可量化指标作进一步的统计描述分析。 数值资料的统计描述,它包括集中趋势和离散趋势的统计描述。,(一)集中趋势的统计描述,描述数值资料集中趋势的代表性指标为平均数。 平均数是反映一组观察值(变量值)集中趋势、中心位置或平均水平的重要统计指标,其主要作用包括:作为一组观察值的代表值,表明该组观察值集中趋势的特征。

15、便于对同类研究对象进行对比分析。,按使用条件和计算方法不同,平均数分为许多种。常用的有算术均数、几何均数和中位数等。 1.算术均数(arithmetic mean),简称均数(mean),它等于所有观察值之和除以观察值的个数。表示一组性质相同的观察值在数量上的平均水平,适用于呈对称分布,尤其是正态分布的数值资料的集中趋势描述。如正常人生理、生化的大多数指标,如身高、体重、血红蛋白含量、白细胞计数等均适合用均数描述其集中趋势。 总体均数用希腊字母表示,样本均数用x(读作 x bar)表示。,计算方法有两种,2.几何均数(geometric mean),是n个数值乘积的n次方根,表示一组资料在比例

16、或倍数上的平均,用G表示。 适用于对数正态分布资料(有些数值资料,原始数据不服从正态分布,若将数据转换成对数后的资料服从正态分布)和观察值之间呈等比关系的资料。如某些疾病的潜伏期、抗体滴度或平均效价等。,SPSS计算几何均数,3.中位数(median),将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,用M表示。它表示位次上的平均,不受两端极值的影响。 中位数适用于任何一种分布的数值变量资料,一般多用于描述偏态分布或数据一端或两端无确切值的开口资料(如n60)的集中趋势。,百分位数(percentile)是一个位置指标,用px表示。 把一组变量值由小到大依次排列,将位次平均分成100等份,与第x百分位数相应的变量值称为第x百分位数。 一个百分位数可将一组变量值分为两部分,理论上有 nx%个变量值比它小,有n(1-x%)个变量值比它大。所以百分位数是一个界值或分割值。百分位数常用于描述一组偏态分布的大样本资料在某个百分位置上的水平及确定偏态分布资料的医学正常值范围。中位数是一个特定的百分位数,即p50。 计算百分位数的公式为:,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号