计量资料的统计分析ppt课件

资源描述

《计量资料的统计分析ppt课件》由会员分享，可在线阅读，更多相关《计量资料的统计分析ppt课件（70页珍藏版）》请在金锄头文库上搜索。

1、第四章统计描述,第一节频数分布,一、计量资料的频数分布表例1 某年某市120名12岁健康男孩身高测量资料,找出全距即最大值与最小值之差。全距（R）= 160.9125.9 = 35 确定组距为相邻两组段最小值之差。通常以R的1/10进行估计。组距（i）= 全距（R）/10 = 35/10 = 3.5 可取i =4。划分组段每个组段应有一个起始值作为组下限和一个终止值作为组上限；第一个组段应包括最小值，最后一个组段应包括最大值；组段数一般取815个；为避免相邻两组段界限互相包含，除最末一个组段外，其余组段只写下限。整理频数分布计算各组段频数、累计频数和累计频率。,表1 12

2、0名12岁健康男孩身高的频数分布表,二、计数资料和等级资料的频数分布表1、计数资料的频数分布表表2 100名大学生性别的频数分布表,2、等级资料的频数分布表表3 100名大学生性别的频数分布表,三、频数分布表的作用 1、揭示资料的频数分布特征与类型（1）频数分布的特征集中趋势反映变量值平均的数量水平。离散趋势反映变量值相互之间变异的程度。（2）频数分布的类型对称分布集中位置居中，左右两侧的频数基本一致。非对称分布集中位置偏向一侧，左右两侧频数不一致。 2、观察离群值便于发现一些特大、特小的可疑值。,第二节计量资料的统计描述,一、集中趋势的描述含义集中趋势是指计量资料中，所有观

3、察值的中心位置。反映一组同质变量值的平均数量水平。常用指标算术平均数、几何平均数、中位数,1、算术均数（arithmetic mean）简称均数（mean），用x及表示。适用范围变量值呈对称分布，尤其是正态分布的计量资料计算方法直接法变量值个数不多，直接相加除以变量值个数。加权法变量值较多或频数表资料。,表1 120名12岁健康男孩身高的频数分布表,2、几何均数（geometric mean, G）适用范围变量值呈对数对称分布等比级数资料计算方法直接法变量值个数不多，直接将其乘积开n次方。加权法变量值较多或频数表资料。,表4 100名患者抗体滴度的频数分布表,

4、3、中位数（median, M）一组按大小顺序排列的变量值，位次居中的数值即中位数。适用范围变量值呈偏态分布分布类型不清变量值的一端（或两端）无确定数值开口型资料计算方法直接法变量值个数不多。频数表法变量值个数较多，先整理频数表。,二、离散趋势的描述含义离散趋势是指计量资料所有观察值偏离中心位置的程度，反映一组同质变量值相互之间参差不齐的程度，即离散度或变异度。常用指标全距、方差、标准差、变异系数。,1、全距（range, R）又称极差，是一组变量值中最大值与最小值的差。优点计算简单缺点仅考虑了资料的最大值和最小值，不能反映组内其它数据的变异程度。,2、百分位

5、数（percentile）含义又是一个位置指标，用Xp%。它表示在按照升序排列的数列中，其左侧（即小于Xp%侧）的观察值个数在整个样本中所占百分比为p%，其右侧（即大于Xp%侧）的观察值个数在整个样本中所占百分比为（100-p）% 计算式中：是百分位数，L是所在组段的下限，i是该组段的组距，fp是该组段的频数，n是总频数，fl是该组段以前的各组段的累计频数。,四分位数（quartile）四分位间距（quartile range, Q）含义统计学将3个特殊的分位数X25%、 X50%、 X75%统称为四分位数。 X25%：记为Q1，称作第一四分位数； X50% ：记为Q2，称作第二四分

6、位数； X75% ：记为Q3，称作第三四分位数；并且将与差值称为四分位间距（quartile range, Q）计算 Q= Q3 Q1,3、方差（variance）用2和s2表示。离均差的和离均差的平方和方差方差反映变量值变异程度的大小，方差越大，说明变量值的变异程度越大；方差越小，说明变异程度越小。优点全面考虑了一组变量值中的每一个数据。缺点将变量值的单位进行了平方。,4、标准差（standard deviation, SD）用和s表示。计算方法直接法加权法标准差反映变量值变异程度的大小，。,标准差的应用表示一组变量值变异程度标准差越大，说明变量值的变异程度越大，即变量值围绕均数

7、的分布较离散，均数的代表性较差；标准差越小，表示变量值的变异程度越小，即变量值围绕均数的分布较密集，均数的代表性较好。计算变异系数当两组变量值单位不同，或两均数相差较大时，不能直接用标准差比较其变异程度，需要用变异系数做比较。估计变量值的频数分布计算标准误,5、变异系数（coefficient of variation, CV）含义是一个度量相对离散程度的指标。计算例1：某地20岁男子身高均数为166.06cm，标准差为4.95cm，体重均数为53.72kg，标准差为4.96kg，试比较身高与体重的变异程度。例2：该地新生男婴的平均身高为50cm，标准差为3.0cm，试比较该地2

8、0岁男子与新生男婴的变异程度。,例1：身高 CV = 4.95/166.06 100% = 2.98%体重 CV = 4.96/53.72 100% = 9.23%例2：新生儿 CV = 3/50 100%= 6%,第六章参数估计,几种重要的连续性随机变量分布：正态分布标准正态分布t分布见P72第五章第四、五节,正态分布 (normal distribution) 一、正态分布的概念正态分布是一种连续性随机变量常见而重要的分布。二、正态分布的特征1、在直角坐标的横轴（X轴）上方呈钟型曲线，以X=为对称轴左右完全对称，但与X轴永不相交；2、在X=处有最大值；X越远离，曲线位置越低；3、取

9、决于两个重要参数表示方式：：位置参数；：形状参数表示方式：（， 2）,三、正态分布的面积规律,正态分布曲线下面积分布规律范围内的面积占正态分布曲线下总面积的68.27%，即有68.27%的变量值分布在此范围内； 1.96范围内的面积占正态分布曲线下总面积的95.00% ，即有95.00%的变量值分布在此范围内；2.58 范围内的面积占正态分布曲线下总面积的99.00%，即有99.00%的变量值分布在此范围内；,四、正态分布的应用估计医学正常值范围；正常值范围的含义正常值范围的计算公式 x us质量控制x 2s 上、下警戒值x 3s 上、下控制值表5 常用的u界值表是其它许多统计方法的理

10、论基础,标准正态分布 (standard normal distribution) 正态分布是一个分布簇，对应于不同参数其位置和形状均不相同，为应用方便，可进行变量转换：式中的u值称为标准正态变量，其频数曲线图即为标准正态分布（ u分布），一般的正态分布N(,2)即转化为标准正态分布N(0,1)。其面积分布可直接查表。,t 分布 (t- distribution) 一、t 分布的概念由于样本均数服从总体均数为、总体标准差为的正态分布N(,2) ，因此可同样进行u变换（），将其转换为u分布N(0,12) 。实际工作中，由于未知，用替代，则（）不再服从标准正态分布，而服从t分布。,t

11、分布 (t- distribution) 二、t分布的图形与特征1、t 分布是一簇对称的、均数为 0 的单峰分布曲线；2、当自由度不同时，曲线的形状不同；3、越小，则t值越分散， t 分布的峰部越矮而尾部翘得越高；随着增大，t 分布曲线越来越接近于标准正态分布曲线，当时， t 分布逼近标准正态分布。三、 t分布的界值,第一节抽样分布与抽样误差,一、样本均数的抽样分布与抽样误差抽样误差的概念由抽样而引起的样本均数与总体均数之间的差别。（抽样研究中不可避免，有两种表现形式）样本均数的抽样分布从一个正态的总体中进行随机抽样：各样本均数未必等于总体均数；各样本均数间存在差异；样本

12、均数的频数分布仍是以总体均数为中心的正态分布；样本均数的变异范围较原变量的变异范围小；随着样本量的增大，样本均数的变异范围逐渐缩小。,标准误的意义及其计算含义样本均数的标准差即标准误。它表示样本均数间的离散程度，标准误越小，说明抽样误差越小，表示样本均数与总体均数较接近。反之，标准误越大，说明抽样误差大，表示样本均数距总体均数较远。影响抽样误差的因素样本含量总体内各个体间的离散程度即变异程度计算公式,以上表明：1、从正态分布N(,2)的总体中随机抽取样本量为n的样本，其样本均数因样本而异，但服从正态分布N (,2/n)。即样本均数的总体均数与观察值X的总体均数相同，样本均数的标准

13、差是观察值X的标准差的。2、在非正态分布总体中进行类似抽样，如样本量较大时（如n30），样本均数的分布接近正态分布，标准误仍然是X的标准差的倍。,标准误的应用表示抽样误差的大小，说明样本均数的可靠性用以估计总体均数的可信区间应用标准误进行均数的假设检验,第二节总体均数的估计,样本均数推论总体均数的方法两种方法：点值估计与区间估计一、点值估计 1、含义 2、优缺点,二、区间估计 1、可信区间的含义 2、可信区间的计算样本含量较大：样本含量较小,第七章假设检验,第一节假设检验的概念假设检验（hypothesis testing）的概念也称显著性检验（significance

14、test），是判断样本均数与总体均数之间或样本均数之间的差别有无意义的一种统计分析方法。假设检验的引入例：某年某地随机抽样调查了17岁男、女青年坐高，得资料如下表，问该地17岁男、女青年坐高是否有差别？,第二节假设检验的基本步骤建立假设H0：无效假设，零假设。是假设样本指标之间的差别是由单纯抽样的随机性所致即抽样误差，而不是真正两总体的差别。H1：备择假设。是假设样本指标之间的差别不是单纯由于抽样误差所致，而是两总体均数存在本质差别。确定检验水准即显著性水准，用表示。它是判断差别有无意义的概率水准（拒绝H1所允许犯错误的概率）。其大小应根据分析要求确定。通常取=0.05或=0.01。检验

15、水准取双侧概率时记为 /2。,选定检验方法和计算检验统计量根据研究设计的类型和统计推断的目的要求选用不同的检验方法。确定概率P值P值是指在H0所规定的总体中作随机抽样，获得等于及大于（或小于）现有统计量的概率。当求得统计量后，一般可根据有关统计用表查得P值。在=0.05的检验水准上：t0.05，差别无统计学意义（差别无显著性）t t0.05()时，则P 0 .05，差别有统计学意义（差别有显著性）,作出推断结论若P0.05，则接受H0 ，拒绝H1 ，认为两样本指标所代表的两总体指标间的差别无统计学意义，是由抽样误差所引起。若P 0 .05，则接受H1 ，拒绝H0 ，认为两样本指标所代表的两总体指标间的差别有统计学意义，不可能由抽样误差所造成。,假设检验的基本思想：1、反证法的思想：事先对总体分布（通常是该分布的某个参数）作出某种假设，如果样本信息不支持该假设，则认为原假设不成立。2、根据“小概率事件”原理即小概率事件在一次试验中一般不会发生，用概率的思想决定是否拒绝原假设。,第三节 u (z)检验一、大样本均数比较的u 检验两个基本条件：样本数据服从正态分布已知总体方差（但如n60，可用样本样本标准差作为总体标准差的估计值主要适用于总体方差未知的大样本数据）,

展开阅读全文