武汉大学医学统计学串讲讲义演示文档

上传人:hs****ma 文档编号:567323017 上传时间:2024-07-19 格式:PPT 页数:540 大小:4.58MB
返回 下载 相关 举报
武汉大学医学统计学串讲讲义演示文档_第1页
第1页 / 共540页
武汉大学医学统计学串讲讲义演示文档_第2页
第2页 / 共540页
武汉大学医学统计学串讲讲义演示文档_第3页
第3页 / 共540页
武汉大学医学统计学串讲讲义演示文档_第4页
第4页 / 共540页
武汉大学医学统计学串讲讲义演示文档_第5页
第5页 / 共540页
点击查看更多>>
资源描述

《武汉大学医学统计学串讲讲义演示文档》由会员分享,可在线阅读,更多相关《武汉大学医学统计学串讲讲义演示文档(540页珍藏版)》请在金锄头文库上搜索。

1、医学统计学医学统计学武汉大学武汉大学.第一部分第一部分绪绪论论. 一、什么是统计学一、什么是统计学?Whats statistics?是一门是一门关于收集、整理和分析(统计)数据的科学关于收集、整理和分析(统计)数据的科学。医学统计学医学统计学是统计学方法在医学中的运用。是统计学方法在医学中的运用。医学研究中观测结果多为医学研究中观测结果多为随机事件随机事件,通过统计学方法可,通过统计学方法可以以揭示其内在规律揭示其内在规律。.(1)设计设计:design(2)收集资料收集资料collectionofdata(3)整理资料整理资料sortingdata(4 4)分析资料分析资料 analysi

2、sofdata二、二、统计工作的基本步骤统计工作的基本步骤1)专业设计)专业设计2)统计设计统计设计1)统计报表)统计报表2)医疗卫生工作记录)医疗卫生工作记录3)专题调查和实验)专题调查和实验1)对数据检查、核对)对数据检查、核对2)按分析要求分组、汇总)按分析要求分组、汇总1)统计描述统计描述 2)统计推断)统计推断 .用用定量方法测定得到定量方法测定得到,有有大小大小之分,之分,有有度量衡单位度量衡单位。三、三、统计资料类型统计资料类型(一)(一)计量资料计量资料measurementdata.将将观察单位观察单位按属性或类型分组按属性或类型分组计数计数所得的资料。所得的资料。分为:分为

3、:1、二项分类二项分类资料;资料; 2、多项分类多项分类资料。资料。(二)(二)计数资料计数资料 enumerationcountdata.(三)(三)等级资料等级资料 ranked ordinal data将将观察单位观察单位按某属性不同程度分组按某属性不同程度分组计数计数所所得的资料。得的资料。.例:测得一群人例:测得一群人Hb值(值(g/dL),此资料为),此资料为 计量资料计量资料 ; 按正常和异常分为两组,此时资料为按正常和异常分为两组,此时资料为 计数资料计数资料 ; 按量的多少分为按量的多少分为: 16 (Hb增高增高)。此时资料为。此时资料为 等级资料等级资料 。资料间的相互转

4、化资料间的相互转化.四、统计学的基本概念四、统计学的基本概念(一)(一)同质与变异同质与变异同质(同质(homogeneity)指指各观察指标受相同因素影响的部分各观察指标受相同因素影响的部分。变异(变异(variation)在在同质的基础上个体间的差异同质的基础上个体间的差异。.例某地某年用随机抽样方法检查了例某地某年用随机抽样方法检查了140名健康成年男名健康成年男子的红细胞数(子的红细胞数(1012/L),检测结果如下表:),检测结果如下表:4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.

5、935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93观察指标的观察指标的同质部分同质部分:“某地某年健康成年男子某地某年健康成年男子”观察指标的观察指标的变异部分变异部分:各个体间红细胞数间的差异各个体间红细胞数间的差异.医

6、学统计学的基本概念医学统计学的基本概念(二)总体与样本(二)总体与样本(population&sample)总体总体:是:是根据研究目的所确定的同质观察单位(某根据研究目的所确定的同质观察单位(某种变量值)的全体种变量值)的全体。1)有限有限总体总体(有时间、空间限制)(有时间、空间限制)例研究例研究2008年温州市肝癌死亡率。年温州市肝癌死亡率。2)无限无限总体总体例研究某药对高血压病的疗效。例研究某药对高血压病的疗效。样本样本:从:从总体中随机抽取一部分个体所组成的集合总体中随机抽取一部分个体所组成的集合。.医学统计学的基本概念医学统计学的基本概念(三)随机抽样(三)随机抽样1.单纯随机抽

7、样单纯随机抽样2.系统(机械)随机抽样系统(机械)随机抽样3.整群随机抽样整群随机抽样4.分层随机抽样分层随机抽样 从从总体中随机抽取部分个体的过程总体中随机抽取部分个体的过程。(。(总体中每一总体中每一个观察单位均有同等的机会被抽取到个观察单位均有同等的机会被抽取到) 随机抽样随机抽样是是样本客观反映总体情况的前提样本客观反映总体情况的前提。 随机抽样方法:随机抽样方法:.单纯随机抽样单纯随机抽样 即先将调查总体的全部观察单位编号,再随机抽取部分观察单位组成样本。例:欲了解某单位职工例:欲了解某单位职工HBsAg阳性率,该单阳性率,该单位有职工位有职工1000人,试按单纯随机抽样法,抽人,试

8、按单纯随机抽样法,抽取一例数为取一例数为100的样本。的样本。.系统随机抽样系统随机抽样又称又称等距抽样等距抽样或或机械抽样机械抽样,即,即先将总体的先将总体的观察单位按某一顺序号等分成观察单位按某一顺序号等分成n个部分个部分,再从,再从第第一部分随机抽第一部分随机抽第k号观察单位号观察单位,依次用相等间隔,依次用相等间隔,机械地从每一部分各抽一个观察单位组成样本机械地从每一部分各抽一个观察单位组成样本。例:欲了解某单位职工例:欲了解某单位职工HBsAg阳性率,该单阳性率,该单位有职工位有职工1000人,试按系统抽样法,抽取一人,试按系统抽样法,抽取一例数为例数为100的样本。的样本。.整群随

9、机抽样整群随机抽样 先先将总体划分为将总体划分为n n个群个群,每个群包括若干每个群包括若干观察单位观察单位,再随机抽取再随机抽取k k个群个群,并将被抽取的并将被抽取的各个群的全部观察单位组成样本各个群的全部观察单位组成样本。例:某校有例:某校有80个班级,各班学生个班级,各班学生50人,现人,现用锡克氏试验调查该校学生白喉易感率,用锡克氏试验调查该校学生白喉易感率,随机抽查了随机抽查了8个班的全部学生。个班的全部学生。.分层随机抽样分层随机抽样按有关影响因素把观察对象分成若干层次按有关影响因素把观察对象分成若干层次,然后然后将同一层次的观察对象进行随机抽取将同一层次的观察对象进行随机抽取。

10、例:欲了解某地人群例:欲了解某地人群HBsAg阳性率情况,阳性率情况,按年龄段、职业、性别等因素分层后进行按年龄段、职业、性别等因素分层后进行抽样。抽样。.医学统计学的基本概念医学统计学的基本概念(四)误差(四)误差 主要有:粗差、系统误差、随机误差(如测主要有:粗差、系统误差、随机误差(如测量误差、量误差、 抽样误差抽样误差等)等)问题问题:某中医师对某方剂进行改良,改良后的方剂:某中医师对某方剂进行改良,改良后的方剂治疗某病患者治疗某病患者30例,有效率为例,有效率为80%,原方剂治疗,原方剂治疗30例,例,有效率为有效率为60%,问两者有效率有无差别?,问两者有效率有无差别? 抽样误差抽

11、样误差:抽样引起抽样引起的的总体参数总体参数与与样本统计量样本统计量之间之间samplingerror 的的差别差别。.医学统计学的基本概念医学统计学的基本概念(五)参数与统计量(五)参数与统计量 (parameter&statistic) 参数参数: 统计量统计量: 检验统计量检验统计量:总体的特征量总体的特征量,如总体均数、,如总体均数、总体标准差等。总体标准差等。样本的统计指标样本的统计指标如样本均数、如样本均数、标准差等。标准差等。用于统计检验的样本指标用于统计检验的样本指标。 如如 t、u、x2、F 等等.均表示某事件发生可能性大小的量。均表示某事件发生可能性大小的量。(六)频率和概

12、率(六)频率和概率但:但:频率为变量频率为变量,fn(A)=m/n概率概率P(A)为常数为常数。若若n足够大,足够大,fn(A)P(A)小概率事件小概率事件P(A) 0.05“小概率事件一次是不太可能发生的小概率事件一次是不太可能发生的”医学统计学的基本概念医学统计学的基本概念.第二部分第二部分计量资料的统计描述计量资料的统计描述.第一节第一节计量资料的统计描述计量资料的统计描述一、计量资料的频数表一、计量资料的频数表二、集中趋势的描述二、集中趋势的描述三、离散程度的描述三、离散程度的描述.1、频数表的编制频数表的编制2、频数分布的特征频数分布的特征3、频数分布的类型频数分布的类型4、频数表的

13、用途频数表的用途一、计量资料的频数表一、计量资料的频数表.4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.8

14、54.595.084.824.93例某地用随机抽样方法检查了例某地用随机抽样方法检查了140名成年男子的红细胞名成年男子的红细胞数,检测结果如下表:数,检测结果如下表:.(1)求全距或极差求全距或极差(R) (2)定组段和组距定组段和组距(i) 1. 频数表的编制频数表的编制.(3)列出频数表列出频数表某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表红细胞数(红细胞数(1012/ L)频数频数3.80 24.00 64.20114.40254.60324.80275.00175.20135.40 45.60 25.80 1.2. 频数分布的特征频数分布的特征(1)集中趋势集中

15、趋势(2)离散趋势离散趋势.(1)对称分布对称分布 其中一种常见的类型为其中一种常见的类型为正态分布正态分布.(2)偏态分布偏态分布 有有正偏态正偏态、负偏态负偏态之分之分.3. 频数分布的类型频数分布的类型.4. 频数表的用途频数表的用途(1)了解资料的分布类型了解资料的分布类型.(2)发现异常值发现异常值.(3)在频数表的基础上计算有关指标在频数表的基础上计算有关指标。.1、算术均数算术均数 ,X2、几何均数几何均数 G3、中位数中位数 M二、集中趋势的描述二、集中趋势的描述.概念概念: 数值的平均数值的平均.计算计算: 1)直接法直接法: 例例2.1求某地求某地140名正常成年男子红细胞

16、数均值为名正常成年男子红细胞数均值为1. 均数(均数(mean) ,X .2)加权法加权法:RBCRBC(10101212/ / L L)组中值组中值 X X频数频数 f ffXfX3.803.90 27.804.004.10 624.64.204.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合计合计140( f)669.8 fx应用应用:对称分布对称分布,尤其是,尤其是正态分布正态分布.概念:指

17、概念:指一组数据的倍数平均一组数据的倍数平均。计算:计算:(1)直接法:直接法: 2. 几何均数几何均数 ( geometric mean, G ). 例:例:5份血清的抗体效价为份血清的抗体效价为1:10,1:100,1:1000,1:10000,1:100000,求其,求其平均效价。平均效价。或者:或者:1:10,1:100,1:1000,1:10000,1:100000的指数部分为:的指数部分为:-1,-2,-3,-4,-5,其平均值为,其平均值为-3,故,故G=10-3=1:1000.(2)加权法:)加权法:.何谓对数正态分布?何谓对数正态分布? 某资料由变量值某资料由变量值 X1,X

18、2, Xn组成,组成,已知其分布呈偏态已知其分布呈偏态。若每个变量值取对数若每个变量值取对数,如,如Y1=lgX1,Y2=lgX2, Yn=lgXn,且,且Y1,Y2, Yn呈正态分布呈正态分布。 此时,此时,将对数值还原为原始数值将对数值还原为原始数值,则:,则:应用应用: (1)变量值呈倍数关系变量值呈倍数关系 (2)对数正态分布对数正态分布. 3.中中位位数数M概念:是一组概念:是一组由小到大由小到大按顺序排列的观察按顺序排列的观察 值中值中位次居中位次居中的数值。的数值。计算:计算:(1)直接法直接法: n为奇数为奇数时时,n为偶数为偶数时时,某病患者某病患者9人发病潜伏期为人发病潜伏

19、期为2,3,3,3,4,5,6,9,16天天,求中位数。求中位数。若在第若在第20天又发现天又发现1例患者,则其中位数为:例患者,则其中位数为:3. 中位数中位数 (median M). 利用利用百分位数计算公式百分位数计算公式进行计算进行计算. 百分位数百分位数(PX)是一种位置指标是一种位置指标, 。中位数中位数是是一个特定的百分位数,即一个特定的百分位数,即M= P50 。(2)频数表法:频数表法:.百分位数计算公式:百分位数计算公式:.百分位数计算公式:百分位数计算公式:M.M.应用:应用:(1)偏态分布资料;偏态分布资料;(2)资料分布一端或两端有未确定值。资料分布一端或两端有未确定

20、值。.三三、离离散散程程度度的的描描述述例:例: 三组同性别、同年龄儿童的体重三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。)如下,分析其集中趋势与离散趋势。 甲组:甲组:26 28 30 32 34 均数:均数:X=30 Kg 乙组:乙组:24 27 30 33 36 均数:均数:X=30 Kg 丙组:丙组:26 29 30 31 34 均数:均数:X=30 Kg三、三、离散趋势的描述离散趋势的描述甲甲乙乙丙丙三组儿童体重的离散程度三组儿童体重的离散程度.描述离散程度的常用指标描述离散程度的常用指标1、全距(极差)全距(极差) (R)2、四分位数间距四分位数间距(QR)

21、3、方差(方差( 2 S2)和和 标准差标准差( 、S)4、变异系数变异系数 (CV). 反映一组反映一组同质观察值个体差异的范围同质观察值个体差异的范围。 R甲甲=8; R乙乙=12; R丙丙=8。 缺点(缺点(1)不能反映组内其它观察值的变不能反映组内其它观察值的变异度异度。 (2)样本含量越大,则全距可能也样本含量越大,则全距可能也越大越大。1. 全距(极差)全距(极差).即即P75P25 四分位数可看作四分位数可看作是一组同质观察值居中的是一组同质观察值居中的50%变量值的变异范围变量值的变异范围。2. 四分位数间距(四分位数间距(quartile range, QR) . 不受极值影

22、响,较稳定不受极值影响,较稳定。与全距比较有何优点?与全距比较有何优点?应用应用: (1)偏态分布偏态分布; (2)资料一端或两端有未确定值资料一端或两端有未确定值。.变量值的离散程度可看作是各个变量值距离变量值的离散程度可看作是各个变量值距离中心点(均数)的远近问题中心点(均数)的远近问题。 用算式表示:用算式表示: x x 但:但: x x=0=0 则求:则求: x x2 2 (离均差平方和)(离均差平方和) x x2 2 大小与变异度有关外,还与变量大小与变异度有关外,还与变量值个数(值个数(N N)有关)有关。 故:故:3. 方差(方差( 2 S2)和和 标准差(标准差( 、S)(va

23、riance & standard deviation) . 为了用原单位表示,开方即:为了用原单位表示,开方即:标准差或方差越大,说明个体差标准差或方差越大,说明个体差异越大,则均数的代表性越差异越大,则均数的代表性越差。. 实际工作中经常得到的是样本资料,总体均实际工作中经常得到的是样本资料,总体均数数 是不知道的,只能用样本均数来估计总体是不知道的,只能用样本均数来估计总体均数均数,这样:,这样: 用用 x x x x 2 2 代替代替 x x2 2 n n 代替代替 N N 但但这样算得结果常比真实这样算得结果常比真实 低低。 因此,因此,统计学家提出用统计学家提出用n-1来校正来校正

24、。.即:样本标准差(即:样本标准差(S)S2称为称为样本方差样本方差. 式中式中n-1称为自由度称为自由度,用希腊字母,用希腊字母 (ju:psilen)表示。表示。自由度的概念:自由度的概念: 是指是指随机变量能自由取值的个数随机变量能自由取值的个数。 例:例:X+Y+Z=10 = 2 又例:又例:当当样本均数一定时,随机变量可以自由取样本均数一定时,随机变量可以自由取值的变量值个数只能是值的变量值个数只能是n-1个个。.计算:计算: 1)不分组资料:)不分组资料:例:例:三组同性别、同年龄儿童的体重(三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。如下,分析其集中趋势与

25、离散趋势。甲组:甲组:2628303234均数:均数:X=30Kg乙组:乙组:2427303336均数:均数:X=30Kg丙组:丙组:2629303134均数:均数:X=30Kg计算得:计算得:S甲甲=3.16,S乙乙=4.74,S丙丙=2.92. 2)分组资料:)分组资料:计算得:计算得:S=0.38(1012/L)RBCRBC(10101212/ / L L)组中值组中值 X X频数频数 f ffXfXfXfX2 23.803.90 27.8030.424.004.10 624.64.204.301147.34.404.5025112.54.604.7032150.44.804.90271

26、32.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合计合计140( f)669.8 fx3224.20.应用应用:对称分布对称分布,尤其是,尤其是正态分布正态分布.应用应用:(1)比较)比较单位不同单位不同的几组资料的变异的几组资料的变异程度程度(2)比较)比较均数相差悬殊均数相差悬殊的几组资料的的几组资料的变异程度变异程度4.变异系数(变异系数(CV). 例例2.9 某地调查某地调查110名名18岁男大学生,其身岁男大学生,其身高均数为高均数为172.73cm,标准差为,标准差为4.09cm;其体

27、;其体重均数为重均数为55.04kg,标准差为,标准差为4.10kg,试比较,试比较两者变异度。两者变异度。. 某卫生防疫站对某卫生防疫站对3030名麻疹易感儿童经气溶胶免疫一个月后名麻疹易感儿童经气溶胶免疫一个月后, ,测测得其血凝抑制抗体滴度资料如下得其血凝抑制抗体滴度资料如下, ,试计算其平均滴度试计算其平均滴度抗体滴度抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:5121:8 1:16 1:32 1:64 1:128 1:256 1:512 例例 数数 2 6 5 10 4 2 12 6 5 10 4 2 1. 某市某市19741974年为了解该地居民发汞

28、的基础水平年为了解该地居民发汞的基础水平, , 为汞污染为汞污染的环境监测积累资料的环境监测积累资料, , 调查了留住该市一年以上调查了留住该市一年以上, , 无明显肝、无明显肝、肾疾病,无汞作业接触史的居民肾疾病,无汞作业接触史的居民238 238 人的发汞含量如下人的发汞含量如下: :用何种指标说明本资料的集中位置和变异程度较好?并计算之; . 某检验师测定了10名正常成年钢铁工人的血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大? 血红蛋白(g/dL) 13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16

29、.0血细胞数(万/mm3) 510 515 517 518 520 522 524 525 528 530.第二部分 数值变量的描述性统计统计图表;统计指标。.第一节 频数分布一. 编制频数表的步骤求极差R=84-57cm=27(次/分)划分组段确定组数:较大样本时,一般取10组左右。确定组距:极差/组数=27/10=2.73(次/分)确定各组段的上下限:上限=下限+组距统计各组段内的数据频数,编制频数表. 表2.1 130名健康成年男子脉搏(次/分)的频数分布表脉搏组段 (1)频数(2)频率(%) (3)累计频数 (4)累计频率(%) (5)5659626568717477808385合计2

30、51215252619151011301.543.859.2311.5419.2320.0014.6211.547.690.7727193459851041191291301.545.3814.6226.1545.3865.3880.0091.5499.23100.00.二. 频数表的用途可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。便于进一步计算指标和统计处理。便于发现某些特大或特小的可疑值。.第二节 集中趋势的描述三种平均数算术均数几何均数中位数。.(一)算术均数(x)简称均数,适合于表达呈正态分布资料的平均水平。直接法: X=X1+Xnn=Xn例2-2:X=81+70+

31、66+6913=71.69(次/分).加权法X=fXf例: X=572+605+6312+84 1130=71.12(次/分).(二)几何均数(G)适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。G= n X1X2XnG=lg-1( )lgXn G=lg-1( )f lgXf.例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。抗体滴度人数 f滴度倒数 XlgX1:41:81:161:321:641:1281:2561:512145811641481632641282565120.60210.90311.20411.50511.80612.10

32、722.40822.7093G=lg-1(f lgXn)=lg-1(1 0.6021+4 0.9031+ +1 2.7093)40.=lg-1(4067.1282) =48G=1:48.(三)中位数(M)适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。.对于原始数据和频数分布表资料,分别用下列两式计算中位数。M=(X n/2+X(n/2+1) )/2 (n为偶数)X(n+1)/2(n为奇数)M = LM + iMfM(n2 fL ) 其中, LM :中位数所在组下限; iM :中位数所在组的组距; fM :

33、中位数所在组的频数; fL :中位数所在组前一组的累计频数。.例2-4 表2.3 107正常人的尿铅含量(g/L)的中位数计算表含量( g/L ) (1)频数f(2)累计频数 f (3)累计频率 % (4)0481216202428合计1422291815612107143665839810410510713.0833.6460.7577.5791.5997.2098.13100.00M=8+ (107/2 - 36) = 10.41(g/L) 429.第三节 离散程度的描述例:设有三组同年龄、同性别儿童体重(kg)数据如下:甲组 26 28 30 32 34乙组 24 27 30 33 36

34、丙组 26 29 30 31 34 .描述离散程度的指标:极差、四分位数间距、方差、标准差、变异系数。.一. 极差(全距,R)为一组同质观察值中最大值与最小值之差。甲组 R=34-26=8乙组 R=36-24=12甲组数据分布较乙组集中。.优点:计算简单缺点:1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。2.样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。所以,一般不用极差来反映离散程度。.二. 四分位数间距(Q)1.分位数的概念分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面

35、积分为两部分。第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、 、第99百分位数,分别记作P2、P3、 、P99。显然,Q1=P25、Q2=P50=M、Q3=P75.2.百分位数的计算公式对连续型变量频数表资料,按下式计算第X百分位数PX:PX=LX+iXfX(nX%fL )其中, LX :第X百分位数所在组下限; iX :第X百分位数所在组的组距; fX :第X百分位数所在组的频数; fL :第X百分位数所在组前一组的累计频数。.例 某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的95%正常值范围。200例正常成人

36、血铅含量的频数分布表 血铅含量 频数 累计频数 (mol/L) (1) (2)00.240.480.720.971.211.451.691.932.172.422.662.903.14648433628131444120165497133161174188192196197199199200解:即求P95。nX%=20095%=190P95 =1.69+ (190-188)0.24 4=1.81 (mol/L) 故某地正常人血铅含量95%的单侧正常值范围的上限为 1.81 (mol/L)。 .3.四分位数间距(Q)Q=P75-P25Q=QU-QL优缺点:用四分位数间距作为描述数据分布离散程度的

37、指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。.2=(X-)2NS2=(X-X)2n - 1 n - 1称为自由度三.方差. =(X-)2NS=(X-X)2n - 1直接法; s=X2-( X)2/n由于(X-X)2 =X2-( X)2/n,所以n - 1加权法: s= fX2-( fX)2/ff - 1四.标准差.五. 变异系数(CV)CV=SX100%1.用于比较度量衡单位不同的多组资料的变异度。2.比较均数相差悬殊的多组资料的变异度。.一. 正态分布的概念和特征正态分布的图形:正态分布的密度函数:f(X)=1 2e-(X

38、-)22 2-X+ 通常用N( , 2)表示均数为、方差为2的正态分布。 第四节 正态分布.正态分布的特征1.正态曲线在横轴上方均数处最高;2.正态分布以均数为中心,左右对称;3.正态分布有两个参数,即均数与标准差。 是位置参数,当固定不变时, 越大,曲线沿横轴越向右移动; 越小,曲线沿横轴越向左移动。 是变异度参数,当固定不变时, 越大,曲线越矮平; 越小,曲线越尖峭。4.正态曲线下的面积分布有一定的规律。.常用的两个区间: 1.96 及2.58 的区间面积分别占总面积(或总观察例数)的95%及99%,如下图所示:95%2.5%2.5%-1.96 +1.96 99%-2.58 +2.58 0

39、.5%0.5%.二. 标准正态分布令 u=X- (u)=12e-u22- u+ 用N(0,1)表示标准正态分布.三. 正态分布的应用制定医学参考值范围许多统计方法的理论基础.参考值范围的制定参考值范围的制定正态分布法 百分位数法%909599双侧X1.64SX1.96SX 2.58S 单只有下限X-1.28SX-1.64SX-2.33S 侧只有上限X+1.28SX+1.64SX+2.33S双侧P5P95P2.5P97.5P0.5P99.5 单只有下限P10P5P1侧只有下限 P90 P95 P99.补充题 以下是101名30-49岁正常成年男子的血清总胆固醇(mmol/L)测定值的频数表,请据

40、此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆固醇值小于4.50 mmol/L的概率。血清总胆固醇2.53.03.54.04.55.05.56.06.57.07.5合计频数f1892325179621101fx2.752633.7597.75118.7589.2551.7537.513.57.25478.25fx27.5684.50126.56415.44564.06468.56297.56234.3891.1352.562342.31.3.抽样误差和 t

41、分布 Sampling error and t distribution .抽样误差的概念抽样误差的概念 由由抽样抽样引起的引起的样本统计量样本统计量与与总体参数总体参数间的差异间的差异 两种表现形式两种表现形式 样本统计量样本统计量与与总体参数总体参数间的差异间的差异样本统计量间的差异样本统计量间的差异 .抽样研究抽样研究 个体变异个体变异抽样误差产生的条件抽样误差产生的条件 .均数的抽样误差及标准误均数的抽样误差及标准误 表现一:表现一:样本均数样本均数与与总体均数总体均数之之差值差值表现二:表现二:多个样本均数间的离散度多个样本均数间的离散度.中心极限定理中心极限定理(central l

42、imit theorem) 从从均数为均数为 、标准差为标准差为 的的总体中独立随机抽样总体中独立随机抽样,当当样本含量样本含量n增加时增加时,样本均数的分布将趋于正态样本均数的分布将趋于正态分布分布,此,此分布的均数为分布的均数为 ,标准差为,标准差为.标准误标准误(standard error,SE)样本统计量的标准差样本统计量的标准差称为标准误,用来称为标准误,用来衡量抽样衡量抽样误差的大小误差的大小。样本均数的标准差样本均数的标准差称为称为标准误标准误。此。此标准误与个体标准误与个体变异变异 成正比成正比,与样本含量与样本含量n n的平方根成反比的平方根成反比。.实际工作中,实际工作中

43、, 往往是未知的,一般可往往是未知的,一般可用样本标准用样本标准差差s s代替代替 :因为因为标准差标准差s s随样本含量的增加而趋于稳定随样本含量的增加而趋于稳定,故,故增增加样本含量可以降低抽样误差加样本含量可以降低抽样误差。 .中心极限定理中心极限定理表明,表明,即使从非正态总体中随机即使从非正态总体中随机抽样抽样,只要样本含量足够大只要样本含量足够大,样本均数的分样本均数的分布也趋于正态分布布也趋于正态分布 ,见图,见图3.1 。.四个非正态分布的总体抽样结果四个非正态分布的总体抽样结果(A偏三角分布、偏三角分布、B均匀分布、均匀分布、C指数分布、指数分布、D双峰分布)双峰分布).图图

44、3.13.1描述了来自不同总体的样本均数之抽样误差和描述了来自不同总体的样本均数之抽样误差和抽样分布规律。抽样分布规律。事实上,任何一个样本统计量均有其事实上,任何一个样本统计量均有其分布分布。统计量的抽样分布规律是进行统计推断的理论统计量的抽样分布规律是进行统计推断的理论基础基础。 .标准差与标准误的联系和区别 联系联系都都是是变变异异指指标标。S S反反映映个个体体观观察察值值的的变变异异;反映统计量的变异反映统计量的变异。当当n n不变时,标准差不变时,标准差,标准误,标准误 .t分布分布设从设从正态分布正态分布N( , )中随机抽取含量为中随机抽取含量为n的样本的样本,样本,样本均数和

45、标准差分别为均数和标准差分别为 和和s,设:,设: 则则t值服从自由度为值服从自由度为n-1的的t分布分布(t-distribution)。Gosset于于1908年在年在生物统计生物统计杂志上发表该论文时用的是笔杂志上发表该论文时用的是笔名名“Student”,故,故t分布又称分布又称Student t分布分布。 . f(t) =(标准正态曲线) =5 =10.10.2-4-3-2-1012340.3图3.2 自由度分别为1、5、时的t分布 .t分布的特征分布的特征t分布为分布为一簇单峰分布曲线一簇单峰分布曲线t分布分布以以0为中心,左右对称为中心,左右对称t分分布布与与自自由由度度 有有关

46、关,自自由由度度越越小小,t分分布布的的峰峰越越低低,而而两两侧侧尾尾部部翘翘得得越越高高,;自自由由度度逐逐渐渐增增大大时时,t分分布布逐逐渐渐逼逼近近标标准准正正态态分分布布;当当自由度为无穷大时,自由度为无穷大时,t分布就是标准正态分布分布就是标准正态分布。 .t分布的特征分布的特征每一自由度下的每一自由度下的t分布曲线都有其自身分布规律分布曲线都有其自身分布规律t t分布表明,分布表明,从正态分布总体中随机抽取的样本,由样本计算的从正态分布总体中随机抽取的样本,由样本计算的t t值接近值接近0 0的可能性较大,远离的可能性较大,远离0 0的可能性较小的可能性较小。t t0.05,100

47、.05,102.2282.228,表明,从正态分布总体中抽取样本含量为,表明,从正态分布总体中抽取样本含量为n n=11=11的样本,则由的样本,则由该样本计算的该样本计算的t t值大于等于值大于等于2.2282.228的概率为的概率为0.0250.025,小于等于,小于等于- -2.2282.228的概率亦为的概率亦为0.0250.025。 P P( (t t-2.228)+-2.228)+P P( (t t2.228)2.228)0.05 0.05 或:或:P P(-2.228(-2.228tt100,故可以用标准正态分布代替,故可以用标准正态分布代替t分布,分布,u0.10=1.64 即

48、该地即该地12岁男孩平均身高的岁男孩平均身高的90可信区间为:可信区间为:141.77143.57(cm),可认为该地,可认为该地12岁男孩平均身高在岁男孩平均身高在141.77143.57(cm)之间。之间。 .-tt0.两均数之差的区间估计两均数之差的区间估计 设两样本之样本含量、均数和方差分别为:设两样本之样本含量、均数和方差分别为:n1,n2,,和和s12, s22,根据数理统计结果:,根据数理统计结果:服从自由度为服从自由度为 =n1+n2-2的的t分布。分布。.例4.3 某医生研究转铁蛋白对病毒性肝炎诊断的临床意义,测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量,结果如下,

49、试估计正常人和患者的转铁蛋白含量均数之差的95可信区间。正常人正常人(X1)265.4 271.5 284.6 291.3 254.8 275.9 281.7 268.6(n1=12)264.4 273.2 270.8 260.5 病病毒毒性性肝肝炎炎患患者者(X2)235.9 215.4 251.8 224.7 228.3 231.1 253.0 221.7(n2=15)218.8 233.8 230.9 240.7 256.9 260.7 224.4 . 根据资料算得:根据资料算得:s12=10.382s22=14.392自由度为自由度为 =n1+n2-2=12+15-2=25、 0.05

50、的的t界值为:界值为:t0.05,25=2.060(271.8917235.2067) 2.060 4.95=26.4846.88两组均数之差的两组均数之差的95可信区间为:可信区间为:可可以以认认为为病病毒毒性性肝肝炎炎患患者者的的血血清清转转铁铁蛋蛋白白含含量量较较正正常常人平均低人平均低36.68,其,其95CI为为26.4846.88。.率的可信区间率的可信区间 与均数一样,率也存在抽样误差 ,率的标准差又称率的标准误为: 率的抽样误差率的抽样误差.率的分布率的分布 当总体率当总体率 0.5时为正偏态,时为正偏态,当当 0.5时为负偏态,时为负偏态,当当 =0.5时为对称分布。时为对称

51、分布。只有当只有当n较大、率较大、率 和和(1- )都不太小时,例都不太小时,例如如n 和和n(1- )均大于均大于5时,率的抽样分布时,率的抽样分布近似于正态分布。近似于正态分布。.总体率总体率 的区间估计的区间估计 正态近似法 查表法.正态近似法正态近似法条件条件: 样本例数样本例数n足够大,且样本率足够大,且样本率p和和(1-p)都不都不 太小时,即太小时,即np和和n(1-p)均大于均大于5时,样本率时,样本率p 的抽样分布近似正态分布的抽样分布近似正态分布 (,)总体率总体率 的可信区间:的可信区间:.例例 从某地人群中随机抽取从某地人群中随机抽取144人,检查乙型肝炎表面人,检查乙

52、型肝炎表面抗原携带状况,阳性率为抗原携带状况,阳性率为9.20,求该地人群的乙型,求该地人群的乙型肝炎表面抗原阳性率的肝炎表面抗原阳性率的95可信区间。可信区间。 n =144,p=9.20 9595可信限为:可信限为:9.20%9.20%1.961.962.41%2.41%即该地人群的乙型肝炎表面抗原阳性率的即该地人群的乙型肝炎表面抗原阳性率的9595可信可信 区间为:区间为:4.48%4.48%13.92%13.92%。.查表法查表法例例4.5 有人调查有人调查29名非吸毒妇女,出狱时有名非吸毒妇女,出狱时有1名名HIV(人免疫缺陷病毒人免疫缺陷病毒)阳性,求阳性率阳性,求阳性率95可信区

53、间可信区间? 直接查附表直接查附表6.2,6.2,在行在行n=29, n=29, 列列x=1x=1交叉处交叉处0.10.117.817.8即即为为阳性率阳性率95可信区间可信区间.正确理解可信区间的涵义正确理解可信区间的涵义( (一一) ) 可信区间一旦形成,它要么包含总体参数,要么不包含总体参可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓数,二者必居其一,无概率可言。所谓95的可信度是针对可的可信度是针对可信区间的构建方法而言的。信区间的构建方法而言的。 以均数的可信区间为例,其涵义是:如果重复以均数的可信区间为例,其涵义是:如果重复100次抽样,每

54、次抽样,每次样本含量均为次样本含量均为n,每个样本均按,每个样本均按 构建可信区间,则在构建可信区间,则在此此100个可信区间内,理论上有个可信区间内,理论上有95个包含总体均数,而有个包含总体均数,而有5个不个不包含总体均数。包含总体均数。 .正确理解可信区间的涵义正确理解可信区间的涵义( (二二) )在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值 。.图4.1 100个来自N(0,1)的样本所估计的可信区间示意 .可信区间与参考值范围的区别可信区间与参考值范围的区别 可信区间用于估计总体参数,总体参数只有一个可信区间用于估计总体参数,总体参数只有一个 。参考值

55、范围用于估计变量值的分布范围,变量值可能参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限很多甚至无限 。95%的的可信区间中的可信区间中的95%95%是是可信度可信度,即所求可信区间,即所求可信区间包含总体参数的可信程度为包含总体参数的可信程度为95%95%95%95%的参考值范围中的的参考值范围中的95%95%是一个是一个比例比例,即所求参考值,即所求参考值范围包含了范围包含了95%95%的正常人。的正常人。.第五部分第五部分 假假 设设 检检 验验第一节第一节 假设检验的意义假设检验的意义第二节第二节 假设检验的思路假设检验的思路第三节第三节 假设检验的步骤假设检验的步骤第四节第

56、四节 假设检验的正确应用假设检验的正确应用第五节第五节 假设检验的几个相关问题假设检验的几个相关问题.总体总体是是100例正常成年男子的血红蛋白例正常成年男子的血红蛋白(单位:单位:g/L),从中随机抽取样本,从中随机抽取样本a1 和样本和样本 a2 ;总体;总体B是另外是另外100例正常成年男子的红细胞数,从中随例正常成年男子的红细胞数,从中随机抽取样本机抽取样本b ;三个样本的含量均为;三个样本的含量均为10例,有关例,有关数值如下:数值如下:a1/b1a2A1307.5131.9128.3B1408.2138.2.在知道A和B总体的参数时a1-a2抽样误差a1-b1本质差别.假如事先不知

57、道假如事先不知道A和和B是不是同一个总体是不是同一个总体a1-b1抽样误差本质差别?ABA=B.例例6.1 测得测得25例某病女性患者的血红蛋白例某病女性患者的血红蛋白(Hb),其,其均数为均数为150(g/L),标准差为,标准差为16.5(g/L)。而该地正。而该地正常成年女性的常成年女性的Hb均数为均数为132(g/L)。问该病女性患者。问该病女性患者的的Hb含量是否与正常女性含量是否与正常女性Hb含量不同?含量不同? 0 =132(g/L)n=25已知总体已知总体未知总体未知总体= ?.?目的:目的: 推断病人的平均血红蛋白推断病人的平均血红蛋白(未知总体均数未知总体均数 )与正常女性的

58、平均血红蛋白与正常女性的平均血红蛋白(已知总体已知总体均数均数 0)间有无差别间有无差别 = 0.手手头头样样本本对对应应的的未未知知总总体体均均数数等等于于已已知知总总体均数体均数0除抽样误差外,除抽样误差外,已知已知:,差别仅仅是由于抽样误差所致;差别仅仅是由于抽样误差所致;病人与正常人存在本质上的差异病人与正常人存在本质上的差异.一、假设检验的意义一、假设检验的意义分辨一个样本是否属于某特定总体分辨一个样本是否属于某特定总体 分辨两个(或两个以上)样本是否分别分辨两个(或两个以上)样本是否分别属于两个不同的总体,并对总体作出适属于两个不同的总体,并对总体作出适当的结论当的结论 .二、假设

59、检验的基本思想二、假设检验的基本思想“反证法反证法”的思想的思想先根据研究目的建立假设,从先根据研究目的建立假设,从H0假设出发,先假设假设出发,先假设它是正确的,再分析样本提供的信息是否与它是正确的,再分析样本提供的信息是否与H0有较有较大矛盾,即是否支持大矛盾,即是否支持H0,若样本信息不支持,若样本信息不支持H0,便,便拒绝之并接受拒绝之并接受H1,否则不拒绝否则不拒绝H0 。 .检验假设检验假设(null hypothesis),记为,记为H0 H0: 132,病人与正常人的平均血红蛋白含量相,病人与正常人的平均血红蛋白含量相等;等;备择假设备择假设(alternative hypot

60、hesis),记为,记为H1H1: 132,病人与正常人的平均血红蛋白含量不,病人与正常人的平均血红蛋白含量不等。等。(一)建立假设(一)建立假设.其中其中H0假设比较单纯、明确,在假设比较单纯、明确,在H0 下若能弄清下若能弄清抽样误差的分布规律,便抽样误差的分布规律,便有规律可循。而有规律可循。而H1假假设包含的情况比较复杂。因此,我们着重考察设包含的情况比较复杂。因此,我们着重考察样本信息是否支持样本信息是否支持H0假设假设(因为单凭一份样本(因为单凭一份样本资料不可能去证明哪个假设是正确的,哪一个资料不可能去证明哪个假设是正确的,哪一个不正确)。不正确)。 .设定检验水准的目的就是确定

61、拒绝假设设定检验水准的目的就是确定拒绝假设H0时的最大允许误差。医学研究中一般时的最大允许误差。医学研究中一般取取 =0.05 。检验水准实际上确定了小概率事件的判检验水准实际上确定了小概率事件的判断标准。断标准。(二(二 )确定检验水准)确定检验水准 .(三)选定检验方法计算检验统计量(三)选定检验方法计算检验统计量(计算样本与总体的偏离计算样本与总体的偏离)统计量统计量t t表示,在标准误的尺度下,样本均数与总体均表示,在标准误的尺度下,样本均数与总体均数数 0 0的偏离。这种偏离称为的偏离。这种偏离称为标准标准t t离差离差。.根据抽样误差理论,在根据抽样误差理论,在H0假设前提下,统计

62、量假设前提下,统计量t服从自由度为服从自由度为n-1的的t分布,即分布,即t值在值在0的附近的的附近的可能性大,远离可能性大,远离0的可能性小,离的可能性小,离0越远可能性越远可能性越小。越小。 t t值越小,越利于值越小,越利于H0假设假设 t t值越大,越不利于值越大,越不利于H0假设假设.(四)(四)结论结论(根据小概率原理作出推断根据小概率原理作出推断) 在在H0成立的前提下出现现有差别或更大差别的可能性成立的前提下出现现有差别或更大差别的可能性P(| t | 5.4545) 小于小于0.05,是小概率事件,即现,是小概率事件,即现有样本信息不支持有样本信息不支持H0。抉择的标准为:抉

63、择的标准为: 当当P 时,拒绝时,拒绝H0,接受,接受H1 当当P 时,不拒绝时,不拒绝H0 本例本例P0.05,按,按 =0.05的水准,拒绝的水准,拒绝H0,接受,接受H1,差别有统计学意义。认为该病女性患者的差别有统计学意义。认为该病女性患者的Hb含量高于含量高于正常女性的正常女性的Hb含量。含量。 .-tt0.-2.0642.0640 =240.0250.025t0.05,24=2.064 P =P (|t|2.064)=0.05 P=P(|t|5.4545)0.05 t t0.05,240.05,24=2.064 =2.064 P P 0.05 t t0.05,90.05,9=2.2

64、62 =2.262 P P 0.050.05 按按 =0.05=0.05的的水水准准,拒拒绝绝H H0 0,接接受受H H1 1,差差别别有有统统计计学学意意义义。认为认为矽肺患者的血红蛋白与健康人不同矽肺患者的血红蛋白与健康人不同。 .H0: d0,缺乏维生素缺乏维生素E对肝中维生素对肝中维生素A含量无影响含量无影响 ;H1: d0,缺乏维生素缺乏维生素E对肝中维生素对肝中维生素A含量有影响含量有影响 。双侧双侧 =0.05。 按按 = n-1=8-1=7查查t值表,得值表,得t0.05,7=2.365,tt0.05,7,则,则P 0.05,差别有统计学意义,可以认为缺乏维生素,差别有统计学

65、意义,可以认为缺乏维生素E有降低有降低肝中维生素肝中维生素A含量的作用含量的作用 。 练习6.2.H0: 1 2,新药与常规药物的疗效相同新药与常规药物的疗效相同;H1: 1 2,新药与常规药物的疗效不同新药与常规药物的疗效不同。双侧双侧 =0.05。 = =n n1 1n n2 22=102=1010102=182=18 按按自自由由度度1818查查附附表表2 2,t t界界值值表表得得t t0.20,180.20,18=1.330=1.330,t t 0.200.20,差差别无统计学意义,尚且不能认为新药与常规药物的疗效有所不同别无统计学意义,尚且不能认为新药与常规药物的疗效有所不同。 练

66、习6.3.分析思路:服药前两组比较,以分析可比性;各组服药前后差值分别比较,确定 各自的疗效;各组服药前后差值相互比较,分析两组的效果是否相同?练习6.4. 疗前疗前 疗后疗后 差值差值安安眠眠药药组组 3.463.46 0.67310.6731 5.005.00 0.92470.9247 1.541.54 0.56390.5639 安慰剂组安慰剂组 3.263.26 0.69140.6914 4.92 4.92 0.82280.8228 1.661.66 0.50300.5030 .疗前两组比较 :t=0.4635,P=0.6554 可以认为两组具有可比性 =n1n22=8t0.05,8=2

67、.306.安眠药组服药前后比较:安眠药组服药前后比较: t=6.1065,P=0.0036 可以认为服药安眠药后睡眠时间延长。=n-1=4t0.05,4=2.776.安慰剂组服药前后比较:安慰剂组服药前后比较: t=7.3796,P=0.0018 可以认为服药安慰剂后睡眠时间延长。=n-1=4t0.05,4=2.776.两组服药前后差值相互比较 t=0.3551,P=0.7371 尚且不能认为两组延长睡眠时间的效果有差别=n1n22=8t0.05,8=2.306.总结论:服药前两组具有可比性,服用安眠药和安慰剂均有延长睡眠时间的效果,但两者效果没有差别。. 第六部分第六部分 方差分析方差分析.

68、方差分析方差分析(AnalysisofVariance,ANOVA)1928年由英国统计学家年由英国统计学家R.A.Fisher首先提出,为纪念首先提出,为纪念Fisher,以,以F命名,故方差分命名,故方差分析又称为析又称为F检验检验。ANOVA是进行两个或两个以是进行两个或两个以上均数比较的分析方法上均数比较的分析方法.方差分析的优点方差分析的优点v不受比较组数的限制,可比较不受比较组数的限制,可比较多组均数多组均数v可同时分析可同时分析多个因素多个因素的作用的作用v可分析因素间的可分析因素间的交互作用交互作用.方差分析的应用条件v独立性独立性:各样本是相互独立随机的样本:各样本是相互独立

69、随机的样本v正态性正态性:各样本都来自正态总体:各样本都来自正态总体v方差齐性方差齐性:各样本的总体方差相等:各样本的总体方差相等.看一个实例看一个实例v例例6.6 某地用某地用A、B和和C三种方案治疗血红蛋三种方案治疗血红蛋白含量不满白含量不满10g的婴幼儿贫血患者,治疗一月的婴幼儿贫血患者,治疗一月后,记录下每名受试者血红蛋白的上升克数,后,记录下每名受试者血红蛋白的上升克数,资料见表资料见表6.3,问三种治疗方案对婴幼儿贫血问三种治疗方案对婴幼儿贫血的疗效是否相同的疗效是否相同? .变异分解变异分解 组间变异组间变异总变异总变异 组内变异组内变异SS总总=SS组间组间+SS组内组内 总总

70、= 组间组间 组内组内 .总变异总变异SS总总(离均差平方和(离均差平方和 )总=N-1 .组间变异组间变异SS组间组间组间=k-1 MS组间 =SS组间/(k-1) .组内变异组内变异SS组内组内组内=N-k MS组内=SS组内/(N-k) .方差分析的基本思想方差分析的基本思想 组内变异组内变异 误差误差 组间变异组间变异 组间本质上的差别组间本质上的差别 + 误差误差 .如果三种治疗方案效果相同,也即三组如果三种治疗方案效果相同,也即三组样本均数来自同一总体样本均数来自同一总体(H0: 1= 2= 3),那么从理论上说组间变异,那么从理论上说组间变异应该等于组内变异,因为两者均只反映应该

71、等于组内变异,因为两者均只反映随机误差随机误差(包括个体差异包括个体差异),这时若计算,这时若计算组间均方与组内均方的比值:组间均方与组内均方的比值: F= MS组间组间 /MS组内组内 .则则F值在理论上应等于值在理论上应等于1,但由于抽样误,但由于抽样误差的影响,差的影响,F通常接近通常接近1,而并不正好等,而并不正好等于于1。相反,若三种疗法效果不同,则。相反,若三种疗法效果不同,则组间变异就会增大,组间变异就会增大,F值则明显大于值则明显大于1,要大到什么程度才有统计学意义呢?可要大到什么程度才有统计学意义呢?可通过查附表通过查附表4 方差分析用方差分析用F界值表得到界值表得到P值,将

72、其与事先规定的值,将其与事先规定的 值比较后作出值比较后作出判断。判断。 .单因素多个样本均数的比较单因素多个样本均数的比较(analysisofonewayvariance) 处理因素只有一个处理因素只有一个 属于属于完全随机设计完全随机设计:随机抽样:随机抽样 随机分组随机分组 随机试验随机试验.基本步骤基本步骤建立假设与确定检验水准建立假设与确定检验水准计算检验统计量计算检验统计量(列方差分析表列方差分析表)计算计算 P 值值下结论下结论.建立假设H0: A= B= C,三三种种治治疗疗方方案案治治疗疗婴婴幼幼儿儿贫血的疗效相同,贫血的疗效相同,H1:三三种种治治疗疗方方案案治治疗疗婴婴

73、幼幼儿儿贫贫血血的的疗疗效效 不全相同或全不相同。不全相同或全不相同。 =0.05.计算基本数据计算基本数据.计算计算SS总总,SS组间组间,和,和SS组内组内C =(83.70)2 /60=116.7615SS总=184.43116.76=67.6685SS组内=0.91332191.2971219 0.7800219=59.3747 .列方差分析表列方差分析表 .界定界定P值,作结论值,作结论总自由度为总自由度为N1=601=59组间自由度组间自由度=组数组数(k)1=31=2组内自由度组内自由度=总自由度组间自由度总自由度组间自由度=592=57。 .查方差分析表得查方差分析表得F0.0

74、5(2,57)=3.15,FF0.05(2,57),则,则P0.05。故按故按 =0.05的水准,拒绝的水准,拒绝H0,接受,接受H1,故可认为三种治疗方案的治疗效果不,故可认为三种治疗方案的治疗效果不一样。一样。 .多个样本均数的两两比较多个样本均数的两两比较 在方差分析认为多组均数间差异有统计在方差分析认为多组均数间差异有统计学意义的基础上,若需了解究竟哪些组学意义的基础上,若需了解究竟哪些组均数之间有差别,还是各组间均有差别,均数之间有差别,还是各组间均有差别,可用多个样本均数的两两比较可用多个样本均数的两两比较(又称多又称多重比较重比较 multiplecomparison)。 .多个

75、样本均数的两两比较不宜用多个样本均数的两两比较不宜用t检验检验如用如用t 检验,则检验,则第一类错误率将增大第一类错误率将增大,此时易将无差别的两均数错判为有差别此时易将无差别的两均数错判为有差别 =1-(1- )m(m=Ck2=k(k-1)/2)如:三个组的比较如:三个组的比较 1-(1-0.05)3=0.14,比,比0.05大多了。大多了。.多个样本均数间的两两比较多个样本均数间的两两比较 用用q检验检验(又称又称Student-Newman-Keuls法,即法,即SNK法法),统计量为,统计量为q: .H0: A= B,每次对比时两个总体均数相等;,每次对比时两个总体均数相等;H1: A

76、 B,每次对比时两个总体均数不等。,每次对比时两个总体均数不等。 =0.05。将三个样本均数按将三个样本均数按从大到小顺序排列从大到小顺序排列并编上组次:并编上组次:组次组次123均数均数1.8401.4150.930组别组别(治疗方案治疗方案)ABC. q0.05,(57,3)=3.40 q0.05,(57,2)=2.83.结论结论总的说来,三种治疗方案的治疗婴幼儿贫血总的说来,三种治疗方案的治疗婴幼儿贫血疗效有差别。而这种差别主要来自疗效有差别。而这种差别主要来自A方案和方案和C方案。这一结论可用下列形式表示:方案。这一结论可用下列形式表示:ABC1.8401.4150.930.多个实验组

77、与一个对照组均数间的多个实验组与一个对照组均数间的两两比较两两比较 常用常用q检验,又称检验,又称Duncan法,其计算公法,其计算公式为式为:公式与公式与q检验公式类似,但需查附表检验公式类似,但需查附表9q界值表。界值表。.两因素多个样本均数的比较两因素多个样本均数的比较(two way analysis of variance )两因素两因素:配伍因素和:配伍因素和 处理因素处理因素属于属于随机区组设计随机区组设计 ( randomized block design )又称又称“配伍组设计配伍组设计”.配伍的概念配伍的概念是是“配对配对”概念的扩展概念的扩展,不是按每两个,不是按每两个配

78、对,而是按每三个、每四个或更多个配对,而是按每三个、每四个或更多个配起来,这就超出了配起来,这就超出了“对子对子”的涵义,的涵义,而是配伍组设计了。而是配伍组设计了。.配伍设计的目的配伍设计的目的对研究因素以外的已知的对研究因素以外的已知的干扰因素干扰因素加以加以控制,从而将研究因素的作用与干扰因控制,从而将研究因素的作用与干扰因素的作用区分开,以达到提高检验的功素的作用区分开,以达到提高检验的功效之目的。效之目的。.实例实例例例6.10 在抗癌药筛选试验中,拟用在抗癌药筛选试验中,拟用20只小白鼠按不同窝别分为只小白鼠按不同窝别分为5组,分别观组,分别观察三种药物对小白鼠肉瘤察三种药物对小白

79、鼠肉瘤(S180)的抑瘤的抑瘤效果,资料见表效果,资料见表6.7,问三种药物有无,问三种药物有无抑瘤作用?抑瘤作用? .两因素方差分析的原理类似于单因两因素方差分析的原理类似于单因素方差分析,前者仅在后者的基础素方差分析,前者仅在后者的基础上,从误差中再分离出配伍组效应,上,从误差中再分离出配伍组效应,使误差减少,达到提高检验功效之使误差减少,达到提高检验功效之目的目的 SS总总=SS处理处理+SS配伍配伍+SS误差误差.实验因素:实验因素:H0:三三种种药药物物对对小小白白鼠鼠肉肉瘤瘤(S180)的的抑抑瘤瘤效效果与对照组相同,即果与对照组相同,即 对照对照= A= B= C;H1:三三种种

80、药药物物对对小小白白鼠鼠肉肉瘤瘤(S180)的的抑抑瘤瘤效效果与对照组不全同或全不同。果与对照组不全同或全不同。 =0.05。建立检验假设建立检验假设.干扰因素:干扰因素:H0:5个窝别小白鼠对肉瘤生长的反应相同;个窝别小白鼠对肉瘤生长的反应相同;H1:5个个窝窝别别小小白白鼠鼠对对肉肉瘤瘤生生长长的的反反应应不不全全相同或全不相同。相同或全不相同。 =0.05。.计算计算SS总总,SS处理处理,SS配伍配伍和和SS误差误差.SS误差=SS总SS处理SS配伍=0.741280.410840.11233=0.21811 .计算自由度计算自由度总=总例数1=201=19处理=处理组数1=41=3配

81、伍=配伍组数1=51=4误差=总处理配伍=1934=12 .列方差分析表 .界定P值,作结论 F0.05,(3,12)=3.49 F0.05,(4,12)=3.26F0.01,(3,12)=5.95 F0.01,(4,12)=5.41 .显然处理组间均数的检验结果是FF0.01,P0.01,拒绝H0,接受H1,差别有统计学意义,可认为三种药物对小白鼠肉瘤(S180)的抑瘤效果与对照组不同;但配伍组间差别无统计学意义,即各窝小白鼠对肉瘤生长的反映相同。 .方差齐性检验方差齐性检验 两个方差的齐性检验 多个方差的齐性检验 .两个方差的齐性检验两个方差的齐性检验即使两总体方差相等,也可能由于抽样误差

82、导致两即使两总体方差相等,也可能由于抽样误差导致两样本方差不同,则样本方差不相等是否由于抽样误差样本方差不同,则样本方差不相等是否由于抽样误差所致,可用方差齐性检验,即检验所致,可用方差齐性检验,即检验的假设是否成立的假设是否成立Levene氏方差齐性检验氏方差齐性检验.例例6.4资料进行方差齐性检验。资料进行方差齐性检验。H0:两总体方差相等,即:两总体方差相等,即H1:两总体方差不等,即:两总体方差不等,即=0.05已知:s12 =14.39072,s22 = 10.37702 自由度自由度(14,11)查方差齐性检验用查方差齐性检验用F界值表,得双侧界值表,得双侧F0.05,14,11=

83、3.360,F0.05,接受,接受H0,可认为,可认为两总体方差相等。两总体方差相等。.方差分析的正确应用方差分析的正确应用 要求资料满足独立性、正态性和方差齐性 变量变换对数转换对数转换(logarithmic transformation) 平方根转换平方根转换(square root transformation) 平方根反正弦转换平方根反正弦转换(arcsine transformation) .方差分析的正确应用方差分析的正确应用两两比较两两比较 当方差分析拒绝当方差分析拒绝H H0 0,认为各组总体均,认为各组总体均 数不全相等,才有必要进行两两比较。数不全相等,才有必要进行两两比

84、较。 两两比较不能用两两比较不能用t t检验,因为此时将人为地增检验,因为此时将人为地增加加I I型错误率型错误率 结论矛盾的解释结论矛盾的解释.方差分析的正确应用方差分析的正确应用F 值、值、t 值、值、q 值、值、q 值之间的关系值之间的关系两样本均数比较时, , 若此时用q检验或q检验亦得到同样的结论 a2时,q检验的检验效能高于q检验 .第七部分 2检验 用于:对多个率的比较,也适用于两个率的比较;对多组构成比的比较;对按照两个变量分组的资料,检验此两变量的关系;对频数分布做拟合优度检验。. 第一节 四格表资料的2检验一.普通2检验例 6.2 表6.2 两种药物治疗消化道溃疡效果 处理

85、 愈合 未愈合 合计 愈合率(%)洛赛克雷尼替丁合计6451115213354858416975.2960.7168.05解 H0:1= 2; H1:1 2; =0.05 A:实际频数T:理论频数2 =(A-T)2T(通用公式).2 分布的性质2 分布为连续型分布, 2 自0至,永远大于0。2 分布同t分布、F分布一样,也是随自由度的不同而形成簇状分布。 2 分布的形态随自由度而变化,自由度越小,偏态越甚;自由度越大,其分布越趋近于正态分布。2 具有可加性。.T11= 85, T21= 84, T12 = 85, T22 = 84,1151691151695416954169如何计算理论频数T

86、?合计愈合率:115/169TRC= nRnCn(57.84) (27.16)(57.16) (26.84) 处理 愈合 未愈合 合计 愈合率(%)洛赛克雷尼替丁合计6451115213354858416975.2960.7168.05.2 =(64- T11)2T11+ + +(21- T12)2T12(51- T21)2T21(33- T22)2T22=4.13 =(R-1)(C-1)=(2-1)(2-1)=1 2 1,0.05 =3.84, 2 2 1,0.05 , P0.05, 拒绝H0。简化公式: 2 =(ad-bc)2n(a+b)(c+d)(a+c)(b+d)a bc d(四格表专

87、用公式)普通2检验适用条件: n40且所有T 5。.二. 2检验的校正公式 2 = (n40但有1T5)简化公式: 2 =(|A-T|-0.5)2T(|ad-bc|-n/2)2n(a+b)(c+d)(a+c)(b+d)三.确切概率法:n 40或有T 1时。基本思想:在四格表周边合计不变的条件下,获得某个四格表的概率为 P =(a+b)!(c+d)! (a+c)!(b+d)!a! b! c! d! n!.例 两型慢性布氏病的PHA皮试反应 病人分型 阳性数 阴性数 合计 阳性率(%)活动型稳定型合计1(2.4)3(1.6)414(12.6)7(8.4)211510256.6730.0016.00

88、解 H0:1= 2; H1:1 2; =0.05表中活动型的阳性率 P1 =0.067,稳定型的阳性率 P2=0.300,两者差别 | P1-P2| =0.233,该表出现的概率为 P= =0.1423将该表分解成若干种不同的情况,使得周边数不变: 15! 10! 4! 21! 1! 14! 3! 7! 25! .极端情况的概率: P=P(0)+P(1)+P(4)=0.0166+0.1423+0.1079=0.2668按=0.05水准不拒绝H0,尚不能认为两型布氏病患者PHA反应阳性率有差别。确切概率法计算表(四格表周边合计数不变)序号(i) 阳性 阴性 P1 | P1-P2| P(i) P2

89、01234041322314015614713812911100.0000.4000.0670.3000.1330.2000.2000.1000.2670.0000.4000.2330.0670.1000.2670.01660.14230.1079. 设两样本的差值 | P1-P2| =D,双侧检验取 | P1-P2| D的各种组合的累计概率为双侧P值;单侧检验取 P1-P2 D或 P1-P2 - D的各种组合的累计概率为单侧P值。若两样本例数相等,则 P1-P2 D和 P1-P2 - D的P值相等,可先计算一侧P值,再乘以2得双侧检验的概率。.补充题:用某种化学物质进行诱发肿瘤实验,实验组1

90、5只小白鼠中4只发生癌变,对照组10只无1只发生癌变,问两组发癌率有无差别?.极端情况的概率: P=P(0)+ P(4)= 0.1079+0.0166=0.1245按=0.05水准不拒绝H0,尚不能认为两组发癌率有差别。确切概率法计算表(四格表周边合计数不变)序号(i) 阳性 阴性 P1 | P1-P2| P(i) P201234403122130411101291381471560.26700.20.10.1330.20.0670.300.40.2670.10.0670.2330.40.10790.0166.第二节 行列表的2检验行列表包括2 2、R 2、2 C、R C表等。 2 = n(

91、- 1)A2nr nc适用条件:不能有T 1,并且 1T 0.025,按=0.0167水准不能拒绝H0,不能认为两药的疗效不同。.三.多个构成比的比较例 欲了解女性血栓形成患者的血型分布是否与正常妇女有所不同,资料见表,试分析血栓形成患者与正常妇女血型分布构成比有无差别? 正常妇女与血栓形成者的血型分布表分组 A型 B型 AB型 O型 合计血栓形成组正常妇女组合计325183819271012229707959152211H0:血栓形成患者与正常妇女血型分布构成比相同;H1:血栓形成患者与正常妇女血型分布构成比不全相同; =0.05。2 =211322/(59 83) +82/(59 27)+

92、 102/(59 22)+ 92/(59 79) + 512/(152 83)+ 192/(152 27)+ 122/(152 22)+ 702/(152 79) -1 = 18.77 =(2-1)(4-1)=3查表得P 0.005,按=0.05水准,拒绝H0,接受H1,可以认为血栓形成患者与正常妇女血型分布构成比不全相同。. 四.双向有序且属性不同的分类资料的关联性检验 P67例6.62 n +2P值在01之间,0表示完全无关,1表示完全相关。若需进一步说明相关的密切程度,可计算列联系数: Pearson列联系数(P)=.五.条件不满足时的处理方法1.增大样本例数使理论频数变大;2.删去理论

93、频数太小的行或列;3.将理论频数过小的格子所在的行或列与性质相近的邻行或邻列合并,使重新计算的理论频数增大。4.精确概率法。.例 某地防疫站用碘剂局部治疗219例地方性甲状腺肿,结果列于下表,试分析年龄与疗效有无关联? . 年龄/岁 治愈 显效 好转 无效 总和11-2021-3031-4041-5050以上总和35(19.9)32(25.4)17(21.9)15(17.4)10(24.4)109 1(8.4) 8(10.7)13(9.2)10(7.6)11(10.3)43 1(9.6) 9(12.3)12(10.6) 8(8.8)23(11.9)53 3(2.5) 2(3.3) 2(2.8)

94、 2(2.2) 5(3.1)144051443549219地方性甲状腺肿患者的年龄与疗效的关系 年龄/岁 治愈 显效 好转 无效 总和11-3031-5050以上总和67321010992311431020235354514917949219.第三节 配对四格表资料的2检验例6.8 两种血清学检验结果比较乙 法甲 法+ -合 计 + -合 计80(a)31(c)11110(b)11(d)219042132.解:H0:两法总体阳性检出率无差别,即B=C; H1:两法总体阳性检出率不同,即BC; =0.05 Tb=Tc=(b+c)/2, 则 2 =(b - c)2b + c, =1(b + c40

95、)校正公式2 =(|b - c|-1)2b + c, =1(b + c40)本例 2 =(10-31)210+31= 10.76, =1查表得P 0.005,按=0.05水准,拒绝H0,接受H1,可以认为甲乙两法的血清学阳性检出率不同。. 第四节 不同类型RC表资料的统计分析方法1.双向无序 表1 某地6094人按两种血型系统划分的结果ABO血型 人 数MN血型: M N MN 合计OABAB合计4313884951371451490410587179166690280095032529771823159820326416094适用方法: 2检验、Fisher精确检验.2.单向有序 表2 3种

96、药物疗效的观察结果疗效 人 数药物: A B C 合计治愈显效好转无效合计154931510049502285115452485207312651270适用方法;秩和检验或Ridit分析。.3.双向有序且属性不同 表3 眼晶状体混浊度与年龄之关系晶状体混浊程度 眼 数年龄: 20 30 40 合计+合计2156744326131101632951481281324084942962391029适用方法;等级相关分析、典型相关分析或线性趋势检验。.4.双向有序且属性相同例 两名放射科医师对200名棉屑沉着病可疑患者的诊断结果见表4: 表4 200名棉屑沉着病可疑患者的诊断结果第一人检查第二人检查

97、 正常 I型 II型合计正常I 型II 型合计78608455610710133245837542200适用方法;一致性检验或称Kappa检验。 .练习1 用两种方法检验已确诊的癌症患者140名。甲法的检出率为65%,乙法的检出率为55%,甲乙两法一致的检出率为40%。试分析两法的优劣。 乙 法 + -甲 法合 计+-合计56217735286391491402 =(35 - 21)235+21= 3.500按=0.05查表,得2 =3.841, 2 20.05,10.05,1 ,故不能拒绝H0 ,不能认为两法的检出率有差异。解: 甲法检出人数 140 0.65=91 乙法检出人数 140 0

98、.55=77 甲、乙两法都检出人数 140 0.40=56 两法检出结果的比较 .第五节 频数分布拟合优度的2检验.一.二项分布拟合的2检验例 分别用同窝的4只小白鼠独立地进行辐射的致死试验,共做43窝试验,结果列于下表,试问每窝试验中的死鼠数是否遵从二项分布? 辐射对43窝小白鼠的致死试验表01234合计每窝试验中 实际频数 概率 理论频数 的死鼠数 A P T(|A - T|- 0.5)2T1320730430.31640.42190.21090.04680.00391.000013.6018.159.072.010.1743.001011.250.0070.1000.0502 = 0.1

99、57.死鼠总数试验鼠总数=0 13 + 120 + 27 + 33 + 40443=0.25P(X)= ( )x(1- )4 - x4 =3-1-1=10.05,10.05,1,故不能拒绝H0 ,解:H0:小白鼠死亡数分布服从二项分布; H1:小白鼠死亡数分布不服从二项分布; =0.05估计总体死亡率 =x2 =0.007+0.100+0.050=0.157按=0.05查表,得2 =3.841, 2 2认为小白鼠死亡数遵从二项分布。.二.Poisson分布拟合的2检验例 300个单位容积内的细菌计数如下表所示,问此资料是否服从Poisson分布?单位容积内 观察频数 概率 理论频数 细菌数X

100、A P(X) T (A - T)2T265184704215930.0829100.2064460.2570250.2133310.1327980.0661340.0274450.01391124.961.977.164.039.819.88.24.20.051.920.620.560.121.160.012 = 4.4401234567合计1212.4.解:H0:本资料服从Poisson分布; H1:本资料不服从Poisson分布; =0.102 =4.44查表,得0.25P0.50,按=0.10水准,不拒绝H0 ,可认为本资料服从Poisson分布。 =7-1-1=5=fX/n=747/3

101、00=2.490P(X)=XXe- X= 0,1,2,.三.正态分布的拟合优度检验P62,例6.1.第六节 趋势检验 N(NtZ-TnZ)2 2=T(N-T)(NnZ2 (nZ)2 ).例6- 9 表6-10 不同工龄的纺织女工的神经衰弱的患病率患病人数(t)不患病数(c)总人数(n)患病率(%)分数(Z)tZnZnZ21153541.85-4.5-4.5-2431093.5171131205.83-3.5-24.5-4201470.02252302559.80-2.0-50-5101020.043015418416.30000063213716918.93264338676812281101

102、3820.2951406903450合计123(T)920(N)125-1457709.5工龄(年)N(NtZ-TnZ)2 2=T(N-T)(NnZ2 (nZ)2 )920(920125-123 (-145)2 =123(920-123)(920 7709.5 (-145)2 )=23.42.第七节 多个四格表的联合分析.a b ec d fg h nORMH= (ad/n)i/ (bc/n)i 2MH=(ad-bc)/n)i )2(efgh/(n-1)/n2 )第i层列表形式 危险因素暴露 未暴露病例组 ai bi对照组 ci di.表6-11 两个年龄组吸烟与肺癌的病例对照研究40岁40病

103、例对照合计1包581001581包732803531包1113804911包504191合计131380511合计161421582ORMH= (ad/n)i/ (bc/n)i = 58280/511+50 380/58273100/511+11141/582=2.91 2MH=(ad-bc)/n)i )2(efgh/(n-1)/n2 )=(58280-73100)/511+ (50380-11141)/582)2(131380 353 158/(511-1)/5112+(161421 491 91(582-1)/5822=49.65.第八节 2 检验的应用小结. 类型 原假设 实际计算的 2

104、 自由度曲线拟合的吻合度检验两个样本率或构成比的比较 2 2表多个样本率或构成比的比较 R C表独立设计H0:F(x)=F0(x)H0:两个总体率或构成比相等H0:多个总体率或构成比相等2 =(A-T)2T2校正 =(|A-T|-0.5)2T2校正=(|ad-bc|-n/2)2n(a+b)(c+d)(a+c)(b+d)2 =(ad-bc)2n(a+b)(c+d)(a+c)(b+d)精确概率法: P =(a+b)!(c+d)! (a+c)!(b+d)!a! b! c! d! n!A2nr nc2 =n( -1)m-1-r(2-1)(2-1)(r-1)(c-1). 类型 原假设 实际计算的 2 自

105、由度配对设计H0:两种处理的效应相同H0:两因子无相关关系2 =(b-c)2b+c2校正 =(|b-c|-1)2b+cA2(2-1)(2-1)(r-1)(c-1)两种处理的比较相关分析2 =n( -1)nr ncPearson列联系数:(P)=2 n +2.第九节 SAS程序.data samp6_2; do i=1 to 2; do j=1 to 2; input f; output; end; end;cards;64 21 51 33;proc print;proc freq;tables i*j/chisq;weight f;run;四格表2检验:例6.2. OBS I J F 1 1

106、 1 64 2 1 2 21 3 2 1 51 4 2 2 33 .TABLE OF I BY J I J Frequency| Percent | Row Pct | Col Pct | 1| 2| Total -+-+-+ 1 | 64 | 21 | 85 | 37.87 | 12.43 | 50.30 | 75.29 | 24.71 | | 55.65 | 38.89 | -+-+-+ 2 | 51 | 33 | 84 | 30.18 | 19.53 | 49.70 | 60.71 | 39.29 | | 44.35 | 61.11 | -+-+-+ Total 115 54 169 6

107、8.05 31.95 100.00 .STATISTICS FOR TABLE OF I BY J Statistic DF Value Prob - Chi-Square 1 4.130 0.042 Likelihood Ratio Chi-Square 1 4.156 0.041 Continuity Adj. Chi-Square 1 3.487 0.062 Mantel-Haenszel Chi-Square 1 4.106 0.043 Fishers Exact Test (Left) 0.986 (Right) 0.031 (2-Tail) 0.049 Phi Coefficien

108、t 0.156 Contingency Coefficient 0.154 Cramers V 0.156 Sample Size = 169.data samp6_4; do i=1 to 3; do j=1 to 2; input f; output; end; end;cards;57 30 24 20 130 20;proc print;proc freq;tables i*j/chisq;weight f;run;行列表的2检验:例6.4. OBS I J F 1 1 1 57 2 1 2 30 3 2 1 24 4 2 2 20 5 3 1 130 6 3 2 20 . TABLE

109、 OF I BY J I J Frequency| Percent | Row Pct | Col Pct | 1| 2| Total -+-+-+ 1 | 57 | 30 | 87 | 20.28 | 10.68 | 30.96 | 65.52 | 34.48 | | 27.01 | 42.86 | -+-+-+ 2 | 24 | 20 | 44 | 8.54 | 7.12 | 15.66 | 54.55 | 45.45 | | 11.37 | 28.57 | -+-+-+ 3 | 130 | 20 | 150 | 46.26 | 7.12 | 53.38 | 86.67 | 13.33 |

110、 | 61.61 | 28.57 | -+-+-+ Total 211 70 281 75.09 24.91 100.00 .STATISTICS FOR TABLE OF I BY J Statistic DF Value Prob - Chi-Square 2 24.938 0.001 Likelihood Ratio Chi-Square 2 24.958 0.001 Mantel-Haenszel Chi-Square 1 15.779 0.001 Phi Coefficient 0.298 Contingency Coefficient 0.286 Cramers V 0.298 S

111、ample Size = 281.data samp6_9;input z b f;cards;0.5 1 1 0.5 2 531.5 1 7 1.5 2 1133 1 25 3 2 2305 1 30 5 2 1547 1 32 7 2 13710 1 28 10 2 110;proc freq;weight f;tables z*b/trend;run;趋势2检验:例6.9. STATISTICS FOR TABLE OF Z BY B Cochran-Armitage Trend Test - Statistic = 4.839 Prob (Right-sided) = 0.001 Pr

112、ob (Two-sided) = 0.001 Sample Size = 920.data samp6_10;input a b c f;cards;1 1 1 581 1 2 731 2 1 1001 2 2 2802 1 1 502 1 2 1112 2 1 412 2 2 380;proc freq;weight f;tables a*b*c/all; run;多个四格表的联合分析:例6.10. TABLE 1 OF B BY C CONTROLLING FOR A=1 B C Frequency| Percent | Row Pct | Col Pct | 1| 2| Total -+

113、-+-+ 1 | 58 | 73 | 131 | 11.35 | 14.29 | 25.64 | 44.27 | 55.73 | | 36.71 | 20.68 | -+-+-+ 2 | 100 | 280 | 380 | 19.57 | 54.79 | 74.36 | 26.32 | 73.68 | | 63.29 | 79.32 | -+-+-+ Total 158 353 511 30.92 69.08 100.00. STATISTICS FOR TABLE 1 OF B BY C CONTROLLING FOR A=1 Statistic DF Value Prob - Chi-Sq

114、uare 1 14.710 0.001 Likelihood Ratio Chi-Square 1 14.166 0.001 Continuity Adj. Chi-Square 1 13.881 0.001 Mantel-Haenszel Chi-Square 1 14.681 0.001 Fishers Exact Test (Left) 1.000 (Right) 1.25E-04 (2-Tail) 1.83E-04 Phi Coefficient 0.170 Contingency Coefficient 0.167 Cramers V 0.170 Estimates of the R

115、elative Risk (Row1/Row2) 95% Type of Study Value Confidence Bounds - Case-Control 2.225 1.471 3.364 Cohort (Col1 Risk) 1.682 1.303 2.172 Cohort (Col2 Risk) 0.756 0.642 0.891 Sample Size = 511. TABLE 2 OF B BY C CONTROLLING FOR A=2 B C Frequency| Percent | Row Pct | Col Pct | 1| 2| Total -+-+-+ 1 | 5

116、0 | 111 | 161 | 8.59 | 19.07 | 27.66 | 31.06 | 68.94 | | 54.95 | 22.61 | -+-+-+ 2 | 41 | 380 | 421 | 7.04 | 65.29 | 72.34 | 9.74 | 90.26 | | 45.05 | 77.39 | -+-+-+ Total 91 491 582 15.64 84.36 100.00. STATISTICS FOR TABLE 2 OF B BY C CONTROLLING FOR A=2 Statistic DF Value Prob - Chi-Square 1 40.121

117、0.001 Likelihood Ratio Chi-Square 1 36.339 0.001 Continuity Adj. Chi-Square 1 38.521 0.001 Mantel-Haenszel Chi-Square 1 40.052 0.001 Fishers Exact Test (Left) 1.000 (Right) 1.63E-09 (2-Tail) 2.77E-09 Phi Coefficient 0.263 Contingency Coefficient 0.254 Cramers V 0.263 Estimates of the Relative Risk (

118、Row1/Row2) 95% Type of Study Value Confidence Bounds - Case-Control 4.175 2.625 6.639 Cohort (Col1 Risk) 3.189 2.201 4.621 Cohort (Col2 Risk) 0.764 0.685 0.851 Sample Size = 582. SUMMARY STATISTICS FOR B BY C CONTROLLING FOR A Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alte

119、rnative Hypothesis DF Value Prob - 1 Nonzero Correlation 1 49.427 0.001 2 Row Mean Scores Differ 1 49.427 0.001 3 General Association 1 49.427 0.001 Estimates of the Common Relative Risk (Row1/Row2) 95% Type of Study Method Value Confidence Bounds - Case-Control Mantel-Haenszel 2.915 2.163 3.927 (Od

120、ds Ratio) Logit 2.940 2.159 4.003 Cohort Mantel-Haenszel 2.145 1.734 2.653 (Col1 Risk) Logit 2.067 1.675 2.550 Cohort Mantel-Haenszel 0.761 0.705 0.821 (Col2 Risk) Logit 0.762 0.696 0.834 The confidence bounds for the M-H estimates are test-based. . Breslow-Day Test for Homogeneity of the Odds Ratio

121、s Chi-Square = 3.961 DF = 1 Prob = 0.047 Total Sample Size = 1093.练习1 某医院研究急慢性白血病与血型之间有无关系,资料见下表,问白血病的种类与患者血型的型别之间有无关联性? 白血病的种类与血型之间关系的资料白血病 病例数 种类 血型: A B O AB 合计急性慢性合计584310149277659339218826184111295.练习2 某地爆发流行性痢疾,为了分析这次爆发流行是否存在家庭内成员间的传播,共调查了四口之家288户,得到数据如下。试检验能否用二项分布模型来拟合这一组实际资料。每户发病人数 观察家庭数 二项分

122、布概率 理论家庭数 A P T(A - T)2T01234合计16751501732880.43960.40110.13730.02090.00121.0001126.6115.539.56.0190.346288.012.8936.022.7980.9120 6.365 29.21.第八部分第八部分等级资料的分等级资料的分析析Analysis of Ranked Data .医学研究中的等级资料医学研究中的等级资料疗疗 效:痊愈、显效、有效、无效、恶化效:痊愈、显效、有效、无效、恶化化验结果:、化验结果:、 、+、+体格发育:下等、中下、中等、中上、上等体格发育:下等、中下、中等、中上、上等

123、心功能分级:心功能分级:I、II、III文化程度:小学、中学、大学、研究生文化程度:小学、中学、大学、研究生营养水平:差、一般、好营养水平:差、一般、好.等级资料的特点等级资料的特点既非呈连续分布的定量资料,也非仅按性既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;质归属于独立的若干类的定性资料;比比“定量定量”粗,而比一般的粗,而比一般的“定性定性”细;细;等级间既非等距,亦不能度量。等级间既非等距,亦不能度量。 .内容内容秩次与秩和秩次与秩和两样本比较的秩和检验两样本比较的秩和检验多组比较的秩和检验多组比较的秩和检验配对符号秩和检验配对符号秩和检验配伍设计的秩和检验配伍

124、设计的秩和检验多重比较多重比较秩和检验的正确应用秩和检验的正确应用.8.1 秩次与秩和秩次与秩和 秩次秩次(rank),秩统计量,秩统计量 是指全部观察值按某种顺序排列的位序是指全部观察值按某种顺序排列的位序秩和秩和(rank sum) 同组秩次之和。同组秩次之和。.例8.1 编秩 A组:组: 、 、+、+、+、+B组:组: +、+、+、+、+、+A组:组:-+B组:组:+123457689101112124.54.54.58.54.58.58.58.511.511.5. 秩和 A组:组: 、 、+、+、+、 + 秩和:秩和: 1 2 4.5 4.5 4.5 8.5 TA25 B组:组: +、

125、+、+、+、+、+ 秩和:秩和: 4.5 8.5 8.5 8.5 11.5 11.5 TB53 TA+TB=N(N+1)/2=78.秩次:在一定程度上反映了等级的高低秩次:在一定程度上反映了等级的高低秩和:在一定程度上反映了等级的分布位置秩和:在一定程度上反映了等级的分布位置对等级的分析,转化为对秩次的分析。秩和检验对等级的分析,转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩和,进行假设检验就是通过秩次的排列求出秩和,进行假设检验n 秩变换秩变换: 将等级变成秩次的方法将等级变成秩次的方法rank transformation. 8.2 两样本比较的秩和检验检验假设检验假设 H0 :A、

126、B两组等级分布相同;两组等级分布相同; H1 :A、B两组等级分布不同两组等级分布不同(相互偏离相互偏离)。 =0.05。.基本思想如果如果H0 成立,即两组分布位置相同,成立,即两组分布位置相同, 则则A组的组的实际秩和应接近理论秩和实际秩和应接近理论秩和n1(N+1)/2; (B组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n2(N+1)/2)。 或相差不大。或相差不大。如果相差较大,超出了预定的界值,则可认为如果相差较大,超出了预定的界值,则可认为H0不成立。不成立。.A组组B组组和和实际秩和实际秩和255378理论秩和理论秩和n1(N+1)/2n2(N+1)/2N(N+1)/23

127、93978差值差值14140抽样误差?抽样误差?如果如果H0成立,则理论秩和与实际秩和之差纯粹成立,则理论秩和与实际秩和之差纯粹由抽样误差造成。由抽样误差造成。. 检验结果检验结果如果如果H0成立,则按成立,则按0.05水准,水准, A 组秩和之界值为组秩和之界值为2652。现现A组组的的实实际际秩秩和和为为25,在在界界值值之之外外,故故拒拒绝绝H0,接受,接受H1,认为两组的分布位置不同。,认为两组的分布位置不同。. 秩和检验的结论判断秩和检验的结论判断A组的实际秩在界值之外,则拒绝组的实际秩在界值之外,则拒绝H0,接受,接受H1。 (小于小于或等于或等于下界,大于下界,大于或等于或等于上

128、界上界) A组的实际秩在界值之内,则不拒绝组的实际秩在界值之内,则不拒绝H0。 (大大于下界且小于上界于下界且小于上界).某药对两种病情的慢性支气管炎病人的疗效比某药对两种病情的慢性支气管炎病人的疗效比较较.检验步骤检验步骤(一一)H0 :两型老慢支疗效分布相同;:两型老慢支疗效分布相同;H1 :两型老慢支疗效分布不同。:两型老慢支疗效分布不同。 =0.05。编秩编秩 .求秩和求秩和 T1、 T2确定检验统计量确定检验统计量T n110或或n2-n110时时, ,正态近似法正态近似法检验步骤检验步骤(三三).正态近似法正态近似法.P20.005,2,P0.005 按按 =0.05水准拒绝水准拒

129、绝H0,接受,接受H1,认为三药疗效有差别。,认为三药疗效有差别。.8.4 配对符号秩和检验配对符号秩和检验Wilcoxon符号秩和检验符号秩和检验计算等级之差值,对差值计算等级之差值,对差值绝对值绝对值进行编秩,进行编秩,并冠以差值的符号。并冠以差值的符号。查查 T 界值表,或用近似界值表,或用近似 u 检验,计算检验,计算 P 值;值;界定界定 P 值,作出结论。值,作出结论。.符号秩和检验的假设符号秩和检验的假设H0:差值的总体中位数为:差值的总体中位数为0;H1:差值的总体中位数不为:差值的总体中位数不为0。 =0.05。当当n50时,查界值表时,查界值表(附表附表10)当当n50时,

130、用时,用u近似近似.扁平足疗效例扁平足疗效例 用配对设计观察两种方法治疗扁平足效果记录如下,问那种方法好。用配对设计观察两种方法治疗扁平足效果记录如下,问那种方法好。 病例号病例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A法法 好好 好好 好好 好好 差差 中中 好好 好好 中中 差差 好好 差差 好好 中中 好好 中中 B法法 差差 好好 差差 中中 中中 差差 中中 差差 中中 差差 好好 差差 中中 差差 中中 差差.检验步骤检验步骤(一)建立假设建立假设H0:两法疗效差值的总体中位数为0;H1:差值的总体中位数不为0。建立检验水准建立检验水准 =

131、0.05 .计算检验统计量计算检验统计量编秩:求秩和:T=61.5,T=4.5 确定检验统计量T :T或T作为统计量T 检验步骤检验步骤(二).界定界定P 值值本例T=61.5,T=4.5,已超出附表10中双侧P0.01相对应的界值561,故得P 0.01。结论结论按 =0.05水准拒绝H0,接受H1,认为两种方法疗效的总体分布不同。结合资料可认为A法优于B法。 检验步骤检验步骤(三).符号秩和检验的基本思想符号秩和检验的基本思想总秩和为总秩和为TN(N+1)/2如如H0成立,则正负各半,成立,则正负各半,T+ 与与 T 均接均接近近 N(N+1)/4。如果相差太大,超出了事先规定的界值,如果

132、相差太大,超出了事先规定的界值,则则H0不成立。不成立。.符号秩和检验 T 界值表N=11 双侧 单侧 1353 0.10 0.05 10 56 0.05 0.025 7 59 0.02 0.01 5 61 0.01 0.005 间距 40 46 52 5611(11+1)/4=33(理论值) .u 的校正当重复的秩次较多时,当重复的秩次较多时,u 需要校正:需要校正:.配伍设计的秩和检验配伍设计使用范围.评委评委白兰地白兰地W白兰地白兰地X白兰地白兰地Y白兰地白兰地ZA四四(4)二二(2)一一(1)三三(3)B四四(4)一一(1)二二(2)三三(3)C三三(3)一一(1)二二(2)四四(4)

133、D四四(4)二二(2)三三(3)一一(1)E三三(3)一一(1)二二(2)四四(4)Ri1871015 五位评委对五位评委对4 4种葡萄酒作等级评定种葡萄酒作等级评定( (一至四级一至四级) ).将每一配伍组的数据由小到大编秩,相同值将每一配伍组的数据由小到大编秩,相同值 取平均取平均;分别求出各处理组的秩和分别求出各处理组的秩和 ;将有关数据带入公式。将有关数据带入公式。确定确定P值值(p.347) b=5,k=4,查表,查表13, 当当b或或k超出表的范围,超出表的范围,M近似服从近似服从.当有相同秩次,且当有相同秩次,且M 按近似按近似 分布进行推断分布进行推断时需校正:时需校正:.两两

134、比较(两两比较(q检验)检验)1、建立检验假设、建立检验假设 H0:对任两种葡萄酒评判结果的总体分布相同:对任两种葡萄酒评判结果的总体分布相同 H1:对任两种葡萄酒评判结果的总体分布不同或不:对任两种葡萄酒评判结果的总体分布不同或不全同全同2、计算统计量、计算统计量 将各处理组的秩和从大到小排列将各处理组的秩和从大到小排列: 18 15 10 7 组次 1 2 3 4 原组 W Z Y X. 对四种酒评价结果的两两比较对四种酒评价结果的两两比较对比组对比组 组数组数 两秩和之差两秩和之差 P A与与B a1与与4 4 18-7 3.8105 P0.051与与2 2 18-15 1.0392 P

135、0.052与与4 3 15-7 2.7713 P0.052与与3 2 15-10 1.7321 P0.053与与4 2 10-7 1.0392 P0.05.3、确定、确定P值值 以以 查查 q 值表值表 (P.342)4、统计推断、统计推断 按按 水准,水准,.8.6 秩和检验的正确应用秩和检验的正确应用主要对等级资料进行分析;主要对等级资料进行分析;秩和检验可用于任意分布秩和检验可用于任意分布(distribution free)的资料;的资料;T检验与检验与H检验的关系检验的关系 H检验检验 T检验检验 n=2 F检验检验 t检验检验.秩和检验用于定量资料秩和检验用于定量资料 计量资料中:

136、计量资料中: 极度偏态资料,或个别数值偏离过大极度偏态资料,或个别数值偏离过大 各组离散度相差悬殊各组离散度相差悬殊 资料中含有不确定值资料中含有不确定值 大于大于5年年 0.001 1:1024以上以上 兼有等级和定量性质的资料兼有等级和定量性质的资料.参数检验与非参数检验参数检验与非参数检验在总体的分布类型已知的条件下,对在总体的分布类型已知的条件下,对总体的参数总体的参数进行进行检验,称为检验,称为参数检验参数检验。在总体的分布类型未知或者不考虑总体的分布的条件在总体的分布类型未知或者不考虑总体的分布的条件下,对下,对总体的分布总体的分布进行检验,称为进行检验,称为非参数检验非参数检验。

137、适用于任意分布类型的资料,不受总体分布的制约。适用于任意分布类型的资料,不受总体分布的制约。.成组设计两样本比较成组设计两样本比较如如资资料料满满足足 t 检检验验的的条条件件,应应该该用用 t 检检验验进进行行分分析析。此此时时,如如果果对对这这类类资资料料用用Wilcoxon秩秩和和检检验验,实实际际上上是是将将观观察察单单位位的的具具体体数数值值舍舍弃弃不不用用,只只保保留留了了秩秩次次的的信信息息,使使检检验验功功效效降降低低;尤其样本含量较小时,降低更加明显。尤其样本含量较小时,降低更加明显。 如资料不满足如资料不满足 t 检验的条件,而用了检验的条件,而用了t 检验,检验,同样降低

138、了检验效能。同样降低了检验效能。.第九部分 方差分析(二):双向方差分析.第一节 随机区组设计的两因素方差分析随机化完全区组设计:将全部受试对象按某一个重要的属性(即区组因素)分组,把条件最接近的a个受试对象分在同一个区组内,然后用完全随机的方法,将每个区组中的全部受试对象分配到a个组中去。.1.变异的分解 SS总= (X ij - X)2 = (X ij - Xi - Xj+X+Xi - X+ Xj - X )2 = (X i - X)2 + (Xj- X)2 + (X ij - Xi - X j +X )2i ji ji ji ji j=SS处理 SS区组 SS误差其中:X= ( X ij

139、 )/ N ,N = n a Xi= ( X ij )/ n , i=1,2, ,a Xj= ( X ij )/ a , j=1,2, ,n总=N-1=(a-1)+(n-1)+(a-1)(n-1)i j j i = = = 处理 区组 误差.2.例9.1分析计算步骤(1)建立检验假设和确定检验水准H0:三种营养素喂养的小鼠体重增量相等H1:三种营养素喂养的小鼠体重增量不全相等=0.05(2)计算F值 SS总= (X ij - X)2 = X ij2 - =110447.51-1591.12/24=4964.21 SS处理 = (Xi - X)2 = ni (X i - X)2 = - =( 5

140、00.72+523.42+567.02 )/8- 1591.12/24=283.83 SS区组 = (Xj- X)2 = (Xj- X)2= - =(336.82+322.62+ +243.52 )/3- 1591.12/24=3990.31 SS误差= SS总- SS处理 - SS区组 =4964.21-283.83-3990.31=690.07i ji ji ji i j j i( X ij ) 2i jNi ( Xij )2 jn( X ij ) 2i jN( Xij )2 ia j( X ij ) 2i jN.总=N-1=24-1=23处理=k-1=3-1=2区组=n-1=8-1=7误

141、差=(a-1)(n-1)=2 7=14MS处理= SS处理/ 处理=283.83/2=141.92MS误差= SS误差/ 误差=690.07/14=49.29F=MS处理/ MS误差=141.92/49.29=2.88(3)确定P值和作出推断结论: F0.05(2,14)=3.74,F=2.88 0.05。在=0.05水准上不拒绝H0,尚不能认为三种营养素喂养的小鼠体重增量有差别。.区组间差别的检验:H0:8个区组的小白鼠体重增量相等H1:8个区组的小白鼠体重增量不全相等=0.05MS区组= SS区组/ 区组=3990.31/7=570.04F=MS区组/ MS误差=570.04/49.29=

142、11.56F0.05(7,14)=2.77,F0.01(7,14)=4.28,F=11.56 F0.01(7,14),P FModel 9 4274.14041667 474.90449074 9.63 0.0001Error 14 690.06916667 49.29065476Corrected Total 23 4964.20958333 R-Square C.V. Root MSE X Mean 0.860991 10.59000 7.02073036 66.29583333Source DF Anova SS Mean Square F Value Pr FI 2 283.83083

143、333 141.91541667 2.88 0.0897J 7 3990.30958333 570.04422619 11.56 0.0001 . Analysis of Variance Procedure Student-Newman-Keuls test for variable: X NOTE: This test controls the type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses. Alpha= 0.05 df= 1

144、4 MSE= 49.29065 Number of Means 2 3 Critical Range 7.5289854 9.1876115 Means with the same letter are not significantly different. SNK Grouping Mean N I A 70.875 8 3 A A 65.425 8 2 A A 62.588 8 1.第二节 数据变换.1.对数变换 Y=lgX常用于:1)使服从对数正态分布的数据正态化。如生长率、变化速度、变化速度、抗体滴度等。2)使数据达到方差齐性,特别是各样本的标准差与均数成比例时。 例:为了诊断某种疾

145、病需要测量一项指标,现用4种不同的方式来测量这一指标,以增加诊断的可靠性。表1是对4名健康人测得的数据。试检验4种测量方式有无差异?. 表1 用4种方式对4人测得的某指标值测 量 方 式 A1 A2 A3 A4对象12344 000 0001 500 00010 000 000100 00022 00013 00030 0008 5006 0003 40016 0005 2007807201 900550均数标准差3 900 0004 374 928.618 3759 568.87 6505 671.9987.5616.1表2 表1资料的方差分析变异来源 SS MS F 临界值测量方式间测量对

146、象间误差总4.54 10131.4510134.29101310.281013339151.51 10134.8310124.7710123.171.01F0.05=3.50. 表3 经对数变换后的数据测 量 方 式 A1 A2 A3 A4对象12346.606.187.005.006.200.864.344.114.483.934.220.243.783.534.203.723.810.282.892.863.282.742.940.23均数标准差表4 表2资料的方差分析变异来源 SS MS F 临界值测量方式间测量对象间误差总 25.5622.731.701.13339157.580.57

147、0.1358.314.38F0.01=6.99F0.05=3.86.2.平方根变换 Y= X常用于:1)使服从Poisson分布的计数资料正态化,如水中细菌数的分布、放射性物质在单位时间内放射的次数等。2)当各样本的方差与均数呈正相关时,可使数据达到方差齐性。例.下面的表1资料是3组小白鼠在注射某种同位素24h后脾脏蛋白质中放射性强度的测定,试问芥子气和电离辐射对同位素进入脾蛋白质是否起抑制作用?.表1 小白鼠注射某种同位素后脾脏蛋白质中放射性的测定窝别 X Y= X对照组 芥子气中毒组 电离辐射组对照组 芥子气中毒组 电离辐射组12345678910Xs23817671181076.88.8

148、16053476634.15.413031254522.62.91.732.831.002.652.452.653.322.833.162.652.530.4701.002.450.002.241.732.002.652.452.451.731.870.6741.001.730.001.731.001.412.242.002.241.411.480.468. 表2 方差分析结果 变异来源 自由度 SS MS F F0.01 P处理间窝别间误差总的2918295.63814.0200.48720.1462.8191.5580.027104.4157.706.013.600.010.01用LSD法

149、进行多重比较:LSD0.05/2=2.101 =0.15420.02710LSD0.01/2=2.878 =0.21120.02710. 表3 处理组均数与对照组均数比较 处理 均数 与对照组的差异 P 反变换为平方对照组芥子气中毒组电离辐射组2.531.871.480.661.050.010.016.403.502.19.3.倒数变换 Y=1X常用于数据两端波动较大的资料。4.平方根反正弦变换 X= sin-1 X常用于服从二项分布的率或百分比的资料,如发病率、治愈率、病死率、有效率等。例 某医学院病理生理教研组研究不同温度对淋巴细胞玫瑰花瓣形成率的影响,结果见表1,试作方差分析和多重比较。

150、. 表1 不同温度对玫瑰花瓣形成率(%)的影响病员编号低温(4-6C) 室温(20-25C) 高温(30-37C)P sin-1 p P sin-1 pP sin-1 p12345总和均数40.034.034.034.534.539.2335.6735.6735.9735.97182.5136.5048.058.049.065.555.543.8549.6044.4354.0348.16240.0748.0149.036.040.016.015.044.4336.8739.2323.5822.79166.9033.38. 表2 方差分析结果 变异来源 自由度 SS MS F F0.05 P温度

151、间病人间误差总的24814594.04583.866371.1331049.044297.0220.9746.396.400.454.463.840.05用q检验法对各温度的形成率进行两两比较:Sd = 46.39/5 =3.046.将3个样本均数从大到小依次排列,组次 1 2 3均数 48.01 36.50 33.38组别 室温 低温 高温 表3 两两比较计算表对比组 两均数之差 标准误 q值 组数 q界值 P A与B XA-XB Sd =0.05 =0.011与31与22与314.6311.513.123.0463.0463.0464.8033.7791.0243224.043.263.2

152、65.644.754.750.050.05.第三节 析因设计的方差分析如果试验所涉及的处理因素的个数2,当各因素在试验中所处的地位基本平等,而且因素之间存在交互作用时,需选用析因设计。.一.22析因设计例 用A、B两药治疗12名贫血病人,性别、年龄一致,随机分成4组,治疗后1个月测得血中红细胞增加数(1012/L),结果如表,问A、B两药的治疗效果如何?两药是否存在交互效应?A、B两药治疗后病人红细胞增加数 (1012/L) A 药B药 用 不用用不用2.1 2.2 2.0 0.9 1.1 1.01.3 1.2 1.1 0.8 0.9 0.7.(1)建立检验假设和确定检验水准 对于有重复的两因

153、素设计资料方差分析,可以作3个原假设。 H0:A药无效; 或 H0:B药无效;或 H0:A、B两药无交互作用。=0.05(2)计算F值 1)列表计算各种 X、 X2。 A 药B 药 用(i=1) 不用(i=2) 合计 用(j=1)不用(j=2) 合计X=6.3 X2=13.25X=3.6 X2=4.34X=9.9 X2=17.59X=3.0 X2=3.02X=2.4 X2=1.94X=5.4 X2=4.96X=9.3 X2=16.27X=6.0 X2=6.28X=15.3 X2=22.55.2)校正数C= ( X)2/n = 15.32/12=19.513)总的离均差平方和 SS总= X2 -

154、 C = 22.55-19.51=3.044)总的处理离均差平方和 SS总处 = =6.32/3+ 3.02/3+ 3.62/3+ 2.42/3-19.51=2.965)A药的离均差平方和 SSA = ( X) i j2nij- C( X) i2nii j i- C =9.92/6+ 5.42/6-19.51= 1.696)B药的离均差平方和 SSB = ( X) j2nj j- C =9.32/6+ 6.02/6-19.51= 0.917)A药和B药的交互作用 SSAB = SS总处 - SSA - SSB =2.96-1.69-0.91=0.36 .8)误差离均差平方和 SS误差 = SS

155、总 - SS总处 =3.04-2.96=0.089) 计算与上述各种离均差平方和相对应的自由度总= n-1=12-1=11总处=(A的水平数B的水平数)-1=2 2-1=3A=A的水平数-1=2-1=1B=B的水平数-1=2-1=1AB= 总处 - A- B =3-1-1=1误差= 总 - 总处 =11-3=8 .10)列方差分析表变异来源 SS MS F 临界值总处理ABAB误差总2.961.690.910.360.083.0431118111.690.910.360.013611.3(3)确定P值并作出推断结论本例分析交互作用时,P FModel 3 2.96250000 0.987500

156、00 98.75 0.0001Error 8 0.08000000 0.01000000Corrected Total 11 3.04250000 R-Square C.V. Root MSE X Mean 0.973706 7.843137 0.10000000 1.27500000Source DF Anova SS Mean Square F Value Pr FI 1 1.68750000 1.68750000 168.75 0.0001J 1 0.90750000 0.90750000 90.75 0.0001I*J 1 0.36750000 0.36750000 36.75 0.0

157、003.二.三因素析因试验分析例 某病理生理教研室研究三种因素(小鼠种别、体重及性别)对皮下移植SRS瘤细胞生长特性影响的结果如表所示,试作方差分析。 皮下移植SRS瘤细胞生长特性研究组别 种别(A) 体重(B) 性别(C) 第8天肿瘤体积12345678昆明昆明昆明昆明沪白一号沪白一号沪白一号沪白一号大大小小大大小小雄雌雄雌雄雌雄雌0.7069 0.7845 0.35810.0785 0.1885 0.34031.0838 0.9425 0.33350.5027 0.9550 0.92150.0628 0.0942 0.04710.0126 0.0126 0.00940.4712 0.088

158、0 0.17590.2246 0.2513 0.3676.程序:data xy3;do a=1 to 2; do b=1 to 2; do c=1 to 2; do n=1 to 3; input x; output; end; end; end;end;cards;0.7069 0.7854 0.35810.0785 0.1885 0.34031.0838 0.9425 0.33350.5027 0.9550 0.92150.0628 0.0942 0.04710.0126 0.0126 0.00940.4712 0.0880 0.17590.2246 0.2513 0.3676;proc

159、anova;class a b c;model x=a b c a*b a*c b*c a*b*c;run;. Analysis of Variance ProcedureDependent Variable: XSource DF Sum of Squares Mean Square F Value Pr FModel 7 2.05341195 0.29334456 6.94 0.0007Error 16 0.67630296 0.04226893Corrected Total 23 2.72971491 Source DF Anova SS Mean Square F Value Pr F

160、A 1 1.20574768 1.20574768 28.53 0.0001B 1 0.54637873 0.54637873 12.93 0.0024C 1 0.06877963 0.06877963 1.63 0.2203A*B 1 0.03692642 0.03692642 0.87 0.3639A*C 1 0.05631828 0.05631828 1.33 0.2653B*C 1 0.09886801 0.09886801 2.34 0.1457A*B*C 1 0.04039321 0.04039321 0.96 0.3428.data samp9_2;input disease $

161、 age $ length;cards;d1 age20 20 d1 age30 25 d1 age40 24d1 age20 25 d1 age30 30 d1 age40 28d1 age20 22 d1 age30 29 d1 age40 24d1 age20 27 d1 age30 28 d1 age40 25d1 age20 21 d1 age30 30 d1 age40 30d2 age20 30 d2 age30 30 d2 age40 39d2 age20 45 d2 age30 29 d2 age40 42d2 age20 30 d2 age30 31 d2 age40 36

162、d2 age20 35 d2 age30 30 d2 age40 42d2 age20 36 d2 age30 30 d2 age40 40例9.2.d3 age20 31 d3 age30 32 d3 age40 41d3 age20 30 d3 age30 35 d3 age40 45d3 age20 40 d3 age30 30 d3 age40 40d3 age20 35 d3 age30 40 d3 age40 40d3 age20 30 d3 age30 30 d3 age40 35d4 age20 20 d4 age30 23 d4 age40 24d4 age20 21 d4

163、age30 25 d4 age40 25d4 age20 20 d4 age30 28 d4 age40 30d4 age20 20 d4 age30 30 d4 age40 26d4 age20 19 d4 age30 31 d4 age40 23;proc anova data=samp9_2;class disease age;model length=disease|age;means disease|age/tukey;data samp9_2a;set samp9_2;disage=disease|age;proc anova data=samp9_2a;class disage;

164、model length=disage;means disage/tukey;run;. Analysis of Variance Procedure Class Level Information Class Levels Values DISEASE 4 d1 d2 d3 d4 AGE 3 age20 age30 age40 Number of observations in data set = 60 . Analysis of Variance ProcedureDependent Variable: LENGTHSource DF Sum of Squares Mean Square

165、 F Value Pr FModel 11 2202.80000000 200.25454545 18.11 0.0001Error 48 530.80000000 11.05833333Corrected Total 59 2733.60000000 R-Square C.V. Root MSE LENGTH Mean 0.805824 11.01128 3.32540724 30.20000000Source DF Anova SS Mean Square F Value Pr FDISEASE 3 1580.93333333 526.97777778 47.65 0.0001AGE 2

166、264.90000000 132.45000000 11.98 0.0001DISEASE*AGE 6 356.96666667 59.49444444 5.38 0.0003 . Analysis of Variance Procedure Tukeys Studentized Range (HSD) Test for variable: LENGTH NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ.

167、Alpha= 0.05 df= 48 MSE= 11.05833 Critical Value of Studentized Range= 3.764 Minimum Significant Difference= 3.2316 Means with the same letter are not significantly different. Tukey Grouping Mean N DISEASE A 35.600 15 d3 A A 35.000 15 d2 B 25.867 15 d1 B B 24.333 15 d4 . Analysis of Variance Procedur

168、e Tukeys Studentized Range (HSD) Test for variable: LENGTH NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 48 MSE= 11.05833 Critical Value of Studentized Range= 3.420 Minimum Significant Difference= 2.5433 Means

169、 with the same letter are not significantly different. Tukey Grouping Mean N AGE A 32.950 20 age40 B 29.800 20 age30 B B 27.850 20 age20 .Level of Level of -LENGTH- DISEASE AGE N Mean SD d1 age20 5 23.0000000 2.91547595 d1 age30 5 28.4000000 2.07364414 d1 age40 5 26.2000000 2.68328157 d2 age20 5 35.

170、2000000 6.14003257 d2 age30 5 30.0000000 0.70710678 d2 age40 5 39.8000000 2.48997992 d3 age20 5 33.2000000 4.32434966 d3 age30 5 33.4000000 4.21900462 d3 age40 5 40.2000000 3.56370594 d4 age20 5 20.0000000 0.70710678 d4 age30 5 27.4000000 3.36154726 d4 age40 5 25.6000000 2.70185122 . Analysis of Var

171、iance ProcedureDependent Variable: LENGTHSource DF Sum of Squares Mean Square F Value Pr FModel 11 2202.80000000 200.25454545 18.11 0.0001Error 48 530.80000000 11.05833333Corrected Total 59 2733.60000000 R-Square C.V. Root MSE LENGTH Mean 0.805824 11.01128 3.32540724 30.20000000Source DF Anova SS Me

172、an Square F Value Pr FDISAGE 11 2202.80000000 200.25454545 18.11 0.0001 . Tukeys Studentized Range (HSD) Test for variable: LENGTH Tukey Grouping Mean N DISAGE A 40.200 5 d3 age40 A A 39.800 5 d2 age40 A B A 35.200 5 d2 age20 B A B A C 33.400 5 d3 age30 B A C B A C 33.200 5 d3 age20 B C B D C 30.000

173、 5 d2 age30 B D C B D C 28.400 5 d1 age30 D C D C 27.400 5 d4 age30 D C E D C 26.200 5 d1 age40 E D E D 25.600 5 d4 age40 E D E D 23.000 5 d1 age20 E E 20.000 5 d4 age20.第四节 裂区设计资料的方差分析.裂区:例9.3data samp9_3;do crowd=1 to 3; do family=1 to 6; do member=1 to 5; input x;output; end; end;end;cards; 5 7 6

174、 25 19 11 8 11 33 35 3 12 19 6 21 3 19 12 17 17 10 9 15 11 17 9 0 6 9 5 11 7 7 15 13 10 5 8 13 17 5 4 3 18 10 1 9 4 16 8 5 5 10 16 20 7 3 13 17 18 6 3 5 7 3 9 6 6 14 10 2 2 6 15 8 0 2 10 16 21 3 2 0 3 14 6 2 4 7 20;proc anova;class crowd family member;model x=crowd family crowd*family member crowd*m

175、ember;test h=crowd e=crowd*family;means member/tukey;run;. Analysis of Variance Procedure Class Level Information Class Levels Values CROWD 3 1 2 3 FAMILY 6 1 2 3 4 5 6 MEMBER 5 1 2 3 4 5 Number of observations in data set = 90 . Analysis of Variance ProcedureDependent Variable: XSource DF Sum of Sq

176、uares Mean Square F Value Pr FModel 29 2752.15555556 94.90191571 3.75 0.0001Error 60 1516.73333333 25.27888889Corrected Total 89 4268.88888889 R-Square C.V. Root MSE X Mean 0.644701 50.84304 5.02781154 9.88888889Source DF Anova SS Mean Square F Value Pr FCROWD 2 470.48888889 235.24444444 9.31 0.0003

177、FAMILY 5 211.82222222 42.36444444 1.68 0.1543CROWD*FAMILY 10 463.77777778 46.37777778 1.83 0.0736MEMBER 4 1533.66666667 383.41666667 15.17 0.0001CROWD*MEMBER 8 72.40000000 9.05000000 0.36 0.9384Tests of Hypotheses using the Anova MS for CROWD*FAMILY as an error termSource DF Anova SS Mean Square F V

178、alue Pr FCROWD 2 470.48888889 235.24444444 5.07 0.0301. Analysis of Variance Procedure Tukeys Studentized Range (HSD) Test for variable: X NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 60 MSE= 25.27889 Critica

179、l Value of Studentized Range= 3.977 Minimum Significant Difference= 4.7135 Means with the same letter are not significantly different. Tukey Grouping Mean N MEMBER A 15.333 18 5 A A 14.333 18 4 B 8.056 18 3 B B 5.889 18 1 B B 5.833 18 2.Linear regression直线回归 第十一部分第十一部分 第一节第一节.内容概述直线回归方程的建立回归系数和回归方程的

180、意义及性质回归系数的假设检验应变量总变异的分解回归问题的方差分析直线回归的区间估计.两个斜率的比较两条回归直线的合并过定点的直线回归直线回归与直线相关的区别及联系回归分析的正确应用.11.1 概述 Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) 直线回归的形式:.Regression 释义n=1078单位:英寸x= 68 y=69x1=72 y1=71x2=64 y2=67.11.1 直线回归方程的建立最小二乘法(least sq

181、uare estimation).例:某医院欲研究儿童的体重与体表面积的关系,测量了10名3岁男童体重与体表面积,数据见下表编号编号X (X,kg)Y (Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.0751016.06.411合计合计133.457.266.1112131415165.05.56.06.510名3岁男童体重与体表面积的直线回归 .体重与体表面积的回归体重与体表面积的回归.回归直线的绘制计算不太接近的两点的Y值:X=12kg时 Y=2

182、.5212+0.238512=5.3832(103cm2)X=15kg时 Y=2.5212+0.238515=6.0987(103cm2).10名名3岁男童体重与体表面积回归图岁男童体重与体表面积回归图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2).11.3 回归系数和回归方程的意义及性回归系数和回归方程的意义及性质质b 的意义a 的意义 的意义 的意义 的意义.b 的意义的意义斜率斜率(slope) 2.5212 + 0.2385 X 体重每增加体重每增加 1 kg, 则则 体体 表表 面面 积积 平平 均均 增增 加加 0.2385(103cm2

183、) b 的单位为的单位为 (Y的单位的单位/X的单位的单位).a 的意义a 截距截距(intercept, constant)X=0 时,时,Y的估计值的估计值a的单位与的单位与Y值相同值相同当当X可能取可能取0时,时,a才有实际意义。才有实际意义。.估计值 的意义X=11时, =5.145, 即体重为 11 kg 的三岁女童, 其平均体表面积之估计为 5.145 (103cm2);X=15时, =6.099, 即体重为 15 kg 的三岁女童, 其平均体表面积之估计为 6.099 (103cm2).给定X时,Y的估计值。当 时,.由体重(kg)估计体表面积(103cm2 ) X Y Y 的估

184、计值的估计值 (体重体重,kg) (体表面积体表面积)11.0 5.2835.14511.8 5.2995.33612.0 5.3585.38312.3 5.2925.45513.1 5.6025.64613.76.0145.78914.4 5.8305.95614.9 6.1026.07515.2 6.0756.14616.0 6.4116.337. 的意义 为残差:点到直线的纵向距离。1112131415165.05.56.06.5.残差平方和 (residual sum of squares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘) 的意义.回

185、归直线的有关性质(1) 直线通过均点 (2) 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和即: (3) 各点到该回归线纵向距离平方和较到其它任何直线者为小。 .11.4 回归系数的假设检验回归系数的假设检验回归系数为0,则回归关系不存在。 H0:总体回归系数为0, =0; H1:总体回归系数不为0,0; =0.05。.回归系数的回归系数的 t 检验检验.体重与体表面积回归系数的假设检验 H 0:总体回归系数 0,即体重与体表面积无回归关系;H 1:总体回归系数 0,即体重与体表面积有回归关系。 =0.05。 体重与体表面积间存在回归关系。.回归系数与相关系数的假设检验

186、结果等价。.11.5 因变量总变异的分解X P (X,Y)Y.Y的总变异分解未引进回归时的总变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression).Y的总变异分解 .剩余标准差(1) 扣除了X的影响后Y方面的变异;(2) 引进 回归方程后, Y方面的变异。.11.6 回归问题的方差分析 前面应变量总变异的分解与方差分析中方差的分解原理相同,因而,X对Y的影响是否有统计学意义,或X与

187、Y的回归关系是否成立,可以进行方差分析 .例11.2 对例11.1所建方程进行方差分析。H0:体重与体表面积间无直线回归关系; H1:体重与体表面积间有直线回归关系。=0.05。lXX=24.9040,lYY=1.5439,lXY=5.9396,SS总= lYY=1.5439, 根据式(11.6) SS剩 = 1.5439-5.93962/24.9040=0.1273根据(11.12): SS回 = SS总-SS剩=1.5439-0.1273=1.4166.变异来源SSMSF回 归1.416611.416689.01剩 余0.127380.0159总变异1.543990.1715表表11.2

188、方差分析表方差分析表得F=89.01,今1=1,2=8,查附表4 F界值表,得PF Model 3 1250109.0678 416703.02259 5.617 0.0355 Error 6 445140.93222 74190.15537 C Total 9 1695250 Root MSE 272.37870 R-square 0.7374 Dep Mean 2315.00000 Adj R-sq 0.6061 C.V. 11.76582 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error

189、 Parameter=0 Prob |T| INTERCEP 1 -3035.536354 2168.6738473 -1.400 0.2111 X1 1 60.931823 36.29713798 1.679 0.1442 X2 1 37.808334 22.98080891 1.645 0.1510 X3 1 101.379460 121.97470310 0.831 0.4377 .data dh_step;input x1 x2 x3 y;cards;35 69 0.7 1600 40 74 2.5 2600 40 64 2.0 2100 42 74 3.0 2650 37 72 1.

190、1 2400 45 68 1.5 2200 43 78 4.3 2750 37 66 2.0 1600 44 70 3.2 2750 42 65 3.0 2500;proc reg;model y=x1 x2 x3/selection=stepwise sle=0.25 sls=0.25;run;筛选自变量:. The SAS System 16:04 Sunday, January 7, 2001 5 Stepwise Procedure for Dependent Variable YStep 1 Variable X3 Entered R-square = 0.53118453 C(p)

191、 = 4.71246471 DF Sum of Squares Mean Square F ProbF Regression 1 900490.57889296 900490.57889296 9.06 0.0168 Error 8 794759.42110704 99344.92763838 Total 9 1695250.0000000 Parameter Standard Type II Variable Estimate Error Sum of Squares F ProbF INTERCEP 1637.19575228 246.20922932 4392767.9160253 44

192、.22 0.0002 X3 290.90311061 96.62324690 900490.57889296 9.06 0.0168Bounds on condition number: 1, 1-Step 2 Variable X1 Entered R-square = 0.61896273 C(p) = 4.70672706 DF Sum of Squares Mean Square F ProbF Regression 2 1049296.5667383 524648.28336917 5.69 0.0341 Error 7 645953.43326166 92279.06189452

193、Total 9 1695250.0000000 Parameter Standard Type II Variable Estimate Error Sum of Squares F ProbF INTERCEP -183.48373318 1453.25850121 1470.99962505 0.02 0.9031 X1 50.63563027 39.87471591 148805.98784538 1.61 0.2447 X3 192.16339366 121.31779145 231523.72409875 2.51 0.1572Bounds on condition number:

194、1.697181, 6.788726-.Step 3 Variable X2 Entered R-square = 0.73741871 C(p) = 4.00000000 DF Sum of Squares Mean Square F ProbF Regression 3 1250109.0677802 416703.02259340 5.62 0.0355 Error 6 445140.93221980 74190.15536997 Total 9 1695250.0000000 Parameter Standard Type II Variable Estimate Error Sum

195、of Squares F ProbF INTERCEP -3035.53635389 2168.67384731 145354.56406232 1.96 0.2111 X1 60.93182260 36.29713798 209069.10190861 2.82 0.1442 X2 37.80833426 22.98080891 200812.50104186 2.71 0.1510 X3 101.37945958 121.97470310 51251.51231406 0.69 0.4377 The SAS System 16:04 Sunday, January 7, 2001 6Bou

196、nds on condition number: 2.133908, 15.53593-.Step 4 Variable X3 Removed R-square = 0.70718629 C(p) = 2.69081285 DF Sum of Squares Mean Square F ProbF Regression 2 1198857.5554661 599428.77773307 8.45 0.0136 Error 7 496392.44453385 70913.20636198 Total 9 1695250.0000000 Parameter Standard Type II Var

197、iable Estimate Error Sum of Squares F ProbF INTERCEP -4187.41550753 1630.81959044 467527.75389212 6.59 0.0371 X1 80.27072077 27.23639300 615945.46755406 8.69 0.0215 X2 46.44930452 20.03696840 381084.71282655 5.37 0.0535Bounds on condition number: 1.030406, 4.121623-.All variables left in the model a

198、re significant at the 0.2500 level.No other variable met the 0.2500 significance level for entry into the model. Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial Model Step Entered Removed In R*2 R*2 C(p) F ProbF 1 X3 1 0.5312 0.5312 4.7125 9.0643 0.0168 2 X1 2 0.0878 0

199、.6190 4.7067 1.6126 0.2447 3 X2 3 0.1185 0.7374 4.0000 2.7067 0.1510 4 X3 2 0.0302 0.7072 2.6908 0.6908 0.4377.第十四部分 实验设计.第一节 实验设计的要素和原则.一. 实验设计中的基本要素1.实验因素(处理因素)实验中的处理因素是根据研究目的而施加的特定实验措施。在选择和确定处理因素时,应注意以下几个问题:(1)分清处理因素和非处理因素;(2)处理因素应当标准化。2.实验单位(受试对象).3.实验效应实验效应主要指处理因素作用于实验对象的反应。这种效应通过某些观测指标数值的大小来体现

200、。指标的选择应当注意以下几点:(1)选用客观性较强的指标;(2)注意指标的合理性;(3)选用灵敏度较高的指标。(4)选用精确性较强的指标。.二. 实验设计的4个基本原则重复、随机、对照、均衡是实验设计的4个基本原则。1.对照的原则就是要设立参照物。对照有多种方式:空白对照、安慰剂对照 、实验对照、标准对照、自身对照。.2.随机化 的原则就是每一个实验单位都有同等的机会被分配到任何一个组中去,分组的结果不受人为因素的干扰和影响。例 将实验对象随机的分配到甲、乙两组。对象编号 1 2 3 4 5 6 7 8 9 10随机数字 6 1 5 4 0 7 8 3 9 2 所属组别 甲 乙 乙 甲 甲 乙

201、 甲 乙 乙 甲 .3.均衡的原则就是要设法使各条件下的受试对象受到非实验因素的干扰和影响的机会和数量基本相等。4.重复的原则就是实验因素各水平组合下要有足够的样本含量。.第二节 实验设计的方法.1.完全随机设计2.随机区组设计3.拉丁方设计4.交叉设计5.析因设计6.正交设计.一.交叉设计交叉设计时可以采用下述方法来安排受试对象:选取n(n为偶数)个受试对象,随机地使半数受试者先接受A处理,后接受B处理,而另一半受试者则正好相反,即先接受B处理再接受A处理。两种处理先后作用于同一批受试对象,并且以同等的机会出现在两个试验阶段中,故称为两阶段交叉设计。.例 现有20例(10对)实验对象,将其按

202、交叉设计的要求进行A、B两种处理方式的随机分配。受试者号 1.1 2.1 3.1 4.1 5.1 6.1 7.1 8.1 9.1 10.1 1.2 2.2 3.2 4.2 5.2 6.2 7.2 8.2 9.2 10.2随机数字 9 3 0 2 1 5 8 6 4 7用药顺序 AB AB BA BA AB AB BA BA BA AB BA BA AB AB BA BA AB AB AB BA.优点:1.平衡了实验顺序的影响,避免了时间上的误差,而且能将实验处理之间的差异和时间先后之间的差异分开;2.获得了同一个体先后比较的好处,缩小了实验误差;3.减少了被试的数目。缺点:1.至少需要增加一倍

203、的时间,因此不适用于急性疾患;2.要求当前一个处理停止时,没有残留效应。应用:评价可缓解症状、但无根治作用的药物的疗效。.例 为研究12名高血压病人用A、B两方案疗效的差别,采用交叉设计随机地让其中6名病人先以A法治疗,后以B法治疗;另外6名病人先B法、后A法。记录治疗后血压的下降值(kPa),试作统计分析。表12.1 12名病人用A、B两法治疗的血压下降值 (kPa)病 人 编 号 阶段 疗法1 2 3 4 5 6 7 8 9 10 11 12 合计(Gj) 合计Rk阶段I B B A B A A A A B B B A 3.07 1.33 4.40 1.87 3.20 3.73 4.13

204、1.07 1.07 2.27 3.47 2.40 32.01 33.61II A A B A B B B B A A A B 2.80 1.47 3.73 3.60 2.67 1.60 2.67 1.73 1.47 1.87 3.47 1.73 28.81 27.21合计 5.87 2.80 8.13 5.47 5.87 5.33 6.80 2.80 2.54 4.14 6.94 4.13 60.82 60.82(Ti)解(1)建立检验假设、确定检验水准。 H0: A= B, H1: A B, =0.05; H0: I= II, H1: I II, =0.05; H0: 1= 2 = = 12

205、, H1: 各i 不全相等, =0.05.(2)计算统计量F SS总= SS个体+ SS阶段+SS处理+SS误差 C= (X)2/n SS总= X2 - C SS个体= Ti2 - C, J:试验阶段数; Ti:第i个个体的合计,i=1,2,I SS阶段= Gj2 - C Gj:第j试验阶段的合计,j=1,2,J SS处理= Rk2 - C , Rk:第k种处理的合计,k=1,2,K SS误= SS总- SS个体 -SS阶段-SS处理1Ji1Ij1Ik.数据代入计算得: C= (60.82)2/24=154.1280 SS总= (3.072 +1.332 +3.472 +1.732 )-154

206、.1280 =177.8802-154.1280=23.7522 SS个体= (5.872 + 2.802 + + 6.942 + 4.132 )/2- 154.1280=17.9081 SS阶段=(32.012 + 28.812 )/12-154.1280=0.4267 SS处理=(33.612 + 27.212 )/12-154.1280=1.7067 SS误= 23.7522-17.9081-0.4267-1.7067=3.7107 总=n-1=24-1=23, 个体=I-1=12-1=11, 阶段=J-1=2-1=1, 处理=K-1=2-1=1, 误差=23-11-1-1=10. 表1

207、2.2 交叉设计方差分析表 来源 SS MS F P个体阶段处理误差总17.90810.42671.70673.710723.7522111110231.62800.42671.70670.37114.391.154.600.01 P0.050.05(3)确定P值并作出推断结论F0.05(11,10)=2.94 F0.05(1,10)=4.96F0.01(11,10)=4.98 F0.01(1,10)=10.0认为各个体降压效果不同,不能认为A与B两法疗效不同,不能认为两个阶段的治疗效果有差别。.data a;do sub=1 to 12;do step=1 to 2;input treat

208、$ x ;output;end;end;cards;b 3.07 a 2.80b 1.33 a 1.47a 4.40 b 3.73b 1.87 a 3.60a 3.20 b 2.67a 3.73 b 1.60a 4.13 b 2.67a 1.07 b 1.73b 1.07 a 1.47b 2.27 a 1.87b 3.47 a 3.47a 2.40 b 1.73;proc anova;class sub step treat;model x=sub step treat;means sub step treat;run;交叉设计的SAS程序:. Analysis of Variance Pro

209、cedure Class Level Information Class Levels Values SUB 12 1 2 3 4 5 6 7 8 9 10 11 12 STEP 2 1 2 TREAT 2 a b Number of observations in data set = 24. The SAS System 14:21 Saturday, January 13, 2001 20 Analysis of Variance ProcedureDependent Variable: XSource DF Sum of Squares Mean Square F Value Pr F

210、Model 13 20.04141667 1.54164744 4.15 0.0150Error 10 3.71076667 0.37107667Corrected Total 23 23.75218333 R-Square C.V. Root MSE X Mean 0.843772 24.03791 0.60916062 2.53416667Source DF Anova SS Mean Square F Value Pr FSUB 11 17.90808333 1.62800758 4.39 0.0135STEP 1 0.42666667 0.42666667 1.15 0.3088TRE

211、AT 1 1.70666667 1.70666667 4.60 0.0576. Analysis of Variance Procedure Level of -X- SUB N Mean SD 1 2 2.93500000 0.19091883 2 2 1.40000000 0.09899495 3 2 4.06500000 0.47376154 4 2 2.73500000 1.22329473 5 2 2.93500000 0.37476659 6 2 2.66500000 1.50613744 7 2 3.40000000 1.03237590 8 2 1.40000000 0.466

212、69048 9 2 1.27000000 0.28284271 10 2 2.07000000 0.28284271 11 2 3.47000000 0.00000000 12 2 2.06500000 0.47376154 . Level of -X- STEP N Mean SD 1 12 2.66750000 1.17231027 2 12 2.40083333 0.86382299 Level of -X- TREAT N Mean SD a 12 2.80083333 1.12808332 b 12 2.26750000 0.85531626.二. 拉丁方设计.(一)拉丁方设计的概念

213、.拉丁方是指由拉丁字母所组成的方阵,在同一行或列内没有重复的字母。用来排列拉丁方的字母个数叫做拉丁方的阶,如用P个字母排列的方阵叫做P阶拉丁方,记为PP式。A BB A例如:A B CC A BB C AA B C DB C D AC D A BD A B C33式22式44式A B C D EB A E C DC D A E BD E B A CE C D B A55式.拉丁方设计是随机化区组设计的扩展,在拉丁方设计中,实验单元按两种属性形成区组,然后,将实验处理按行排与按列排,排列方式符合拉丁方。受试者甲乙丙丁戊试验日期AEDCBBAEDCCBAEDDCBAEEDCBA 1 2 3 4 5

214、例 研究五种防护服对穿着者脉搏数的影响。.优点:1.比随机化区组设计更能降低实验误差,实验设计的精确性和灵敏性更高;2.能够以较少的人力、物力和时间获得更多的信息。缺点:1.只能分析三个因素;2.要求各因素的水平数完全相等;3.不能研究交互作用。应用:已知各因子间确实无交互作用,而且各水平数又相等时。.(二)拉丁方设计的方差分析 SS总= SS行+ SS列+SS处理+SS误差 C= (X)2/ (pp) SS总= X2 - C SS行 = Ti2 - C Ti:第i行的合计,i=1,2,p SS列 = Gj2 - C Gj:第j列的合计,j=1,2,p SS处理= Rk2 - C , Rk:第

215、k种处理的合计,k=1,2,p SS误= SS总- SS行 -SS列-SS处理1pi1pj1pk总=p2-1, 行= 列= 处理=p-1, 误差= 总- 行 - 列- 处理.例 某医学科学研究所药物研究室,在比较7种药物对磷酸组胺引起的豚鼠离体气管解痉作用的实验中,采用77拉丁方设计,借以比较各药的平喘效果。7种药物如下:A:松球合剂 B:2.5%氨基碱C:生理盐水(对照) D:10% 3,5核苷酸E:枫杨合剂糖浆 F:10% 713G:10% 714试验结果如下表,试进行方差分析。. 表12.3 7 7拉丁方与实验结果/mm 给 药 次 序1 2 3 4 5 6 7总和气管编号1234567

216、总和A 21B 25C 0D 10E 6F 7G 2.571.5B 19E 4F 7G 4D 0C 0A 640.0C 0A 3G 0E 7B 9D 10F 332.0D 0G 0B 11F 7C 0A 11E 1241.0E 5F 1D 7C 0A 0.5G 3B 2642.5F 5D1.5A 6B 17G 4E 6C 039.5G 2C 0E 4A 7F 5B 15D 639.052.034.535.052.024.552.055.5305.5各药之和 A B C D E F G 总和 54.5 122 0 34.5 44.0 35.0 15.5 305.5.解(1)建立检验假设、确定检验

217、水准。 H0,1:不同药物所对应的观测指标的总体均数相等, H1,1:不同药物所对应的观测指标的总体均数不全相等; H0,2:不同气管所对应的观测指标的总体均数相等, H1,2:不同气管所对应的观测指标的总体均数不全相等; H0,3:不同给药次序所对应的观测指标的总体均数相等, H1,3:不同给药次序所对应的观测指标的总体均数不全相等。 =0.05(2)计算统计量F C= (305.5)2/49=1904.7 SS总= (212 +192 +62 )-1904.7=2033.1 SS行= (52.02 + 34.52 + + 55.52)/7- 1904.7=125.0 SS列=(71.52

218、+ 40.02 + + 39.02)/7- 1904.7=138.8 SS处理=(54.52 + 1222 + + 15.52)/7- 1904.7=1301.8 SS误差= 2033.1-125.0-138.8-1301.8 = 467.5 总=48, 行= 列= 处理=7-1=6, 误差=48-6-6-6=30. 表12.4 方差分析表 来源 SS MS F P气管间次序间药物间误差总125.0138.81301.8467.52033.1666304820.8323.13217.0015.581.341.4813.930.05 0.05 FModel 18 1565.65306122 86

219、.98072562 5.58 0.0001Error 30 467.39795918 15.57993197Corrected Total 48 2033.05102041 R-Square C.V. Root MSE X Mean 0.770100 63.30932 3.94714225 6.23469388Source DF Anova SS Mean Square F Value Pr FA 6 124.97959184 20.82993197 1.34 0.2719B 6 138.83673469 23.13945578 1.49 0.2169C 6 1301.83673469 216

220、.97278912 13.93 0.0001.三. 正交设计是利用一系列规格化的正交表来安排多因素试验的一种十分有效的设计方法。.优点:1.可以用较少的实验次数得到较多的信息;2.可以分析交互作用。应用:特别适合从许多因素中,选出主要因素及其最优水平。.(一)正交表.表12.5 L8(27)正交表列号 1 2 3 4 5 6 71234567811112222112211221122221112121212121221211221122112212112表12.6 L9(34)正交表列号 1 2 3 4 123456789111222333123123123123231312123312231

221、.正交表记号的意义;L9(34)正交表行数(需做9次实验)列数(最多只能安排4个因子)水平数(每个因子都是3水平)L9(34)表示最多可以安排4个因素的3水平实验,实验共需做9次。.正交表的两个特点:1.每列中不同数字出现的数目相等;2.任取两列,同一行上的有序数对出现的次数也相同。.(二)交互作用表对应于每一张正交表都有一张交互作用表。.表12.7 L4(23)二列间交互作用表 1 2 312 3 2 1列号.根据分析要求,选用合适的正交表,把各因子安排在各列的过程称为表头设计。(三)表头设计.例 研究者要分析A、B因子的主效应和交互作用,可选用L4(23)正交表,根据交互作用表得到表头设计

222、。表12.8 表头设计:列号 1 2 3因子 A B A B表12.7 L4(23)二列间交互作用表 1 2 312 3 2 1列号.也可选用L8(27)正交表,根据交互作用表得到表头设计。表12.9 L8(27)二列间交互作用表列号 1 2 3 4 5 6 7 3 2 5 4 7 6 1 6 7 4 5 7 6 5 4 1 2 3 3 2 1123456表头设计:列号 1 2 3 4 5 6 7因子 A B A B.(四)正交试验及其方差分析的基本步骤1.确定观察指标;2.拟定可能影响观察指标的因子和水平,选择合适的正交表;3.做表头设计:结合正交表的交互作用表把单个因素及其交互作用分别安排

223、在表头的各列号之下;4.按设计的试验条件 进行试验;5.对数据作方差分析,获得结论。.例 某研究者用大白鼠作实验,观测指标为细胞色素P420,可能影响的因子有诱导剂(生理盐水或戊巴比妥)、异氟醚和动物性别。试给出实验方案并作分析。解: 表12.10 异氟醚毒性试验的因子和水平因子诱导剂A 异氟醚B 性别C水平12生理盐水戊巴比妥不用用雄雌.现选用表12.5 L8(27)正交表来安排本实验,伴随该表的还有一张交互作用表。表12.9 L8(27)二列间交互作用表列号 1 2 3 4 5 6 7 3 2 5 4 7 6 1 6 7 4 5 7 6 5 4 1 2 3 3 2 1123456得到下面的

224、表头设计:列号 1 2 3 4 5 6 7因子 A B A B C A C B C A B C.将安排好因子的列中的数字换成该因子相应的水平,就得到表12.11的实验方案。表12.11 有重复的L8(27)正交实验方案和结果列 号 细胞色素P420实验号1 2 3 4 5 6 7 X1 X2 X3 X A B A B C A C B C A B C12345678T1T21生1生1生1生2戊2戊2戊2戊4.296.511不用1不用2用2用1不用1不用2用2用8.851.95112222113.826.981雄2雌1雄2雌1雄2雌1雄2雌4.885.92121221215.775.0312211

225、2214.815.99122121125.705.100.540.350.280.170.541.200.110.100.570.760.190.241.081.190.160.180.320.540.170.160.820.940.100.091.431.650.640.572.443.330.370.37T=10.80.对上表资料进行方差分析:(1)建立检验假设、确定检验水准。 H0: 各因素的作用及有关交互作用都不存在; H1: 有关因素的作用或交互作用存在; =0.05(2)计算F值 C=T2/nmr=10.802/(3 2 4)=4.86 SSt= (0.542 +0.572 +0.

226、092 )-4.86=3.074 各列平方和: SSA= (4.292 + 6.512 )/(3 4)-4.86=0.205 SSB= (8.852 + 1.952 )/(3 4)-4.86=1.984 SSAB= (3.822 + 6.982 )/(3 4)-4.86=0.416 SSC= (4.882 + 5.922 )/(3 4)-4.86=0.045 .SSAC= (5.772 + 5.032 )/(3 4)-4.86=0.023 SSBC= (4.812 + 5.992 )/(3 4)-4.86=0.058 SSABC= (5.702 + 5.102 )/(3 4)-4.86=0.0

227、15 SSW = 3.074-0.205-1.984- -0.015=0.328 t=3 8-1=23, 各列的自由度 A= B=AB= C= AC= BC=ABC=2-1=1 e=23-7=16得方差分析表12.12。. 表12.12 方差分析表(3)确定P值并作出推断结论F0.05(1,16)=4.49 , F0.01(1,16)=8.53表明因子A和B的主效应以及交互作用A B的效应非常显著。 来源 SS MS F PABA BCA CB CA B C组内W总的t0.2051.9840.4160.0450.0230.0580.0150.3283.0741111111162310.2599

228、.2020.802.251.152.900.750.01 0.01 0.05 0.05 0.050.050.2051.9840.4160.0450.0230.0580.0150.020.专业结论:从表12.11的实验结果可知,用生理盐水A1作诱导剂比用戊巴比妥A2时,细胞色素P420更低;而因子B则相反,用异氟醚B2比不用B1时,细胞色素P420更低;分析A和B的交互作用:A1 A2B1B23.08 5.771.21 0.74当取A2B2时,即用异氟醚且用戊巴比妥作诱导剂时,细胞色素P420最低。.data a;input a b c;do j=1 to 3;input x;output;en

229、d;cards;1 1 1 0.54 0.57 0.321 1 2 0.35 0.76 0.541 2 1 0.28 0.19 0.171 2 2 0.17 0.24 0.162 1 1 0.54 1.08 0.822 1 2 1.20 1.19 0.942 2 1 0.11 0.16 0.102 2 2 0.10 0.18 0.09;proc anova;class a b c;model x=a b c a*b a*c b*c a*b*c;run;.(2)按上述表头设计,试验结果如下,试进行方差分析。细菌培养实验结果列 号 实验号1 2 3 4 5 6 7 结果 A B A B C A C

230、 e e 12345678111122221122112211222211121212121212212112211221122121123846345342284123.列 号 实验号1 2 3 4 5 6 7 结果 A B A B C A C e e 12345678111122221711341122112215415111222211148157121212121551501212212112318212211221156149122121121601453846345342284123T=305T1T2. 来源 SS MS F PABA BCA C误差总的t171.1251.12510.1253.125435.12534.25654.87511111279.990.070.590.1825.410.05 0.05 0.050.050.05 方差分析表171.1251.12510.1253.125435.12517.125.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号