2022年医学统计复习资料

上传人:博****1 文档编号:567246589 上传时间:2024-07-19 格式:PDF 页数:19 大小:487.38KB
返回 下载 相关 举报
2022年医学统计复习资料_第1页
第1页 / 共19页
2022年医学统计复习资料_第2页
第2页 / 共19页
2022年医学统计复习资料_第3页
第3页 / 共19页
2022年医学统计复习资料_第4页
第4页 / 共19页
2022年医学统计复习资料_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《2022年医学统计复习资料》由会员分享,可在线阅读,更多相关《2022年医学统计复习资料(19页珍藏版)》请在金锄头文库上搜索。

1、读书之法 ,在循序而渐进 ,熟读而精思第一至五章统计学是 研究数据及其存在规律的科学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。统计学的 总体 是指根据研究目的确定的、全部同质个体的某个(或某些) 变量值。 这里的 个体又称观察单位(或研究单位) ,可以是一个社区、一个特定的人群、一个人、一个血样、一个细胞、一个基因、一个蛋白质等。样本: 总体中 有代表性的一部分。根据研究目的,对研究对象的某个或某些特征(亦称研究指标或项目)实施观测,这些特征(指标或项目)称为变量 。变量的测 得值叫 变量值(也叫观察值或资料)统计工作的步骤一研究设计,二收集资料;三整理资料;四分析资料。计量资

2、料定义通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。如:体重与身高, 特点: 有度量衡单位;多为连续性资料(通过测量得到)计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点 :没有度量衡单位;多为间断性资料(通过枚举或记数得来)等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点: 每一个观察单位没有确切值;各组之间有性质上的差别或程度上的不同。总体: 根据研究 目的 确定的 同质的、观察单位的全体 。同质与变异 研究对象具有的相同的状况或属性等共性称同质 或 同质性 ;对于同质的各观察单

3、位,其某变量值之间的差异,称为 变异。误差: 统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有二种:系统误差;随机误差。系统误差: 指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小。特点:具有累加性。 随机误差: 由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数参加而减小。抽样误差: 由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样发生抽样误差就不可避免。减少抽样误差的方法:(1)增加样本的代表性。样本量n 相等的情况下:整群抽样 单纯随机抽样系统抽样 分层抽样( 2) 增加样本量n (3)

4、选择变异程度较小的研究指标。概率: 描述随机事件发生的可能性大小的数值,常用P来表示。 P 的大小在0 和 1之间。通常一个事件的发生小于5%,就叫小概率事件。频率: 在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。实验设计与调查设计目的:观察不同处理因素的效应。3 个基本要素:1 处理因素和非处理因素、2 实验对象、 3 试验效应通过实验指标表达选择指标的依据(1 准确性、 2 灵敏性、 3 稳定性) 基本原则: 对照的原则(保证均衡一致的条件1、对等 2 同步 3 专设) 、重复原则(样本量) 、随机化原则。频数: 当汇总大量的原始数据时,把数据按类型分组

5、,其中每组数据个数,称该组的频数。频数表(频数分布) : 将变量值分为不同数量的组段,清点各组段的例数。表示各组及其对应的组频数的表格。意义 概括了解变量值在各组段的分布和规律。两个特征:集中趋势与离散趋势(共性与个性)主要用途:1.揭示分布类型2. 发现特大值和特小值3.计算集中趋势指标与离散趋势指标。资料的统计描述:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料频数表的编制步骤1.确定全距( R)=最大值 最小值 2.定组数( 8-15 组)和组距:3.写出组段的下限:第1 组段值小于或等于最小变量值,并以整数(0,5 或 2,4,6, 8)较好。 4.划计并计数:变量(x

6、)归为 L xU(见表 2-1 平均数概念:平均数表示一组同质计量数据集中趋势的位置和平均水平。作用: 是一组计量数据平均水平的代表值;可作为不同组间的比较值。算术均数 ( mean);简称均数 ,用表示 . 一表 2-1 101 名正常成年女性血清总胆固醇频数表组段频数( f)组中值 X fX 2.3- 1 2.45 2.45 2.6- 3 2.75 8.25 2.9- 6 3.05 18.30 3.2- 8 3.35 3.5- 17 3.65 3.8- 20 3.95 12nXxxxXnnffXXX精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第

7、 1 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思4.1- 17 4.25 4.4- 12 4.55 4.7- 9 4.85 5.0- 5 5.15 5.3- 2 5.45 5.6- 5 1 5.75 合计101 409.7 加权法公式计算几何均数适用条件:X 值呈倍数增长或部分数据偏离过大偏态分布(正偏态)资料。计算公式:例 2-4 某地 5 例微丝蚴血症患者治疗7 年后用间接荧光抗体试验测得其抗体滴度分别为1/10,1/20,1/40,1/80,1/160,求几何均数。结论: 平均抗体滴度为1:34(几何均数法)中位数M :定义: 将一组变量值由小到大依次排列,居以中间位次的观察

8、值即为中位数,为这组数据的平均数。适用于描述偏态分布资料的平均水平。如潜伏期、病程资料。中位数的计算N 为奇数N 为偶数百分位数是一种位置指标,用表示。定义: 将一组变量值由小到大依次排列,为第x 百分位数的秩次,其对应的变量值( x)为第 x 百分位数,记为 Px。例: 8位患者某病的住院天数:2 2 2 3 3 4 5 6 求 50%位数和 80%位数。解:第50%位次: nX%=8 0.5=4 中位数 =P50=3(天)第 80%位次: nX%=8 0.8=6.4,用公式2.7 百分位数计算结果的应用1.常计算 P25、P50 、P75、和 P95,为临床治疗提供依据。例 2-9:120

9、 名细菌性痢疾治愈的住院天数P5=3.5(天) ,即只有5%的人住院低于3.5 天。P95=15(天)2.确定医学指标的参考值几个常用的变异指标极差;全距(Range) :意义: R 值越大,表示该组数据的变异越大。缺点: 数据利用不全,部分信息损失,在例数少时结果不稳定。四分位数间距:常用QR 表示QR=P75%-P25%作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例: QR= P75%-P25% =67.739.2=28.5 天表示方法: Md( QR)M=51 天, (QR=28.5 天)标准差的简化计算公式:(列数较少)kkkfffXfXfXfffXX212211)/(06.

10、410175.5175. 2345.21LmmolffXX1lglg()ifXGf510204040 16034.8G11lglg10 lg20 lg40 lg40 lg160lg ()lg () 34.85XGn1(1)2nMX(1)221()2nnMXXxP80(6.4)175truncpxx(天)1/)(22nnXXS1/)(22fffXfXS精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思(频数表资料)例 2-11 甲组 5 名同龄男孩的身高值(cm)X X290 8100 95 9

11、025 100 10000 105 11025 110 12100 标准差的意义:反映一组变量值变异程度,组间单位相同时,S 越小,表示数据的变异程度越小。变异系数 (CV) 1.单位不同时组间变异程度的比较。某地 7 岁年龄组男童身高与体重指标S CV(%) 身高 (cm) 123.10 4.71 3.83 体重 (kg) 22.29 2.26 10.14 结论:7 岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。某地不同年龄组男童身高(cm)年龄组S CV% 1-2 月56.3 2.1 3.73 5-6 月66.5 2.2 3.31 3-3.5 岁96.1 3.1 3.22

12、5-5.5 岁107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。参数统计 :统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。非参数统计 :有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型的假设检验;是通过将样本实际数据排队编秩后,对秩次进行比较,因此也叫秩和检验。抽样误差 :由于抽样引起的样本统计量与总体参数之间的差异。标准误:( x Sx) 表示抽样误差大小的指标;样本均数的标准差。(均数) 标准误 意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体

13、均数的可靠性越大。点估计 是用样本统计量直接估计其总体参数值。如用估计、S 估计等。方法虽简单,但未考虑抽样误差大小区间估计 是按预先给定的概率(1-),确定一个包含总体参数的范围。该范围称为参数的可信区间评价可信区间估计的优劣:正确性:可信度,即区间包含总体参数的理论概率大小,愈接近1 愈好。精确性:区间的宽度,区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽可信区间与参考值范围的区别可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计个体值的分布范围,个体值有很多。95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%

14、。95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。个体值的波动样本量越大,参考值的范围越稳定,总体均数的可信区间:样本量可信区间越小95% 的可信区间的理解:从正态总体中随机抽取100 个样本,可算得100 个样本均数和标准差,也可算得100 个均数的可信区间,平均约有95 个可信区间包含了总体均数。但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数正常值范围与可信区间正常值范围 概念:绝大多数正常人的某指标范围。(95%,99%, 指绝大多数正常人)91.7155/)500(502502S500X502502X精选学习资料 - - -

15、 - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思用途 :判断观察对象的某项指标是否正常. 可信区间概念:总体均数所在的数值,范围(95%,99% 指可信度) 用途: 估计总体均数正态分布 是描述连续型变量值分布的曲线,医学上许多资料近似服从正态分布。正态分布在统计推断上有重要的直方图的频数分布与正态分布正态分布曲线理论上的特征1)以 X= 为中心 , X 值呈钟型分布对称性减少。(2 )在X= 处, f(x)取最大值。(3 )正态分布由 、决定正态分布的位置和形状。随 不同,曲线位置不同,称为位置参数。越大,曲线形

16、状不同,称 为形状参数。医学参考值 是指包括绝大多数“ 正常人 ” 的各种生理及生化指标常数,也称正常值。 正常值是 指在一定范围内波动的值,医学上常用 95%的范围作为判定正常或异常的参考标准。医学参考值制定时注意问题1.确定诊断指标为“ 定性 ” 或“ 定量 ” 2. 计量数据要确定其分布(正态或偏态 )3.计量资料考虑制定单侧诊断界值还是双侧诊断界值 4.有足够的样本例数(一般不低于100 例)二项分布 是指在只会产生两种可能结果如“ 阳性 ” 或“ 阴性 ” 之一的 n次独立重复试验中, 当每次试验的“ 阳性 ” 概率保持不变时,出现 “ 阳性 ” 的次数 X=0 ,1, 2,n 的一

17、种概率分布。记为XB (n,), n 为试验次数,为“ 阳性 ” 概率。适用条件1,每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1;2,每次试验产生某种结果(如“ 阳性 ” )的概率 固定不变;3,各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。二项分布的应用总体率的区间估计样本率与总体率的比较两样本率的比较研究非遗传性疾病的家族集聚性群检验I 型错误和II 型错误II 类错误的概率 值的两个规律:1. 当样本量一定时, 愈小 , 则 愈大,反之 ;2.当 一定时 , 样本量增加 , 减少 . 3.举例说明对合计率标准化的基本思想。答:两人群发

18、病率、死亡率、出生率、病死率等的比较,常考虑人群性别、年龄等构成的影响,需对率进行标准化。率标准化法的基本思想就是采用统一的标准人口构成,以消除人口构成不同对人群总率的影响,使算得标准化率具有可比性。举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?答:( 1)度量衡单位不同的多组资料的变异度的比较。例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。(2)比较均数相差悬殊的多组资料的变异度。例如,3 岁儿童与20 岁成年人身高差异的比较。t 分布的图形与特征t 分布为一簇单峰分布曲线,不同,曲线形状不同 ;t 分布以 0 为中心,左右对

19、称t 分布与 有关, 越小,t 值越分散, t 分布的峰部越低,而两侧尾部翘得越高;当 逼近 , S X逼近X,t 分布逼近 u 分布统计图的概念用点的位置、线段的升降、直条的长短及面积的大小等几何图形表达事物的统计指标大小、对比关系及变化趋势。统计图的种类条图(bar chart)圆图(pie chart) 百分比条图 (percent bar chart) 线图(line graph) 直方图(histogram) 散点图(scatter diagram)统计地图( statistical map)数据分析中应用:箱式图、茎叶图、残差图等。条图 (bar chart)用等宽直条的长短来表示

20、相互独立的各统计;指标的数值大小。分为:可能发生的两类错误假设检验的结果客观实际拒绝 H0不拒绝 H0H0成立I 型错误( ) 推断正确(1) H0不成立即H1成立推断正确(1) II 型错误( ) 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思单式条图:具有一个统计指标,一个分组因素;复式条图:具有一个统计指标,两个分组因素;分段条图:具有两个有隶属关系的统计指标,一个分组因素。圆图 pie chart:用圆的总面积表示事物的全部,用各个扇形面积(圆心角大小)表示各部分比重,适用于各构成

21、比相加为100%的资料。绘制:(1)计算各部分的角度:圆心角(度)=360(2)绘制图形:先画出圆形,再借助量角器画出各圆心角。(3)图例:各扇形内要注明简要的文字和百分比,还可绘入花纹或色彩。直方图 histogram 即频数分布图,用矩形面积表示某个连续型变量的频数(频率)分布。绘制:通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率。箱式图 (箱-髯图) (box-whisker plot )用于比较两个或多个样本分布的中心位置和散布范围。P0 P25 P50 P75 P100 随机抽样的基本原则,亦称“随机化”原则,即总体中每个个体的被抽中的机会均等1.单纯随机抽样也称

22、简单随机抽样,是最简单、最基本的抽样方法。是指所有抽样的基本单位有同样的概率被抽取的抽样方法。2.分层抽样 -此抽样方法的特点是先按某种特征(如性别、年龄、职业、教育程度等)将调查人群分为若干层,然后样本在各层中分别随机抽样,并合成调查。3.机械抽样,又称系统抽样-_是按照某种顺序给总体中的各个体编号,然后随机的抽取一个编号作为第一调查个体,其他的调查个体则按照某种规定的规则抽取。4、整群抽样 _-常应用在以社区居民为对象的大规模流行病学调查中。先将总体分成若干群体,形成一个抽样框;从中随机抽取几个群体组成样本;对抽中群体的全部个体进行调查,称整群抽样。4 种基本抽样方法比较单纯随机抽样系统抽

23、样整群抽样分层抽样优点简单直观,是其它抽样的基础;均数(或比率)及标准误计算简便简便易形;易得到安比例分配的样本便于组织;节省经费;容易控制调查质量抽样误差小; 对不同层可采用不同抽样方法; 可对不同层独立进行分析缺点不适合从例数较多的总体抽样;样本分散,难以组织调查如果抽样间隔与抽样对象的某特征分布吻合,易产生偏差抽样误差较大;群间变异越大,抽样误差越大需要掌握对抽样对象的分层特征。抽样工作量大适用范围主要用于小样本的情形适合抽样对象有某种顺序编号的情形适合抽样总体很大的情况主要用于控制重要混杂因素影响Poisson分布的概念:Poisson 分布更多地专用于研究单位时间、单位人群、单位空间

24、内,某罕见事件发生次数的分布。Poisson分布的性质:1Poisson 分布是一种单参数的离散型分布,其参数为,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。2Poisson分布的方差 2 与均数 相等,即 2=3Poisson 分布是非对称性的,在不大时呈偏态分布,随着 的增大,迅速接近正态分布。一般来说,当=20 时,可以认为近似正态分布,Poisson 分布资料可按正态分布处理。4Poisson 分布的累计概率常用的有左侧累计和右侧累计两种。单位时间或空间内事件发生的次数最多为 k 次的概率(X= 0,1,2, )最少为 k 次的概率(X= 0,1,2,)精选学习资料 -

25、- - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思5Poisson 分布的图形已知,就可按公式计算得出X= 0 ,1,2,时的P(X)值,以X 为横坐标,以P(X)为纵坐标作图,即可绘出Poisson 分布的图形Poisson 分布的形状取决于的大小。 值越小,分布越偏,随着 的增大,分布越趋于对称,当 =20 时,分布接近正态分布,当=50 时,可以认为Poisson 分布呈正态分布N(, ) ,按正态分布处理。6 Poisson 分布是二项分布的极限形式二项分布中,当很小而 n 很大,n时,二项分布趋于Po

26、isson 分布。7 Poisson分布的观察结果有可加性Poisson分布的应用条件:Poisson 分布的应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。Poisson 分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000 人或更多作为单位人群,某些发病率极低的疾病要求更多。第六章参数估计第一节抽样分布与抽样误差由个体变异和抽样造成的样本统计量与总体参数的差异,称为抽样误差 。抽样误差不可避免,有两种表现形式:1、样本统计量与

27、总体参数间的差异。2、样本统计量间的差异。一、样本均数的抽样分布与抽样误差1、标准误: 样本统计量的标准差。2、 均数的标准误 :样本均数的标准差。3、样本均数的抽样分布的特点: ( 1)各样本均数未必等于总体均数;(2)各样本均数间存在差异;(3)样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;( 4)样本均数的变异范围较之原变量的变异范围小; (5)随着样本量的增大,样本均数变异范围逐渐缩小。4、均数的标准误:X=n均数标准误的估计值:SX=nS5、样本均数X的总体均数与观察值X 的总体均数相同,样本均数X的标准差是X 标准差的n/1。6、非正态分布总体,样

28、本量较大时(n30) ,样本均数的分布接近正态分布。二、样本率的抽样分布与抽样误差1、率的抽样误差:由于抽样所造成的样本率与总体率之间及样本率之间的差别。2、若样本量为n,总体率为 ,样本率为p,理论(1)样本率的总体均数等于总体率。即p=。(2)样本率的总体标准差(即率的标准误)p=n)1 (率的标准误的估计值为Sp=nPP)1((3)对于大量重复随机抽样而言,样本率p 围绕着总体率波动,样本量n 越大,这种波动越小,当n 充分大时, p 的分布就近似于均数为 标准差为n)1(的正态分布(n 充分大通常为n5 和 n(1- )5 且 n40。(4)当总体率 =0.5 时,样本率p的分布为对称

29、分布。(5)当样本量n 为定值时,总体率越接近 0.5 ,样本率p 近似正态分布的程度就越好。第二节总体均数的估计统计推断: 根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特性。统计推断包括参数估计、假设检验。参数估计: 指用样本指标值(统计量)推断总体指标值(参数)。参数估计包括点估计、区间估计。点估计: 用相应样本统计量直接作为其总体参数的估计值。区间估计: 按预先给定的概率(1- )所确定的包含未知总体参数的一个范围。一、总体均数的点估计1、总体均数的点估计:是直接用随机样本的样本均数X作为总体均数的点估计值。2、点估计方法简单,但未考虑抽样误差。因此,要使得参数估计可信,必

30、须考虑抽样误差,特别是对于小样本。二、总体均数的区间估计1、可信区间: 总体均数的区间估计是按一定的概率(1-)用一个区间来估计总体均数,这个区间称作可信度为(1-)的可信区间,又称置信区间 。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思2、可信度: 预先给定的概率1-称为可信度或置信度,若无特别说明,一般取双侧95%。3、可信区间通常由两个数值即可信限/置信限( CL)构成。其中较小的值称可信下限,较大的值称可信上限。4、总体均数可信区间:(1)总体标准差 已知总体均数的可信度为(1-

31、)的可信区间为(X-a/2X,X+a/2X)=1-(2)总体标准差 未知总体均数的可信度为(1-)的可信区间为(X-ta/2,vSX,X+ta/2,vSX)=1-(3)总体标准差 未知,但 n 足够大( n60)时, t 分布近似标准正态分布总体均数的可信度为(1-)的可信区间为(X-a/2SX,X+a/2SX)例:若随机抽得某地20XX 年 9 名 7 岁正常发育男孩,测得其身高资料,计算其均数X=121.44 ( cm) ,标准差 S=5.75(cm) ,试估计该地20XX 年 7 岁正常发育男孩身高总体均数的95%可信区间。解:本例n=9,计算样本均数标准误为SX=nS=975.5=1.

32、92( cm)V=n-1=9-1=8 ,取双尾 0.05,查 t 界值表得t0.05/2,8=2.306 (X-t/2,vSX,X+t/2,vSX)=(121.44-2.3061.92,121.44+2.3061.92)即该地 20XX 年 7 岁正常发育男孩身高总体均数的95%可信区间为( 117.01,125.87)三、两总体均数之差的区间估计1、假定两总体方差相等,两样本样本量、均数、方差分别为n1、n2,X1、X2,S21、S22,有t=21X2121)()X(XSX,服从自由度为v=n1+n2-2 的 t 分布,其中:均数之差的标准误21XXS=)11(212nnSC,合并方差2CS

33、=2) 1() 1(21222211nnSnSn故21的( 1-)可信区间为(21XX-t/2, (n1+n2-2)21XXS,21XX+t/2, (n1+n2-2)21XXS)(当两样本的样本含量均较大时,t/2,v可用相应的u/2代替,21XXS可用222121nSnS计算)2、可信度为95%的可信区间的涵义是:该区间以95%的概率包含了总体均数。3、可信区间估计的优劣取决于两个要素:准确性、估计精确性。可信度越接近于1 越好; 精确性与 变量的变异度大小、样本量和1-取值有关。请注意: P93 页表 6-7 总体均数的可信区间与个体值参考值范围的区别第三节总体率的估计一、总体率的点估计1

34、、总体率的点估计指直接用随机样本的样本率p 作为总体率 的点估计值。 2 总体率的点估计未考虑到样本率的抽样误差。二、总体率的区间估计:1、根据样本含量和样本率的大小,总体率的区间估计可采用查表法、正态近似法。2、查表法:在样本例数较小,且样本率接近1 或 0,即阳性事件发生率很高或很低时,可按照二项分布原理确定总体率的可信区间。在 n50 时,查附表7(只含 Xn/2 部分) ;X n/2 时,用 n-X 值查表,所得可信区间为总体阴性率可信区间,再用1 减去总体阴性率可信区间,即为总体阳性率可信区间。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -

35、第 7 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思3、近态近似法:当n 较大, p 和 1-p 均不太小时,如np 与 n(1-p)均大于 5 时,样本率p 的抽样分布近似正态分布,可按以下公式求总体率的(1-)可信区间:pu/2Sp,其中 p 为样本率, Sp为率的标准误,u/2为标准正态分布水平的双侧临界值。=0.05 时, u0.05/2=1.96;=0.01 时, u0.01/2=2.58。例:为了解某医院剖腹产情况,在该医院随机抽查了106 人,其中施行剖腹产者62 人,试估计该医院剖腹产率。解:本例n=106,X=62 ,样本率P=10662=0.585, Sp=nPP

36、)1(=0.048 因 np=62 与 n(1-p)=44均大于 5,由 pu/2Sp,得可信下限: 0.585-1.960.048=49.1% 可信上限: 0.585+1.96 0.048=67.9% 即该医院总体剖腹产率的95%可信区间为( 49.1%,67.9%) 。三、两总体率之差的区间估计1、设两个独立样本率分别为p1、p2,当 n1与 n2均较大,且p1、1-p1和 p2、1-p2均不太小,一般认为,当n1p1、n1(1-p1) 、n2p2、n2(1-p2)均大于 5 时,可利用样本率的分布近似正态分布对两总体率的差别做出区间估计:(p1-p2-u/2Sp1-p2,p1-p2+u/

37、2Sp1-p2) ,其中率之差的标准误Sp1-p2=222111)1 ()1 (nppnpp例:对甲、乙两种降压药进行临床疗效评价,将某时间段内入院的高血压病人随机分为两组,每组均为100 人。甲药治疗组80 位患者有效,乙药治疗组50 位患者有效,试估计两种降压药有效率之差的95%可信区间。解:将甲、乙两药治疗组的患者数、治疗有效数分别以n1、X1和 n2、X2表示,则n1p1,n1(1-p1),n2p2,n2(1-p2)均大于 5, p1=80/100=0.8 ,p2=50/100=0.5 ,得:Sp1-p2=222111)1()1(nppnpp=100)5 .01(5.0100)8.01

38、(8.0=0.064 ( 0.8-0.5-1.96 0.064,0.8-0.5+1.96 0.064)即两种降压药有效率之差的95%可信区间为( 17.45%,42.55%)2、服从 Poisson 分布的样本资料,其总体均数1-可信区间的估计方法如下:(1)查表法:当X50 时,查附表8。(2)正态近似法:当X50 时,估计总体均数的1-可信区间公式为Xu/2X。第四节RR 值和 OR 值的估计相对危险度:是两个人群发病率的比值,通常为暴露人群的发病率与非暴露人群(或指定参照人群)的发病率之比。设暴露人群发病率为1,非暴露人群发病率为0,相对危险度RR=1/0 当 RR=1 时,表示该因素对

39、疾病的发病无影响;当 RR1 时,表示该因素为危险因素,它使发病危险度增大;当 RR0.05,不拒绝 H0;P0.05,拒绝 H0,接受 H1。检验水准 :也称显著性水准,是预先规定的判断小概率事件的概率尺度,记为 .第三节u 检验一、大样本均数比较的u 检验:均数比较的u 检验的两个基本前提:样本数据服从正态分布、已知总体方差。均数比较的u 检验主要适用于总体方差未知的大样本数据。1、样本均数与总体均数比较的u 检验u=nX00, (0指已知理论值)当总体标准差0未知, n60 时, 0=S。例:根据1983 年大量调查结果,已知某地成年男子的脉搏均数为72 次/分钟。某医生20XX 年在该

40、地随机调查75 名成年男子,求得其脉搏均数为74.2 次/分钟,标准差为6.5 次/分钟,能否据此认为该地成年男子的脉搏数不同于1983 年?解:(1)建立假设检验,确定检验水平H0:=72,即该地成年男子的平均脉搏没有变化H1:72,即该地成年男子的平均脉搏与1983 年不同=0.05 (2)计算检验统计量u=nX00=755.6722 .74=2.93 (3)确定 P 值,做出推断结论检验界值 u0.05/2=1.96,u0.01/2=2.58,uu0.01/2,得 P0.01,按 =0.05 水准, 拒绝 H0,接受 H1,差别有统计学意义,可认为该地成年男子的脉搏与1983 年不同。2

41、、两样本均数比较的u 检验:u=2121XXXX,其中两均数之差标准误21XX=222121nn当总体标准差1、2未知,两组例数均超过 30 时, 21XX=222121nSnS。例:为研究孕妇补锌对胎儿生长发育的影响,将 96 名孕妇随机分为试验组和对照组,一组在孕期不同时间按要求补锌,另一组为对照组,观察两组孕妇所生新生儿出生体重有无不同。两组的例数、均数、标准差分别为:补锌组n1=48,X1=3427.8g,S1=448.1g;对照组 n2=48,X2=3361.9g,S2=400.1g。问补锌对新生儿出生体重有无影响?解:本例是两样本计量资料,每组例数超过30,故可用两大样本均数比较的

42、u 检验。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思(1)建立检验假设,确定检验水准H0:1=2,即两组新生儿出生体重总体均数相等,补锌对新生儿出生体重无影响 H1:1 2,即两组新生儿出生体重总体均数不相等,补锌对新生儿出生体重有影响=0.05 (2)计算检验统计量21XX=222121nSnS=481 .400481.4482221=86.71 u=2121XXXX=71.869 .33618 .3427=0.76 (3)确定 P值,做出推断结论u0.05,按 =0.05 水准,

43、接受H0,两组间差别无统计学意义,根据本试验结果不能推断补锌与新生儿出生体重有影响。二、大样本率的u 检验:大样本率的u 检验的基本原理是:假定样本率p 服从正态分布。率的 u 检验对统计量的要求: (1)若样本率 p 介于 0.10.9 之间, 每组例数大于60 例; (2)当样本率在0.10.9 以外时,需要保证np 或 n(1-p)的最小值大于5。1、单样本率的u 检验:u=pp0=np)1(000例:全国调查结果显示,学龄前儿童营养性贫血患病率为23.5%,某医院对当地1396 例学龄前儿童进行了抽样调查,查出营养性贫血患儿363 例,患病率为26.0%。问该地学龄前儿童营养性贫血患病

44、率是否不同于全国平均水平?解:(1)建立假设检验,确定检验水准H0: =0.235,即该地学龄前儿童营养性贫血患病率与全国相同H1: 0.235,即该地学龄前儿童营养性贫血患病率与全国不同=0.05 (2)计算检验统计量u=np)1(000=1396)235.01 (235.0235.0260.0=2.21 (3)确定 P 值,做出推断结论uu0.05/2=1.96,Pu0.05/2=1.96,P时,不能盲目接受H0,下结论时一般不说“没有差别”、 “两总体均数相等” ,只说“未见差别” 、 “尚不能认为两总体均数不相同” 。p 时,可明确下结论“有差别”、 “两总体均数不相同” 。因为犯 I

45、 类错误的概率不会超过 。第五节双侧检验与单侧检验双侧检验:指只检验差别不管差别方向的双向检验。两均数或两个率的比较一般采用双侧检验。单侧检验:指只关心差别单侧方向的单向检验。单侧检验一般不轻易使用。第六节假设检验的统计意义与实际意义一、假设检验的统计意义1、 P 值的正确理解P值:指由 H0所规定的总体做重复随机抽样,获得等于及大于(或等于及小于)当前检验统计量的概率。2、 检验结果的正确理解3、 统计结论的表述在假设检验中,不拒绝H0时,意为比较的总体本质可能无差别,样本统计量的差异由抽样误差引起的可能性很大;拒绝 H0时,研究者相信比较的总体本质有差别,样本统计量间的差异不仅仅是由抽样误

46、差造成的。4、 假设检验与可信区间的区别与联系可信区间用于推断总体均数的范围;假设检验用于推断总体均数间是否相等。二、假设检验的实际意义1、P值大小只能说明统计学意义的“显著”,不一定有实际意义。2、对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。当专业上和统计学上均具有“显著性”时,试验结果才有实用价值。第七节检验效能检验效能用概率1-表示 , 检验效能的意义是, 当两总体确有差别, 按检验水准 , 假设检验能发现其差别( 拒绝 H。) 的能力。一、影响检验效能的4 个因素:1、总体参数的差异越大,检验效能越大。2、个体差异(标准差)越小,检验效能越大。3、样本量越大,检验效能

47、越大。4、检验水准 (I 类错误的概率)定得越宽,检验效能越大。二、检验效能的估计:在假设检验结果的解释和评价中,特别是分析那些未能拒绝H0的假设检验结果,事后估计检验效能1-的值,有助于判断是总体参数确实无差别,还是由于样本量太小导致的检验效能不足。第八章t 检验1、t 检验适用条件对于计量资料,u 检验适用于总体标准差已知或总体标准差未知但样本含量(n)较大时均数的比较。t 检验用于总体标准差未知的小样本均数的比较。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思2、单样本均数的t 检

48、验例 8-1 通过以往大量资料得知某地20 岁男子平均身高为168cm,今随机测量当地16 名 20 岁男子,得其平均身高为172cm,标准差为14cm。问当地现在20 岁男子的平均身高是否比以往高?解:由经验可知身高服从正态分布,样本量较小,可用单样本均数的t 检验,且为单侧检验。(1) 建立假设,确定检验水准H0: = 0 = 168 H1: 0 = 168 (2)计算检验统计量143.116/141681720XSXtv= 16 1 = 15 (3)确定概率值,作出推断结论查 t 界值表得,15,05. 0tt,P 0.05,按05.0的检验水准,不拒绝H0,差别无统计学意义,还不能认为

49、该地20 岁男子平均身高比以往要高。3、配对样本均数的t 检验配对样本均数的t 检验又称配对检验(paired t test ) ,适用于配对设计的计量资料均数的比较,其比较的目的是检验两相关样本均数所代表的未知总体均数是否有差别。应用条件是差值(d ) 变量服从正态分布。例 8-2 某医院用A、 B 两种血红蛋白测定仪器检测了16 名健康男青年的血红蛋白含量(g/L ) ,检测结果见表8-1 第( 1)(3)栏。问:两种血红蛋白测定仪器的检测结果是否有差别。解:本例为同源配对设计。对差值进行正态性检验满足正态性(Shapiro-Wilk 统计量, W=0.949 ,P =0.470) ,可用

50、配对样本均数的 t 检验。1. 建立假设H0: d= 0 即 A、B 两种血红蛋白测定仪器检测的总体平均差异为0;H1: d 0 即 .平均差异不为0. 05.02. 计算检验统计量nSdSdtdd/0本题t = 2.366 , v = 16 1 = 15 3. 确定概率值,作出判断结论查自由度v =15 时的t 值,131.215,2/05.0t,15,2/05. 0tt,P 0.05,按05.0的检验水准, 拒绝 H0,接受 H1 ,差别有统计学意义,可认为A、B 两种血红蛋白测定仪器检测结果有差别。4、正态性检验的方法:1 图示法:简单易行 ,可以粗略了解观察资料是否服从正态分布。常用频

51、率 -频率图( P-P plot) 和分位数 -分位数图(Q-Q plot ) 。2计算法:通过计算反映正态分布特征的指标来了解观察资料是否服从正态分布。常用矩法、W 检验法和D 检验法。第八章方差分析1、方差分析又称F 检验 ,其目的是推断多组 资料的 总体均数 是否相等。是通过比较组内均方组内MS和组间均方组间MS的大小关系来判断处理因素有无效应。2、方差分析的基本思想 就是根据实验设计的类型,将全部测量值总的变异分解成两个或多个部分,每个部分的变异可由某个因素的作用(或某几个因素的作用)加以解释,通过比较各部分的均方与随机误差项均方的大小,借助F 分布来推断各研究因素对实验结果有无影响。

52、3、完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g 个处理组,各处理组分别接受不同的处理,试验结束后比较各组均数之间差别有无统计学意义,以推断处理因素的效应。随机区组设计( randomized block design ) ,又称配伍组设计,是配对设计的扩展。4、分析的应用条件(1)各观测值相互独立,并且服从正态分布;(2)各组总体方差相等,即方差齐性。第十章卡方检验1、2 检验 对于计数资料来讲是一种用途非常广泛的假设检验方法,可用于两组 或多组样本率的比较,两组或多组构成比精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 13

53、页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思的比较,以及拟合优度检验等。2、 2 检验的基本思想四格表例 1 某研究用A、B 两种药物治疗急性下呼吸道感染,A 药治疗 74 例,有效 68 例,B 药治疗 63 例,有效52 例。问两种药的有效率是否有差别?把该资料整理成表格的形式,即成分组有效例数无效例数合计有效率( %)A 药68 6 74 91.89 B 药52 11 63 82.54 合计120 17 137 87.59 3、四格表资料2 检验的步骤(例1)(1)建立假设,确定检验水准H0:1= 2 ,即两种药的总体有效率无差别H1:1 2,即两种药的总体有效率有差别=0.0

54、5 (2)计算检验统计量2 值 =(R-1) (C-1)=(2-1) (2-1)=1 (3)确定 P 值,作出推断结果查2界值表,20.05(1)=3.84,本例2=2.74 3.84,P 0.05,按=0.05 的水准不拒绝H0 ,尚不能认为两种药的有效率不同。4、四格表资料2 检验专用公式)()()()(22dcdbcabanbcad5、四格表资料2 检验的连续性校正问题TTAc22)5.0()()()()2/(22dcdbcabannbcadc一般原则是: 当 n 40 且所有 T 5 时,用非校正公式计算2 值 。当 n40 但有 1T5 时,用连续性校正公式计算2 值。 当 n40

55、或有 Tb。第十一章秩和检验(一)参数统计与非参数统计1参数统计样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。2非参数统计样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics) ,或称为不拘分布(distribution-free statistics )的统计分析方法,又称为无分布

56、型式假定(assumption free statistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数 )作出特殊假设。(二)非参数统计适用范围1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。 ( 6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容

57、)。 (7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。(三)参数检验和非参数检验的特点及优缺点(1)参数检验要求样本来自的总体分布类型已知,在此基础上对总体的参数进行检验。(2)非参数检验不依赖总体的分布类型,应用时也由于此种检验方法不再是参数间的比较,所以称之为非参数检验。(3)非参数检验的优点不受总体分布类型的限制,应用范围广;适用于各种类型的变量,对于一些未能精确测量而只能以优劣等级、严重程度、次序先后表示的资料(如等级资料),或不满足参数检验条件的资料均可用非参数统计方法;(适用于各种类型的变量以及一些等级资料,或不满

58、足参数检验条件的资料均可用非参数统计方法)。计算量相对较小,可节省计算时间。( 4)非参数检验的缺点符合参数检验的资料,如用非参数检验,则会因为未充分利用样本信息,使得检验效能降低,导致犯第二类错误(存伪)的概率增大。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 15 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思(四)配对设计资料编秩方法:省略所有差值为0 的对子数,同时样本例数减1按差值的绝对值从小到大编秩,然后分别冠以正负号。遇差值绝对值相等则取平均秩,称为相同秩分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以 T-表示。

59、T+及 T-之和应等于n(n+1)/2,任取 T+( 或 T-)作检验统计量。注意:若n50 时,可用u 检验;当相同差值数多时,应改用校正式。(五成组设计两样本比较的秩和检验(Wilcoxon 两样本比较法) 编秩方法 :(六)成组设计多个样本比较的秩和检验(Kruskal -Wallis 法 ) 编秩方法: 将各组数据混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如数值为1.5 的有三个,它们的秩次为3、4 和 5, 取平均秩次为(3+4+5)/3=4. (七)多个样本两两比较重复多次假设检验后会增大犯一类错误的概率,必须对检验水准进行调整. 调整检验水准的计算:a =a/比较次数

60、=2/)1(kka(六)随机区组设计资料的秩和检验(Friedman 检验)编秩方法:(1)将每个区组的数据由小到大分别编秩,遇相同数值取平均秩;(2) 计算各处理组的秩和Ri。(七)等级资料编秩计算各等级资料的合计人数,确定各组段秩次范围计算各等级平均秩次以各等级平均秩次与各等级例数相乘,再求和,即得T 值。第十二章简单线性回归1. 直线回归 (linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression) 。直线回归方程中, a、b

61、是决定直线的两个系数,见表2回归参数估计根据数学上的最小二乘法原理,既直线可保证各实测点至直线的纵向距离的平方和最小,可推导出计算a 和 b 的公式如下:2XYXXXXYYlblXXaYbX3. 直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题回归分析应用的注意事项: 把两样本数据混合从小到大编秩,遇数据相等者取平均秩;以样本例数小者为1n,其秩和(1T)为T,若两样本例数相等,可任取一样本的秩和(1T或2T)为 T。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1

62、6 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思1)作回归分析要有实际意义,不能把毫无关联的两种现象随意进行回归分析,忽视事物现象间的内在联系和规律. 2)进行回归分析时应先绘制散点图.如果各散点图中出现一些特大或特小的离群值,则应及时复核检查,在准确无误的前提下,根据离群值判断准则,对其决定取舍 .3)直线回归分析用于刻画应变量Y 对自变量X 在数值上的依存关系,其中哪一个作为应变量主要是根据专业上的要求而定,可以考虑把易于精确测量的变量作为x,另一个随机变量作Y。 4)对于线性回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步推断。5)建立回归方程后,须对回归系数 进

63、行假设检验,只有经假设检验得出总体回归系数 不为 0 后,回归方程才有意义。6)直线回归方程的适用范围应以自变量的取值范围为限。若无充足理由证明,超出自变量取值范围直线回归关系仍成立时,应该避免随意外延。4总体回归线95%置信带和个体Y 的范围(见书P194,图 12-3)图 12-3 中,围绕在回归方程直线两侧的两条光滑的曲线(实线),构成形似领带的带状区域,称为总体回归线的95% 置信区间,其意义是满足线性回归的假设条件下,真实的回归线落在两条实曲线所形成的区域内的置信度为95%。图 12-3 中,各 X 值所对应的Y 值的 95%容许区间的上下限在总体回归线置信带的外侧也构成了两条弧形曲

64、线(虚线),称为个体 Y 的 95%预测范围。5.残差分析残差: 指观测值与通过直线回归方程计算所得的预测值之差,反映了方程拟合数据优劣的信息。线性回归模型成立的四个前提条件:线性,独立,正态,等方差。第十三章线性相关1. 直线相关 (linear correlation )又称简单相关(simple correlation ) ,用于 双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数 又称积差相关系数 (coefficient of product -moment correlat ion) , 以符号 r 表示样本相关系数, 表示总体相关系数

65、。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。2. 计算公式r 没有单位,其值为1r1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r 值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r 值为负表示负相关,说明一变量增加、另一变量减少,即方向相反; r 的绝对值等于1 为完全相关。3. Spearrman 秩相关适用于:(1)变量 X 和 Y 不服从双变量正态分布,可用Spearrman秩相关;(2)变量 X 和 Y 均为多分类有序资料,可用Spearrman秩相关。4.直线回归与相关的区别与联系4.1 区别 (1) 资料要求:直

66、线回归要求因变量Y 服从正态分布,X 是可以精确测量和严格控制的变量,一般称为型回归;直线相关要求两个变量X、Y 服从双变量正态分布。这种资料若进行回归分析称为型回归。(2) 应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。(3)意义: b 表示X 每增(减)一个单位时,Y 平均改变b 个单位; r 说明具有直线关系的两个变量间关系的密切程度与相关方向。(4 计算: b= lxy/ lxx ;(5) 取值范围:b+; 1r1(6)单位: b 有单位; r 没有单位。4.2 联系(1) 方向一致:对一组数据若能同时计算b 和 r,它们的符号一致。 (2) 假设

67、检验等价:对同一样本,r 和 b 的假设检验得到的t 值相等,即(3) 用回归解释相关:第二十章多重线性回归(一)将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归 (multiple linear regression ) ,简称多元回归。基本形式:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 17 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思(二)多元线性回归分析中的假设检验多元线性回归方程的假设检验包括两个方面:整体回归效应的假设检验和偏回归系数的假设检验。(1)整体回

68、归效应的假设检验类似简单线性回归方程的假设检验,当通过样本数据求得参数估计值pbbbb,.,210之后 ,还需要进一步检验各自变量的偏回归系数是否均为0,即 H0: 12 p0 是否成立,以确定就整体而言,所得回归方程是否有统计学意义,通常采取方差分析的方法进行F 检验。(2)偏回归系数的假设检验各自变量对应变量有无线性回归关系需要做假设检验,即对每一个偏回归系数的假设检验,其检验假设H0:j =0。对偏回归系数的假设检验有多种方法,常用t 检验、 F 检验方法。拟合回归方程的主要评价指标为决定系数R2。 回归方程的拟合程度越好,残差平方和就越小,决定系数R2越接近 1;反之越接近 0. (三

69、)自变量选择在多元线性回归方程中,可能有的自变量对因变量作用大,有的自变量作用小,甚至完全没有作用。这样就有必要对自变量进行选择,使回归方程中只包含对因变量作用有统计学意义的自变量,即所谓相对“最优”的方程。选择自变量的方法主要有前进法、后退法及逐步法,以后者最为常用。应用逐步法时,应先分别选定引入和剔除自变量的 F 检验 水准。其默认值均为 =0.15。(四)注意事项1、多重现行回归要求预测值与应变量的差值(即残差)服从正态分布,当样本量较大时可以忽略正态性的要求;多重线性回归一般要求观察单位之间是独立的,因此传染病的资料应谨慎处理。2、在多重线性回归中,对于名义变量必须数量化;对于等级变量

70、可根据实际情况选择直接引入回归模型或数量化后引入回归模型;连续型变量可以直接引入回归模型,也可以及根据研究背景对连续型变量进行离散化后,再进行数量化引入回归模型。3、在多重线性回归中,不同的研究问题要用不同的回归分析策略,对于寻找最佳预测模型或寻找主要的影响因素,应该用最优子集的方法进行回归分析,用逐步回归分析的结果是最优子集的近似结果,在下结论时应谨慎。4、逐步回归的结果可推断某个因素与应变量有关联,但不能用逐步回归的结果推断某个因素与应变量无关联。5、逐步回归所剔除的自变量只能说明被剔除的自变量与应变量的关联性不强,逐步回归所剔除的自变量还是有可能对应变量与某个因素(研究因素)之间的关联性

71、构成混杂作用,所以在实验性研究的统计分析一般不宜用逐步回归。附:课后选择题精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 18 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思统计选择题第三章观察性研究设计概述1、观察性研究与实验性研究的最大区别是:观察性研究不能主动实施干预措施。2、与实验研究相比,观察性研究不适合:评价某预防干预措施的效果3、不是横断面研究的目的:评价社区预防干预措施的效果第四章统计描述1、算术均数与中位数相比,算术均数:更充分利用数据信息2、计算几何均数时,采用以 e为底的自然对数ln(x) 和采用以10 为底的常用对数

72、lg (x), 所得计算结果: 相同3、一个变量的所有观察值同时加上一个非零常数后,标准差不变 。4、一个变量的所有观察值乘以一个非零常数后,变异系数 不变。5、比较身高和体重两组数据的变异大小,宜采用变异系数 。6、变异系数的数值:可以大于1 也可以小于1. 7、某研究者打算利用横断面调查资料描述职业与肝炎患病率的关系,应采用圆图。8、线图 可以用来描述近视率与儿童年龄的关系。9、某研究者打算比较1975 年至 2000 年之间两种疾病的死亡率的变化趋势,从收集的资料看,死亡率的变异较大,宜采用半多数线图 。第六章参数估计1、当样本量增大时,样本均数标准误会变小。2、区间 2.58Sx 的含

73、义是: 总体均数的95%可信区间 。3、通常可 采取扩大样本量来减少抽样误差。4、相对危险度是:暴露组发病率或死亡率与非暴露组发病率或死亡率之比。第七章假设检验1、若 P值大于 0.05,应不拒绝H0 2、两样本比较时,a=0.20 的第二类错误最小。3、在两样本均数比较的u检验中, 如果检验结果为p0.05,事先估计并确定合适的样本含量的重要作用是:控制类类错误。4、在两样本均数比较的u 检验中,差别有统计学意义,p 值越小,说明:越有理由认为两总体均数不同。5、在两样本均数比较的u检验中,无效假设是:两总体均数相等。6、分别从随机数字表中抽得50 个随机数字作为两个样本,其均数和标准差为X

74、1、S1、X2、S2,则理论上: 两总体均数相差为0. 第八章t 检验1、在两样本均数比较的t 检验中,无效假设是:两总体均数相等。2、在两样本均数比较的t 检验中,差别有统计学意义,p 值越小,说明:越有理由认为两总体均数不同。3、正态性检验,按a=0.10 水准,认为总体服从正态分布,此时若推断有错,其错误的概率是: 等于二类错误,且未知。第九章多个样本均数比较的方差分析1、对三个均数做方差分析,结果有统计学意义,可以认为:2 个或 3 个总体均数不同。2、方差分析中,离均差平方和为SS,方差为MS,下标 T,B,W 分别表示的是总的、组间和组内, 则必有: SSt=SSb+SSw. 3、方差分析的组间均方是:表示处理作用与抽样误差两者的大小。4、方差分析中: F 值不可能是负数。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 19 页,共 19 页

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号