卫生统计学复习整理一、统计工作基本步骤1、设计 2 、收集资料 3 、整理资料 4 、分析资料 二、调查研究的特点1、不能人为施加干预措施 2、不能随机分组3、很难控制干扰因素 4、一般不能下因果结论三、常用的基本抽样方法1、单纯随机抽样先将调查总体的全部观察单位统一编号,然后采用随机数字表、统计软件或抽签等方法之一随机抽取 n (样本大小)个编号,由这 n 个编号所对应的 n 个观察单位构成研究样本2、系统抽样又称机械抽样或等距抽样事先将总体内全部观察单位按某一顺序号等距分隔成 n (样本大小)个部分,每一部分内含m个观察单位;然后从第一部分开始,从中随机抽出第 i号观察单位,依此用相等间隔m机械地在第二部分、第三部分直至第 n部分内各抽出一个观察单位组成研究样本3、 分层抽样先按对观察指标影响较大的某项或某几项特征,将总体分成若干层( strata ),该特征的测定值在层 内变异较小、层间变异较大,然后分别从每一层内随机抽取一定数量的观察单位结合起来组成样本4、 整群抽样将总体划分为群(初级观察单位) ,各群由次级观察单位组成随机抽取一部分群,调查抽中群的全 部次级观察单位5、 多阶段抽样 抽样误差比较:分层抽样 <系统抽样 <单纯随机抽样 <整群抽样四、实验设计的特点1、 研究者可人为设置处理因素2、 受试对象接受何种处理因素或处理因素的何种水平是随机的 五、实验设计的三个基本要素1、处理因素(或研究因素) 2 、受试对象 3 、实验效应 六、实验设计的基本原则? 对照原则? 随机原则? 重复原则? 均衡原则七、常用的实验设计方案 ? 完全随机设计 ? 配对设计 ? 随机区组设计八、定量资料集中趋势的描述指标 :描述数据分布中心位置(平均水平)的指标算术均数适用于对称分布特别是正态分布资料。
1几何均数几何均数适用① 对数正态分布② 等比级数资料观察值中不能有0中位数和百分位数应用:中位数:适用于偏态分布、分布不明确或分布末端无确定数据的资料百分位数:百分位数:非正态分布资料九、描述离散趋势指标:描述数据分布的离散程度(变异程度)的指标I极差:适用于分布末端有确定数据的资料四分位间距:适用于描述偏态分布、分布不明确或分布末端无确定数据资料的离散趋势标准差:描述对称分布特别是正态分布资料的离散程度方差:描述对称分布特别是正态分布资料的离散程度变异系数:度量衡单位不同的资料;单位相同但均数相差悬殊的两组或多组资料十、正态分布的应用:制定医学参考值范围十一、常用相对数绝对数:表示某事物在某时、 某地发生的实际水平相对数:两个相关指标的比值,便于相互比较与分析常用相对数:率: 率是指某现象实际发生数与可能发生某现象总数之比,用以说明某现象发生的频率或强度构成比:构成比是事物内部 某一观察单位数 与事物内部各组成部分 观察单位的总数 之比,说明事物 内部各部分所占的比重常以百分数表示相对比:相对比是两个有关的指标之比,用以描述两者的对比水平两个指标可以是绝对数、相对 数或平均数;可以性质相同,也可以性质不同。
十二、应用相对数注意的事项计算相对数分母不宜过小不能以构成比代替率计算合计率时,不能简单地相加求平均率的比较时应注意可比性对样本率(或构成比)的比较应做假设检验十三、抽样误差与标准误1. 、抽样误差:由抽样引起的样本统计量与总体参数间的差异称抽样误差不可避免、可以控制2、 标准误2.1样本统计量的标准差称为标准误2.2样本均数的标准差称为均数的标准误十四、标准差与标准误的区别1、标准差表示个体差异的大小;标准误描述样本均数的变异程度,说明抽样误差的大小2、标准差描述资料的频数分布状况,可用于制定医学参考值范围;而标准误用于总体均数的区间估 计和假设检验十五、可信区间的涵义从总体中作随机抽样,每个样本可以算得一个可信区间 如95刑信区间意味着做100次抽样,算得100 个可信区间,平均有95个估计正确即,95%勺可能性落在这个区间内,5%勺可能性不落在这个区间内十六、假设检验的步骤1、 建立检验假设,确定检验水准⑴卩1=(2 :称检验假设,也称无效假设,用H 0 表示⑵2工迄:称备择假设,也称对立假设,用已 表示⑶a :称检验水准,也称显著性水准,是确定小概率事件的标准2、 选定统计方法,计算检验统计量不同的统计方法均有其应用条件,根据实验设计及数据的条件来选用合适的统计方法,计算合适的 统计量。
3、 确定P值,作出统计推断⑴当PW0.05时,拒绝H0,接受H1,有显著性意义,表明两样本间的不一致由抽样误差引起的可能 性w 0.05,即两样本不是来自同一总体⑵当P>0.05时,拒绝H1,接受H0,无显著性意义,表明两样本间的不一致由抽样误差引起的可能 性>0.05,即不能排斥两样本不是来自同一总体十七、假设检验与区间估计的联系自 75]1,假腓站可褪确目的祠假酬辦于脚总龄敢有无质的不鳳砒区朋稠也般数瞅人2. 可帼间也可回瓠攏删何底飾瞬觀鵬啮只黔出柚權上有超牌8丸3. 可帼间MB勰鹤更貓启贏鮮続刪雕酗覘h鄙提懈麒艦萌多九是否有新意%十八、t检验的适用条件1、未知;2、n较小(*60); 3、样本来自正态总体;2 24、两样本所来自的总体方差齐,即 J =c2公式:t 二 X」 V二 n-1SM' n十九、 SS、二SQi间'SS且内二十、方差分析的应用条件:独立性;正态性;方差齐性二^一、四格表资料 2检验的条件1、 当n>40且所有T-5时,用普通的 2检验2、 当n -40但有1
二十三、直线回归分析的应用条件1、线性,自变量x与应变量y呈线性关系2、独立性,个体间相互独立3、 正态性,自变量x取不同值时,应变量y服从正态分布4、 方差相等,自变量x取不同的xi值,应变量y的条件方差相等 二十四、直线回归与直线相关的区别与联系区别:资料要求不同;统计意义不同;分析目的不同联系:1、变量间关系的方向一致:r与b正负号一致2、假设检验等价tr = tb 3 、r与b值可相互换算r七上lyy b =r.咕此4 、用回归解释相关二十五、生存资料的特点2xyl xx1 yy2xy/llyyxxSSSS、1.蕴涵有结局和时间两个方面的信息2.结局为两分类互斥事件3. 一般是通过随访收集得到,随访观察往往是从某统一时间点开始,观察到某规定时间点截止4. 常因失访等原因造成某些研究对象的时间数据不完整,分布类型复杂,一般不能采用 t test、 ANOVA卡方检验等进行统计分析二十六、生存分析的几个基本概念生存分析是将事件的结局(“生存”和“死亡”)和出现这一结局所经历的时间,结合起来分析的一大 类统计方法死亡事件:又称失效事件,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败 或失效的特征事件。
广义概念,一般是在设计阶段根据研究目的确定生存时间:指观察到的“存活”时间不单是指通常意义下生物体的存活时间,而是泛指研究者 所关心的某现象的持续时间根据其特点,可分为以下两种类型:(1) 完全数据:是指从观察起点到发生死亡事件所经历的时间(2) 截尾数据:简称截尾值,又称删失值或终检值观察过程的终止不是由于死亡事件,而是由于其 他原因失访; 退出(死于其它原因); 终止(截止随访结束时尚存活)二十七、样本含量估计的意义及应具备的条件意义:样本含量的估计是研究设计的重要内容之一,是研究设计中重复性原则的体现 应具备的条件:1、 I型错误的概率:2、 II型错误的概率一:或检验效能1--3、 容许误差或差值S4、 总体参数(・I,二,二)#。