文档详情

统计学思路

热****
实名认证
店铺
DOC
136.50KB
约8页
文档ID:102368497
统计学思路_第1页
1/8

变量 (variable) 在搜集资料时,首先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量如“身高”、“体重”、“疗效”、“性别”、“职业” 等都是变量变量的观察结果或测量值称为变量值,变量按其值的性质可分为数值变量(numerical variable)和分类变量(categorical variable)数值变量的变量值是定量的,表现为数值的大小,通常是使用仪器或某种尺度测定出来的,多有度量衡单位如身高(cm)、体重(kg)、心律(次/分)、住院天数(日)、血压(mmHg)等由数值变量的测量值组成的资料称为数值变量资料(计量资料或定量资料)大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只是正整数如心率、白细胞计数等,在医学统计学中把它们也视为连续型变量分类变量表现为互不相容的类别或属性,亦称定性变量分类变量又可分为无序与有序两类1、无序分类变量是所分类别或属性之间无程度和顺序上的差别如性别(男、女);血型(O、A、B、AB)等无序分类变量的分析应先按类别分组,然后清点各组的观察单位数,编制分类资料的频数表,所得资料为无序分类变量资料(计数资料或定性资料)。

它又有二项分类资料和多项分类资料之分1)二项分类资料:仅有两种类别或属性如性别(男、女),化验结果(阴、阳性)等2)多项分类资料:两种以上的类别或属性如血型(O、A、B、AB),职业(工人、农民、商人、干部、军人、教师 …)等2、有序分类变量是各类别或属性之间有程度上的差别如尿糖化验结果按 -、±、+、++、+++分类;疗效按治愈、好转、无效、恶化分组有序分类变量的分析应先按等级顺序分组,然后清点各组的观察单位数,编制各等级的频数表,所得资料为有序分类变量资料(等级资料)除以上资料外,医学研究中还有角度(如脑电图)、季节月份、时间等周而复始的资料,在医学统计中称其为圆形分布资料另外,变量类型不是一成不变的,可根据研究分析的需要进行转化例如白细胞计数原属数值变量,若按正常、异常分组,则为无序分类变量;若按过低(<4000)、正常(4000~10000)、过高(>10000)分组,则为有序分类变量分类变量也可数量化,如将病人的恶心反应以0、1、2、3表示在做统计分析时,无论是统计描述,还是统计推断,都要先考虑变量类型,变量类型不同统计方法也各异※ 统计学的分析思路资料的分析必须包括两部分内容:一是统计描述,二是统计推断。

分析资料时,无论何种研究目的,首先要对样本资料进行统计描述,然后根据研究目的进行统计推断一、统计描述根据资料的变量类型及其分布特征选用恰当的描述性指标和统计图(表)来描述样本特征 常见的变量类型有:数值变量资料和分类变量资料(前文提过)1、数值变量资料 根据变量值的频数分布,数值变量资料有正态分布、对数正态分布和偏态分布之分数值变量资料的描述分布类型描述性指标正态分布 ※均数 和标准差 ;(必要时,可用 、 和 )对数正态分布※几何均数 和相应的标准差 偏态分布中位数 和四分位数间距 ※正态分布含近似正态分布; 对数正态分布含倍数资料(以下同)表中相应的公式: 、 ; 、 ; 、 ,其中 2、分类变量资料 应用相对数来描述常用的相对数有率、构成比和相对比,可根据不同的研究目的选用率为频率指标,用于说明某现象发生的频率或强度其公式为 ;构成比为构成指标,用于说明某一事物内部各组成部分所占的比重或分布,常以百分数表示其公式为:相对比是A、B两个有关指标之比,用于说明A为B的若干倍或百分之几A、B两个指标可以是性质相同的,也可以是性质不同的;可以是绝对数,也可以是相对数或绝对数。

其公式为: 二、统计推断 抽样研究的目的是用样本信息来推断总体特征,即统计推断统计推断又包括总体参数估计和假设检验两部分内容进行统计推断时,需根据研究目的、设计类型、资料类型及其分布特征,正确选用分析方法 常见的研究目的:估计总体参数、制定医学参考值范围、假设检验(样本与总体的比较、两样本的比较、多样本的比较)、多因素分析(含线性相关回归)等 常见的设计类型:完全随机设计、配对设计、随机区组设计(配伍组设计);其次,还有交叉设计、拉丁方设计、析因设计、正交设计等 常见的资料类型及其分布特征:数值变量资料(正态、对数正态、偏态分布)、分类变量资料(二项分布、Poisson分布)(一)估计总体参数:(均按完全随机抽样方法获得的样本)※ 数值变量资料数值变量资料的总体参数估计分布类型总体参数估计的估计方法正态分布*估计总体均数 的95%可信区间1、 已知时, 2、 未知且n小时,( )3、 未知,但n足够大时, 偏态分布估计总体中位数的95%可信区间1、先求50%的上、下限 , 2、再求出 , * 对于对数正态分布资料,1、先将变量值取对数;2、应用估计总体均数 的95%可信区间的公式求出上、下限;3、对上、下限求反对数。

※ 分类变量资料分类变量资料的总体参数估计类 型总体参数估计的估计方法二项分布估计总体率 的95%可信区间1、查表法: 50,且p远离0.5时,根据 和阳性数 查“百分率的可信区间”表;2、正态近似法: ,且样本率 或 均不太小(一般规定 与 均大于5)时, Poisson分布估计总体平均数 的95%可信区间1、查表法:样本阳性数 时,用X值查Poisson分布μ的可信区间;2、正态近似法: 时,( , )二)制定医学参考值范围(用于数值变量资料)医学参考值范围的制定方法分布类型制定方法正态分布正态分布法:双侧界值: 单侧上界: ,或单侧下界: 对数正态分布对数正态分布法:双侧界值: ;单侧上界: ,或单侧下界: 偏态分布百分位数法:双侧界值: 和 ;单侧上界: ,或单侧下界: 三)假设检验1、样本与总体的比较(均按完全随机抽样方法获得的样本)※ 数值变量资料的样本均数与总体均数的比较分布类型假设检验方法正态分布1、 未知且样本含量 较小时,用 检验:2、 已知时,用 检验: 3、 未知,但 大时, 偏态分布用样本中位数与总体中位数比较的符号秩和检验(方法同配对资料的符号秩和检验)。

※ 分类变量资料的样本与总体的比较类型假设检验方法二项分布1、直接计算概率法:用于 偏离0.5较远,且阳性数 较小作单侧检验时按二项分布概率公式直接求出累计概率,与所取检验水准比较,作出推断结论 2、正态近似法:用于 不太靠近0或1,且样本含量 足够大;或 且 时,Poisson分布1、直接计算概率法:用于 ,且样本均数 较小作单侧检验时按Poisson分布概率公式直接求出累计概率,与所取检验水准比较,作出推断结论 2、正态近似法:用于 时,2、两样本的比较※ 数值变量资料的两样本均数的比较分布类型设计类型与假设检验方法正态分布完全随机设计(或成组设计)1、 检验:用于两个小样本,,2、 检验:用于两个大样本, 配对设计(用于两个小样本)检验: , 对子数-1偏态分布完全随机设计(或成组设计):1、Wilcoxon秩和检验;2、Mann-Whitney检验配对设计:配对设计的符号秩和检验※ 分类变量资料的两样本的比较类型假设检验方法二项分布1、 检验:用于两个样本均满足正态近似条件且样本含量( )较大时,可用 检验,其公式为:2、 检验: ①四格表专用公式:( 且所有格子的 )②四格表的校正公式:( 但有 时)③四格表资料的Fisher确切概率法:当 ,或 时④配对四格表资料的 检验:, (用于 时), (用于 时)Poisson分布1、 检验:两样本均数 均大于20时。

两样本观察单位相同时, 两样本观察单位不同时, 2、 检验:同二项分布 3、多个样本的比较※ 数值变量资料的多个样本均数的比较分布类型设计类型与假设检验方法正态分布完全随机设计(或成组设计):完全随机设计的方差分析:把总变异分解为组间变异和组内变异两部分随机区组设计(或配伍组设计):随机区组设计的方差分析:把总变异分解为处理间、区组间和误差三部分其它设计:如交叉设计、析因设计、拉丁方设计和正交设计等均有相应的方差分析偏态分布完全随机设计(或成组设计):成组设计的多个样本比较的秩和检验( 检验); 随机区组设计(或配伍组设计):随机区组设计的多个样本比较的秩和检验( 检验)交叉设计:交叉设计的秩和检验※ 分类变量资料的多个样本的比较(均为完全随机设计)①双向无序 表资料:两个分类变量,即分组变量和指标变量均是无序的其研究目的通常是多个样本率的比较、两个或多个构成比的比较可用行 列表资料的 检验:, (行数-1)(列数-1) 不同疗法治疗某病的有效率的比较疗 法有效无效合计甲乙丙合计 ②单向有序 表资料:有两种形式一种形式是 表资料中的分组变量是有序的(如年龄),而指标变量是无序的(如传染病的类型)。

其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序 表资料可用行 列表资料的 检验进行分析×× 年全国疾病监测系统甲乙丙传染病不同年龄组构成年龄组霍乱伤寒痢疾麻疹出血热钩体合计20-40-60-80合计另一种形式是 表资料中的分组变量为无序的(如疗法),而指标变量是有序的(如疗效按等级分组)其研究目的为比较不同疗法的疗效,此种单向有序 表资料宜用秩和检验不同疗法治疗某病的疗效比较疗 法痊愈显效有效无效合计甲 法乙 法丙 法合计③双向有序属性相同的 表资料: 表资料中的两个分类变量皆为有序且属性相同实际上是配对四格表资料的扩展,即水平数 3的配伍资料,如用两种检测方法同时对同一批样品的测定结果其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验;也可用特殊模型分析方法(可用SAS软件)④双向有序属性不同的 表资料: 表资料中两个分类变量皆为有序的,但属性不同宜用秩和检验。

下载提示
相似文档
正为您匹配相似的精品文档