医学统计学重点.doc－金锄头文库

资源描述

《医学统计学重点.doc》由会员分享，可在线阅读，更多相关《医学统计学重点.doc（7页珍藏版）》请在金锄头文库上搜索。

1、Chapter 基本概念显著性检验（test of significance）：计算P值医学统计工作的内容：1、实验设计：最关键最重要2、收集资料：最基础原始资料：实验数据现场调查资料医疗卫生工作记录报表报告卡质量控制精度和偏倚3、整理资料（1）资料的逻辑检查（坏数）（2）一致性检查（3）原始数据加工：频数分布表4、分析资料：统计描述（表、图、离散趋势、集中趋势）和统计推断统计描述类型的选择：集中趋势离散趋势对称、正态，对数正态 G S lgX偏态及其他 M Q，R单位不同或均数差别大 CV医学统计的资料类型：计量资料、计数资料、等级分组资料医学统计学的对象：有变异的事物总体和

2、样本：总体（population）的特性：同质性、大量性、差异性。抽样总体样本参数统计量推断抽样的要求：代表性、随机性、可靠性、可比性。样本的三性：代表性、随机性、可靠性。可靠性（reliability）：实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。两样本间具有：可比性。误差的类别：1、系统误差（system error）：在资料的收集过程中，由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因，造成的观察结果的倾向性的偏大或偏小。必须克服。2、随机测量误差（random measurement error）：在避免系统误差的情况下，由

3、于各种偶然因素的影响造成对同一对象多次测量值的不一致。3、抽样误差（sampling error）：由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大，抽样误差越小。如均数的抽样误差：。概率（probability）：P（A）小概率事件：P0.05（有统计学意义）或P0.01（有高度统计学意义）。Chapter 集中趋势的统计描述手工整理资料频数表（frequency table）的步骤：1、求极差（全距）2、确定组数、组距参考组距=全距 / 组数3、确定组段4、手工编制划记表直方图（histogram）：高度：各组的频数纵轴宽度：组距横轴表示组限均数（average）

4、：适用：对称分布或偏度不大的资料，尤其适合正态分布。1、算术均数（mean）：2、加权均数：3、几何均数：，中位数（median）：观察值按照从小到大排列时，居中心位置的数值。适用于1、分布明显成偏态时，2、频数分布的一端或两端无确切数值时。不便于统计计算。M：中位数；LM：M所在组的上限；f L：M所在组之前积累的频数；fM：M所在组的频数；i：组距。百分位数（percentile）：Px。在一组中找到这样一个数值P，全部观察值的x%小于P。P75、P25描述资料离散程度。众数：一组观察值中，出现频率最高的那个观察值。若为分组资料，则为频率最高组的组中值。适用于大样本，但粗糙。Chapter

5、离散程度的统计描述离散的表述指标：1、按间距计算：极差、四分位数间距2、按平均差距：离均差平方和、方差、标准差、变异系数极差（range，R）：即全距。粗略。适用于任何分布。四分位数间距（quartile，Q）：一组观察值按大小排序后，分成四个数目相等的段落，每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%，取中间的50%的观察值的数据范围即为。越大则数据变异越大。适用于偏态分布。Q=P75 - P25离均差平方和（sum of square of deviation）：方差（variance）：样本方差总体方差标准差（standard deviations）：适用于近

6、似正态分布。p.s.1、可用于合并资料的直接计算2、与均数结合可以完整概括一个正态分布。变异系数（CV）：用于均属相差交大或单位不同的几组数据观察值的比较。CV=正态分布（normal distribution）：1、正偏态分布：高峰向左，长尾向右负偏态分布：高峰向右，长尾向左。2、和是正态分布总体的两个参数，对应样本统计量中的S和X。实际应用中和通常未知，可以将S和X作为总体参数的估计量使用。注意对比：2、是位置参数，是变异参数。描述方法：N（，2）3、曲线下面积的意义：X1X2出现的概率。 68.3%1.96 （单侧1.645） 95%2.58（单侧2.33） 99%标准正态分布（stan

7、dard）：是=0，=1的正态分布。对于任何参数为、的正态分布，都可以通过变量变换转化成标准正态分布：。医学参考值范围（reference value range）的制定方法：1、选择足够数量的正常人作为参照样本2、对选定的参照样本进行准确的测定3、决定取单侧范围还是双侧范围值4、选择适当的百分范围5、估计参考值范围的界限Chapter 抽样误差与可信区间中心极限定理：在样本含量很大的情况下（n50），无论样本测量量（X）服从什么分布，样本均数的抽样分布都近似服从以为均数的正态分布N（，2/n）标准误（standard error）：样本均数之间变异的标准差。实际工作中总体标准差未知，用样本

8、的标准差S代替：标准差与标准误的区别：标准差标准误含义描述观察值的变异程度的大小的指标描述样本均数的抽样误差大小的指标公式（）意义标准差较小，表示观察值围绕均数波动较小，说明样本均数代表性好小，表明样本均数围绕总体均数的波动较小，说明样本均数可靠性好应用1、表示观察值变异程度2、结合样本均数描述正态分布资料特征，确定医学参考值范围3、计算标准误4、计算CV1、估计样本均数抽样可靠程度2、估计总体均数的可信区间3、进行假设检验n趋于稳定（）逐渐减小标准误（公式）的意义：1、与标准差的联系：在样本含量一定的情况下，标准误与标准差成正比。（1）当观察值的变异（标准差）较小时，样本均数之间的抽样误差

9、较小，抽到的样本均数与总体均属可能相差较小，用估计的可靠性较好（2）当观察值的变异较大时，样本均数之间的抽样误差较大，抽到的样本均数与总体均属可能相差较大，用估计的可靠性较差。2、与样本含量的关系：与其平方根成反比，说明在同一总体中随机抽样，样本含量越大，标准误越小。3、标准误反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异。参数估计（parameter estimation）：指偶那个过样本参数估计总体参数，是统计推断的重要内容之一。常用方法有点估计、区间估计。点估计（point ）：使用单一数值直接作为总体参数的估计值。适用于各种资料。区间估计（interval ）：按照预先

10、给定的概率计算出一个区间，使它能够包含总体参数。给定的概率（1-）称为可信度。计算得到的区间称为可信区间（confidence interval，CI）可信区间通常包括两个数值界定的可信限（confidence limit），分别为上限、下限。总体均数估计的95%可信区间表示：该区间有95%的概率包含总体均数。注意不可以说“总体均数有95%的概率落在这个区间里”。可信区间估计效果的比较：1、（1-）越接近1越好，概率2、区间宽度越窄越好，精确度但两者是矛盾的。一般选择（1-）=95%。t分布（t distribution）：是以0为中心的对称分布；当时，t分布的极限分布就是标准正态分布。在正态

11、分布的总体中进行抽样，服从自由度的t分布。t的大小与、自由度有关。可信区间的计算：，若n50，则t分布接近标准正态分布，则简化，若已知，则可简化为，Chapter 假设检验假设检验（hypothesis test）：目的：比较总体参数有无差别基本思想：首先对所需比较的总体提出一个无差别的假设，然后通过样本数据推断是否拒绝这一假设。基本方法：反证法和小概率事件。基本步骤：1、建立假设和确定检验水准无效假设（null hypothesis）：H0：=0（或d=0），总体均数无差别。备择假设（alternative ）：H0：0（或d0），总体均数有差别假设有单侧和双侧两种。应用单侧检验一定要

12、有过硬的专业知识。一般选用双侧检验，因为双侧检验得出有显著差别的结论，单侧检验结论也一定是显著差别；然而反之不亦然。检验水准亦称显著性水准（significance level），用表示，是预先设定的拒绝域的概率值。一般取0.05。2、选择检验方法和计算检验统计量t来自正态分布（或近似）的小样本（n50）两样本均数比较u1、无论何种分布的大样本（n50时）2、已知的正态分布小样本F方差分析1、独立的，水平k32、均来自于正态分布的总体3、方差齐 3个或3个样本以上推断2个或2个以上总体率、构成比之间的差别非参1、总体分布偏态或未知2、个别数据偏大或某段不确定3、等级资料3、确定P值、做出统计推

13、断结论P值的意义：假设检验下结论的主要依据，指在原假设成立的条件下，观察到的样本差别是由机遇所致的概率。结论：1、p，样本数据差异不显著，无统计学意义，根据现有样本不足以拒绝H0（不等于接受H0）。单样本的t检验：条件：，S，n1、H0：=0 ，=0.05，双侧检验2、t=，3、配对样本t检验：条件：n，指标1、指标2（d，d，d2）1、H0：d=0，=0.052、t=3、成组设计实验的两样本均数比较条件：n1，n2，1，2，S1，S21、H0：1=2 ，2、u=3、，F检验：条件：表格略1、H0：各组总体均数相同， H1：各组总体均数不全相同2、，vTR=k-1，vE=n-k3、F符合自由度

14、为（k-1，n-k）的F分布。F值接近1，则可认为均值只来源于随机波动。若F1，且FF,(k-1,n-k)，则P,。假设检验中的两类错误：1、第一类错误：当H0为真时，拒绝H0接受H1。又称假阳性错误（阳性指两者总体参数有差异）。检验水准是预先规定的犯第一类错误的概率的最大值。2、第二类错误：当H0为假时，不拒绝H0。又称假阴性错误。概率大小用表示，只取单侧，一般未知。可证，越大越小，越小越越大。若要同时减少第一类错误和第二类错误，唯一方法是增大样本含量。简单四格表的检验：有效无效合计药物1aba+b=n1药物2cdc+d=n0合计a+c=m1b+d=m0N1、H0：，=0.052、当n40，且所有T5时，四格表专用公式当n40，但有1T5时，使用四格表校正公式当n40，或有T1时，使用Fisher确切概率公式3、=3.84，=6.63配对四

展开阅读全文