统计分析方法的选择1013

资源描述

《统计分析方法的选择1013》由会员分享，可在线阅读，更多相关《统计分析方法的选择1013（72页珍藏版）》请在金锄头文库上搜索。

1、数据分析中数理统计方法的选择,尤圣富上海中医药大学附属龙华医院临床流行病学教研组 2011-10-13,数理统计问题的重要性,在科学研究中，经常会涉及到对随机变量大小、离散及分布特征的描述以及对2个或多个随机变量之间的关系描述问题。对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计学。在科学研究中，能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。目前，国内科技期刊对稿件中数理统计方法问题的重视程度存在差异。,1 统计软件的选择,统计分析通常涉及大量的数据，需要较大的计算工作量。在进行统计分析时，尽管作者可以自行编写计算程序，但在统计软件很普及的今天，这样

2、做是毫无必要的。出于对工作效率以及对算法的通用性、可比性的考虑，一些学术期刊要求作者采用专门的数理统计软件进行统计分析。,1 统计软件的选择,问题：作者未使用专门的数理统计软件，而采用Excel这样的电子表格软件进行数据统计分析。由于电子表格软件提供的统计分析功能十分有限，只能借助它进行较为简单的统计分析，故我们不主张作者采用这样的软件进行统计分析。,1 统计软件的选择,目前，国际上已开发出的专门用于统计分析的商业软件很多，比较著名有SPSS(Statistical Package for Social Sciences)和SAS(Statistical Analysis System)。

3、此外，还有STATA和BMDP等。 SPSS是专门为社会科学领域的研究者设计的，但此软件在自然科学领域也得到广泛应用。 Stata和SAS、SPSS一起被并称为新的三大权威统计软件，WHO的研究人员也把Stata作为最主要的统计分析工作软件,2.1 均值的计算：理论问题,1）均值（准确的称呼应为“样本均值”）的统计学意义：反映随机变量样本的大小特征。 2）均值对应于随机变量总体的数学期望总体的数学期望客观上决定着样本的均值，反过来，通过计算样本的均值可以描述总体的数学期望。,2.1 均值计算：理论问题（续）,3）在处理实验数据或采样数据时，经常会遇到对相同采样或相同实验条件下同一随机变量的多

4、个不同取值进行统计处理的问题。4）为找到代表这些观测值总体大小特征的代表值（统计量，该统计量根据样本数据算出），多数作者会不假思索地直接给出算术平均值和标准差。显然，这种做法是不严谨的不一定总是正确的,2.2 均值计算：技术问题,在数理统计学中，作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。何时用算术平均值？何时用几何平均值？以及何时用中位数？这不能由研究者根据主观意愿随意确定，而要根据随机变量的分布特征确定。,2.2 均值计算：技术问题（续）,反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布服从正态分布时，其数学期望就可以用样本的算术平均值

5、描述。此时，可用样本的算术平均值描述随机变量的大小特征。如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映该变量的大小特征。在这种情况下，可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布，则几何平均值就是数学期望的值。此时，就可以计算变量的几何平均值。如果随机变量既不服从正态分布也不服从对数正态分布，校正无效，则应该采用非参数检验。,2.3参数统计和非参数统计优缺点,参数统计优点：对资料的分析利用充分统计分析的效率高缺点：对资料的要求高适用范围有限,非参数统计优点：对资料的没有特殊要求不受分布的影响（偏态、分布不明的资料）不受方差齐性的限制不受变量类型

6、的影响不受样本量的影响缺点：检验效率低（易犯型错误）对信息的利用不充分。,3相关分析,在相关分析的前提是需要作出散点图。常犯的错误是：简单地计算Pearson 积矩相关系数，而且既不给出正态分布检验结果，也往往不明确指出所计算的相关系数就是Pearson 积矩相关系数。在数理统计学中，除有针对数值变量设计的Pearson 积矩相关系数（对应于 “参数方法”）外，还有针对顺序变量（即“秩变量”）设计的Spearman秩相关系数和Kendall秩相关系数（对应于 “非参数方法”）等。 Pearson 积矩相关系数可用于描述2个随机变量的线性相关程度，Spearman或Kendall秩相关系数

7、用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。,3 相关分析：相关系数的选择,在相关分析中，计算各种相关系数是有前提条件的。在相关分析中，对于秩变量，一般别无选择，只能计算Spearman或Kendall秩相关系数。对于数值变量，只要条件许可，应尽量使用检验功效最高的参数方法，即计算用Pearson 积矩相关系数。只有计算Pearson 积矩相关系数的前提不存在时，才考虑退而求其次，计算专门为秩变量设计的Spearman或Kendall秩相关系数（尽管这样做会导致检验功效的降低）。,4 相关分析与回归分析的区别,1）最常见的错误是:用回归分析的结果解释相关性问题。例如，作者将

8、“回归直线（曲线）图”称为“相关性图”或“相关关系图”；将回归直线的R2(拟合度，或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”；根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。,4 相关分析与回归分析的区别,相关分析与回归分析均为研究2个或多个变量间关联性的方法，但2种数理统计方法存在本质的差别，即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。,4 相关分析与回归分析的区别,如果自变量是普通变量，即模型回归分析，采用的回归方法就是最为常用的最小二乘法。如果自变量是随机变量

9、，即模型回归分析，所采用的回归方法与计算者的目的有关。在以预测为目的的情况下，仍采用“最小二乘法”（但精度下降最小二乘法是专为模型设计的，未考虑自变量的随机误差）；在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如“主轴法”、“约化主轴法”或“Bartlett法” ）。,4 相关分析与回归分析的区别,显然，对于回归分析，如果是模型回归分析，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以探索两者的“共变趋势”为目的，应该改用相关分析。如

10、果是模型回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型回归分析！）。此时，即使作者想描述2个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。,4 相关分析与回归分析的区别,需要特别指出的是，回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此，这极易使作者们错误地理解R2的含义，认为R2就是 “相关系数”或“相关系数的平方”。问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型回归分析，2个变量之间的“相关性”概念根本不存在，

11、又何谈“相关系数”呢？更值得注意的是，一些早期的教科书作者不是用R2来描述回归效果（拟合程度，拟合度）的，而是用Pearson积矩相关系数来描述。这就更容易误导读者。,5 重要的数理统计学常识,5.1 假设检验基本思想统计推断：是根据样本数据推断总体特征的一种方法。假设检验：是进行统计推断的途径之一（另一种途径是参数估计，如点估计和区间估计）。假设检验中的关键问题：1）在原假设成立的情况下，如何计算样本值或某一极端值发生的概率？2）如何界定小概率事件？,5.1 假设检验,基本思路首先，对总体参数值提出假设（原假设）；然后，利用样本数据提供的信息来验证所提出的假设是否成立（统计推断）如

12、果样本数据提供的信息不能证明上述假设成立，则应拒绝该假设；如果样本数据提供的信息不能证明上述假设不成立，则不应拒绝该假设。接受或拒绝原假设的依据小概率事件不可能发生。显然，这样做是有风险的（小概率事件真的发生了）。,5.1 假设检验,基本步骤 1）提出原假设（或称“零假设”，H0）； 2）选择检验统计量； 3）根据样本数据计算检验统计量观测值的发生概率（相伴概率，p）； 4）根据给定的小概率事件界定标准（显著性水平，如0.05，0.01）做出统计推断。,5.1 假设检验,基本步骤：为什么要设计并计算检验统计量？在假设检验中，样本值（或更极端的取值）发生的概率不能直接通过样本数据计算，而是通

13、过计算检验统计量观测值的发生概率而间接得到的。所设计的检验统计量一般服从或近似服从某种已知的理论分布（如t-分布、F-分布、卡方分布），易于估算其取值概率。对于不同的假设检验和不同的总体，会有不同的选择检验统计量的理论和方法。,5.1 假设检验,基本步骤：计算检验统计量观测值的发生概率在假定原假设成立的前提下，利用样本数据计算检验统计量观测值发生的概率（即p值，又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率）。该概率值间接地给出了在原假设成立的条件下样本值（或更极端值）发生的概率。,5.1 假设检验,进行统计推断依据预先确定的 “显著性水平” （即值），如0.01

14、或0.05，决定是否拒绝原假设。如果p值小于值，即认为原假设成立时检验统计量观测值的发生是小概率事件，则拒绝原假设。否则，就接受原假设。,5.2 显著性水平：概念与意义,在假设检验中，显著性水平（Significant level，用表示）的确定是假设检验中至关重要的问题。显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此，如果取= 0.05，如果计算出的p值小于，则可认为原假设是一个不可能发生的小概率事件。当然，如果真的发生了，则犯错误的可能性为5%。显然，显著性水平反映了拒绝某一原假设时所犯错误的可能性，或者说，是指拒绝了事实上正确的原假设的概率。,5.2 显著

15、性水平：通常的取值,值一般在进行假设检验前由研究者根据实际的需要确定。常用的取值是0.05或0.01。对于前者，相当于在原假设事实上正确的情况下，研究者接受这一假设的可能性为95%；对于后者，则研究者接受事实上正确的原假设的可能性为99%。显然，降低值可以减少拒绝原假设的可能性。因此，在报告统计分析结果时，必须给出值。,5.2 显著性水平：进行统计推断,在进行假设检验时，各种统计软件均会给出检验统计量观测值以及原假设成立时该检验统计量取值的相伴概率（即检验统计量某特定取值及更极端可能值出现的概率，用p表示）。 p值是否小于事先确定的值，是接受或拒绝原假设的依据。如果p值小于事先已确定的值

16、，就意味着检验统计量取值的可能性很小，进而可推断原假设成立的可能性很小，因而可以拒绝原假设。相反，如果p值大于事先已确定的值，就不能拒绝原假设。,5.3 统计推断：过去的回忆,1）在计算机技术十分发达，以及专业统计软件功能十分强大的今天，计算检验统计量及其相伴概率是一件十分容易的事情。 2）然而，在20世纪90年代以前，只有服从标准正态分布的检验统计量，人们可以直接查阅事先准备好的标准正态分布函数表，从中获得特定计算结果的相伴概率。而对于的服从t-分布、F-分布、卡方分布或其它特殊的理论分布的检验统计量（大多数的假设检验是这样），人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率（通常为0.1、0.05和0.01）为自变量，以检验统计量的临界值为函数排列。,5.3 统计推断：过去的回忆,3）在进行统计推断时，人们使用上述临界值表根据事先确定的显著性水平，查阅对应于某一自由度和特定相伴概率的检验统计量的临界值，然后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值，即实际的相伴概率小于事先规定的显著性水平，便可拒绝原假设。否则，可接受原假设。,

展开阅读全文