统计分析方法汇总目录基本统计分析 1正态性检验 2.单变量均值检验 3.两独立样本的均值检验 2.配对(成对)总体均值检验 2回归分析 2.方差分析 2.列联表检验 2.多元统计分析 4主成分分析 5.因子分析 5.聚类分析 5.判别分析 5.基本统计分析正态性检验许多计量资料的分析方法要求数据分布是正态或近似正态,因此对原始独立测定 数据进行正态性检验是十分必要的正态性检验主要有三类方法:一、 计算综合统计量如动差法、夏皮罗-威尔克SHAPIRO-WILK法(W检验)、达戈斯提诺DAGOSTINO 法(D 检验)、SHAPIRO-FRANCIA 法(W 检验).二、 正态分布的拟合优度检验如皮尔逊X2检验、对数似然比检验、柯尔莫哥洛夫KOLMOGOROV-SMIROV法 检验 .三、 图示法(正态概率图NORMAL PROBABILITY PLOT)如分位数图(QUANTILE QUANTILEPLOT ,简称 图)、百分位数(PERCENT PERCENT PLOT,简称 PP 图)和稳定化概率图(STABILIZED PROBABILITY PLOT,简称 SP 图) 等.SPSS&SAS 规则:SPSS规定:当样本含量3 WN <5000时,结果以SHAPIRO - WILK (W检验)为 难,当样本含量N> 5000结果以KOLMOGOROV - SMIRNOV为准。
而SAS规定:当样本含量N <2000时,结果以SHAPIRO - WILK (W检验)为准, 当样本含量N>2000时,结果以KOLMOGOROV - SMIRNOV (D检验)为准丄SPSS过程1、先做直方图看看是否大概符合正态分布,这个不用说了吧,GRAPH-->LEGACY DIALOGS—>HISTOGRAM—>选入变量-->OK.如果距离正态分布的样子太远了, 你就不要做下面的工作啦5-u・nb・」t*.2、 ANALYZE-->DESCRIPTIVE STATISTIC-->EXPLORE-->选入变量-->选右上角的PLOTS—〉打开后,选中间的 NORMALLY PLOTS WITH TESTS —>0K结果就出 来啦TESTS OF NORMALITYKOLMOGOROV-SMIRNOVASHAPIRO-WILKSTATISTICDFSIG.STATISTICDFSIG.RAND.048111.200*.990111.5963、它会用两种方法来检验正态分布,当SIG>0.05时服从正态分布,如果不服从 正态分布,就要看峰度和偏度啦:偏度主要是研究分布形状是否对称约=0则可以认为分布是对称的;>0 则可以认为右偏态,此时在均值右边的数据更为分散;<0 则可以认为左偏态,同理。
峰度它是以正态分布为标准,比较两侧极端数据分布情况的指标正态的=0>0 此时分布有一个沉重的尾巴<0 正好相反附加检验:(II)附加检验之一,观察正态概率图,如果数据来自正态分布,图形的散点应 该呈现一条直线用PLOT绘制正态分布的概率图,里面的“ + ”构成一条直线(正 态分布数据概率图散点应该成一条直线),“*”代表样本数据散点根据“*”(III)附加检验之二,绘制数据的条形图,如果数据来自正态分布,条形图呈现 “钟形”分布用HISTOGRAM绘制直方图/NORMAL在直方图中拟合正态分布的密 度曲线,可以看到,曲线几乎是个标准钟形,可以认为数据是正态分布W)附加检验之三,观察描述性统计量中偏度系数(SKEWNESS) G1和峰度系 数(KURTOSIS) G2,如果数据来自正态分布,则两者都应该是0用G1,G2, 5 G1, B G2来计算U值,用U检验法U1二同理计算U2,要两个都小于1.96,即P大 于0.05才可以丄SAS过程正态分布检验的一般格式如下:PROC UNIVARIATE DATA 二数据集 NORMAL;VAR 变量; HISTOGRAM 变量;/*产生直方图*/PROBPLOT 变量; /*产生概率分布图*/RUN;Tests for Narma I !tyTest--Statist ic---P Vfilue0.959137D.1064180.2022>0.1500Shapira-Wi IkKnl mogorov-Sm i rnoiv在检验中,我们的零假设是变量服从正态分布,如果TEST FOR NORMALITY检验 结果的P值小于0.05水平,则拒绝零假设,否则接受零假设。
单变量均值检验(单样本的均值T检验)所谓单变量均值检验就是检验变量的均值是否等于某个给定的值如果一个变量 服从正态分布,那么可以用T检验(ONE-SAMPLE T TEST)来对它进行均值检验 丄SPSS过程ANALYZE——COMPARE MEANS——ONE-SAMPLE T TESTOne-Sample StatisticsNMeanStd. DeviationStd. Error Meanrand111-.12441.01700.09653均值为-0.1244,比给定的0稍微小一点,接着看下面的结果One-Sample TestTest Value = 0tdfSig. (2-tailed)Mean Difference95% Confidence Interval of theDifferenceLowerUpperrand-1.289110.200-.12443-.3157.0669解释:T值等于-1.289,自由度为110,双尾SIG. (significance的缩写)值为0.200 大于0.05,因此我们可以说原假设成立,即均值在0.05水平下等于0SAS过程T 检验的一般格式如下:PROC TTEST DATA=数据集H0=某个值;/*必须指明零假设HO*/VAR 变量;RUN;One '5ampI e t-tea.t for a MeanSample/Statjst ies-. for feel 1N 血 sinStd. Dev..Std. Error■2'2E4 2E.-7642.840.09HypoTestNul 1 hypothesis!.Mean of feel 1 150Alternative:Mean of feel 1 :5Ct- Statistic Df Prob > t解释:记录数为22E4,均值为26.76,方差为42.84,获得的T值为-253.439, 自由度为218177, P值小于0.0001,所以我们拒绝原假设,即可以说均值不等 于 5O。
注意:前提是该变量服从正态分布,正态分布检验参考相关正态分布检验介绍两独立样本的均值检验两独立样本的T检验用于两个独立样本的均数比较前提条件:两独立样本都来自正态分布,并且在T检验之前需要进行方差齐性检 验(F检验)丄SPSS过程ANALYZE——COMPARE MEANS——INDEPENDENT-SAMPLE T TESTGroup StatisticsgroupNMeanStd. DeviationStd. Error Meanvarl184-.12261.02133.11144227-.13011.02266.19681基本统计量“dependent Samples TestLevene's Test forEquality of Variances(方差齐性检验)t-test for Equality of Means(均值相等的t检验)FSig.tdfSig.(2-tailed)MeanDifferenceStd. ErrorDifference95% Confidence Intervalof the DifferenceLowerUppervar1 Equal variances assumed.085.772.033109.974.00746.22602-.44050.45542Equal variances not assumed.03343.929.974.00746.22617-.44837.46330通过上面两个表的方差以及方差齐性检验可以看到 SIG 值为 0.772>0.05,没有 显著差异(方差齐),均值检验双尾SIG0.974>0.05,我们可以说两独立样本的 均值没有明显差异。
丄SAS过程两独立样本的均值T检验的一般格式如下:PROC TTEST DATA二数据集;CLASS 分类变量;VAR 变量;RUN;The TTEST ProcedureStat isi i.cs :VariablesexNLower CLMeanMeanUpper CLMeanLower CL .Sid D濟Std DewUpper CLStd Dev.Std Errmathf885.0^898^347醐瞬4<72088.60811.668mathm878.73284円590.7084.71187 J 26414.5042.5196mathDiff (1-2)-2:盟4.'2510.7824.4®6.04459.5327縊応2 2T-TestsVariableMethodVariancesDFt ValuePr >■ |t|mathPoo 1edEqual145410.1815mathSatterthwaiteUnequal12;21.410.1847Equality of VariancesVariableMethodNum DFDen DFF ValuePr鬓FmathFolded F77■2.2J80.2994解释:第一部分为基本统计量;第二部分为2样本T检验的结果,第一行是假设 方差相等使用 POOLED 方法得出的结果,第二行是方差不等使用 SATTERTHWAITE 方法得到的近似T检验结果;第三部分为两独立样本(2组)方差是否相等(方 差齐性)的检验结果;首先第三部分P值0.2994>0.05,方差齐(相等),再看 第二部分UQUAL部分的结果P值0.1814>0.05,我们可以说均值相等。
配对(成对)总体均值检验(配对样本的T检验,PAIRED-SAMPLE T TEST)检验两个有联系正态总体/样本的均值是否存在显著的差异如检验某种产品广 告的前后销量是否显著有差异,需要对广告前后销量进行比较前提:正态分布丄SPSS过程ANALYZE——COMPARE MEANS——PAIRED-SAMPLE T TESTPaired Samples Statistics 样本。