非参数统计方法简介

资源描述

《非参数统计方法简介》由会员分享，可在线阅读，更多相关《非参数统计方法简介（26页珍藏版）》请在金锄头文库上搜索。

1、非参数统计方法简介廖海仁2011.3.17统计之都论坛的一个帖子标题:心理统计求教,方差分析还是T检验呢?内容：问题是这样的：对我校4个年级的大学生适应心理进行分析，每个年级得出50组数据，现在要比较不同年僉之间适血桂的圭鼻性，到辰囊用存么检验，fflspss 这样操作呢？小妹在此求教求真理，谢谢各位大哥了I I回答一：一般与人的行为相关的数据都是偏态的分布，方差分析和ttest就不适用了吧统计的稳健性指统计的一种性质：当真实模型与理论模型有不大的偏离时，统计方法仍能维持较为良好的性质，至少不致变得太坏。实际应用中总体的分布的假定的分布常略有偏离；大量的观测数据中常存在部分异常数

2、据。 (1)对总体分布的稳健性若性能与总体的正态性有较强的依赖关系者，如F检验，其稳健性较差；而与总体均值相关的统计方法，如t检验之类，其稳健性相对较好。 (2)对异常数据的稳健性典型例子：样本均值估计总体均值，受异常数据影响较大，相对中位数与截断均值更不稳健。获得对异常数据稳健性的途径：a)设计有效的方法发现并剔除异常值；b)设计对个别异常数据不敏感的统计方法参数统计vs非参数统计参数统计假设总体分布函数已知（大多数基于正态假设）或只带有一些未知参数非参数统计如果在一个统计问题中，如果其总体分布不能用有限个实数来刻画，只能对它做一些分布连续、有密度、具有某些矩等一般性的假定，则称

3、为非参数统计问题。非参数方法的特点方法的适用面广而效率可能较低大样本理论占重要位置所谓大样本统计方法是指根据统计量的极限性质而得岀的统计方法大样本理论依赖于概率论的极限理论从数据本身获取信息具有良好的稳健性基本概念秩(Rank):把样本XM2,Xn按大小排列为XV二X=.= X(n),若Xj二X (Ri)，则称Rj为Xj的秩, 全部n个秩构成秩统计量。秩统计量是非参数统计的一个主要工具。Statistical Methods Based on RankE.L. LehmannOrder StatisticsHA David中位数(Median) 均值(Mean)优点：(1)有时比数学期望更有

4、代表性；(2) 受少数异常值的影响很小(3) 理论上总是存在性质：设X有概率密度函数f(x),另h(a)=E|X-a|,当a为X的中位数m时，h(a)达到最小值。缺点：(1) X1+X2的中位数与X1,X2的中位数缺乏简单联系，数学上处理复杂且不方便(2) 中位数可能不唯一，对于离散型，定义可能不理想(3) 实际计算的复杂度远大于均值计算的复杂度样本数据分析的一般步骤数据探查R: plot, hist, boxplot分布的检验使用QQ图R： qqnorm, qqlineShapiro-Wilk Normality test (正态分布检验)(适合小样本 N 0, i=1,2,3,.,n 将其

5、转化为二项分布检验：S+ binom(n, %) R实现：无直接函数，自己借用binom.test(s, n, p=0.5,.)符号秩和检验符号检验不足：不考察值的大小，不能检验出偏度非常大的分布（实例中的值明显偏大于6064,却没有检验岀来）。符号秩和检验（又称Wilcoxon符号秩检验）基本思想：考察|xrM0|的秩, 假定总体是连续的，且对其中位数是对称的，则W+二工R/服从中点为n（n+1）/4的对称分布。符号秩和检验一般比符号检验更有效（强势） R： wilcox.test()可用来进行符号秩和检验 wilcox.test(x, y = NULL, alternative = c(

6、”two.sided”，less1, greater), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, .)分布的一致性检验：乂2检验用来检验数据分布是否与假设分布是否一致（拟合优度检验） H0:X具有分布FOHX不具有分布F理论（Pearson定理）：若F（x）完全己知，则K = Zm(nr np/npj x2(m-1)其中n二工口, 口是第i个区间的理论概率，m为区间数。瀧驢豔需稜也不宜太小每个区间一般至少要有5个数据, R: chisq.test chi

7、sq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000)r x c歹U联表一般，若总佐中的个体可按两个属性4与B分类，A有r个等级人,坨,，舛；B有c个等级Bi?,Bc，从总体中抽取大小为门的样圭设其中有门耳个属于等级A和8户门jj称为频数，将rxc个 q（匸1,2,/戸2,c）排列为一个彳亍c列的二维列联表（表2）, 简称r xc表。表 2B行和B. B。HunlOrininsa noatHrlnr

8、nrore列和 n-ort两总体独立性的X 2检验统计量宀丈码-爲偽 2=1 ；=1 的渐近分布是自由度为(r-1)(c-1)的x2分布，式中绻= n.n/n称为期望频数。假设：Ho (零假设)：对任意的i,j,事件“一个观测值在行i”与事件”同样的观测在列j”是独立性。已(备择假设)：行与列不独立R: wilcox.testFisher精确检验X2检验只允许20%以下的个子的期望频数小于5,如果不满足此条件，则应该使用Fisher精确检验基本思想：固定各边缘和的条件下，根据超几何分布，可以计算观测频数出现任一种特定排列的条件概率。把实际出现的观测频数排列以及比它呈现更多关联迹彖的

9、所有可能排列的条件概率算出来并相加，若所得结果小于给定的显著水平，则判定所考虑的两个属性存在关联，从而拒绝H。fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, control = list(), or = 1, alter native = two.sided, conf.int = TRUE, conf, level = 0.95, simulate.p.value = FALSE, B = 2000)两样本Wilcoxon秩和检验在正态总体的假定下，两样本的均值检验通常使用t检验，但t检验并不稳健基本思想:将样本

10、X1sX2,.,Xm和丫“ 丫 2,Yn混合起来，并把N二(m+n)个观测值从小到大排列起来每一个观察在混合排列中都有自己的秩。计算X与丫样本的秩和Wx与Wy.假设检验(检验两样本中值是否相等八H：Mx=MyOHi：MxHMyR: wilcox.test两样本尺度参数的Mood检验黯立样本方差之比的F检验对于总体非正态或数据有严重污染时不-定设两连续总体X与丫独立，样本2, . ,Xm-F(x-01/o1)辛常臬曲祐軾2/02),而且F(0)=1/2, 61 = 02 (若不相等，可以通过假设检验：Ho: a1 = a2 H.cM H a2构造统计量：记R1V R12,Rim为X的观察值

11、在混合样本中的秩，M二Xm(Rir(N+1 )/2)2 R: mood.test(x, y, alternative = c(two.sided, less, greater),.)注意：做检验时必须保证两样本中值相等!两样木尺度参数的Ansari-Bradley检验检验两样本方差是否相等（相当于F检验）R: ansari.test(x, y, alter native = c(Ntwo.sidedN, less, greater), exact = NULL, conf.int = FALSE, conf,level = 0.95,)多样本位置参数的Kiuskal-Wallis秩和检验基本思想：将k个样本混合起来，算出所有数据在混合样本中的秩, 对每一个样本的观察值的秩求和后得到它们在每组中的平均值尺。如果这些值很不一样，就可以怀疑原假设。 R: kruskal.test(x, g,.)多样本尺度参数的Fligner-Kille en检验多样本方差相同的检验 R: fligner.test(x, g,)Thanks!

展开阅读全文