R语言中的ttest和ANOVA13965

上传人:cn****1 文档编号:568553779 上传时间:2024-07-25 格式:PPT 页数:45 大小:927KB
返回 下载 相关 举报
R语言中的ttest和ANOVA13965_第1页
第1页 / 共45页
R语言中的ttest和ANOVA13965_第2页
第2页 / 共45页
R语言中的ttest和ANOVA13965_第3页
第3页 / 共45页
R语言中的ttest和ANOVA13965_第4页
第4页 / 共45页
R语言中的ttest和ANOVA13965_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《R语言中的ttest和ANOVA13965》由会员分享,可在线阅读,更多相关《R语言中的ttest和ANOVA13965(45页珍藏版)》请在金锄头文库上搜索。

1、R R语言中的语言中的t-testt-test和和ANOVA-13965ANOVA-13965IndexT-testANOVA单因子方差分析同时置信区间双因子方差分析有交互作用的方差分析多重t-test分析Vasishths Height ExampleSAMP =53.56797, 60.12001, 59.85700, 63.53580, 62.00390, 61.80454, 64.33530,61.38428, 60.05831, 65.93938, 57.21961Shrinking drug (non-effect value=64)大部分情况下我们并不知道 T分布 pt(-3.0

2、2, df = 10) + (1 - pt(3.02, df = 10)1 0.01289546Vasishths Height ExampleThe p-value of this two-sided t-test is 0.012. samp t.test(samp, mu = 64)One Sample t-testdata: sampt = -3.0237, df = 10, p-value = 0.01281alternative hypothesis: true mean is not equal to 6495 percent confidence interval:58.603

3、96 63.18260sample estimates:mean of x60.89328 source(file = shade.tails.R) shade.tails(3.02, tail = both, df = 10)曲线下小于-3.02只有0.06% 通过Keith Johnsons shade.tails 这个功能绘图.t.test()的调用格式的调用格式t.test(x, y = NULL, alternative = c(two.sided, less, greater),mu = 0, paired = FALSE, var.equal = FALSE,conf.level

4、 = 0.95, .)若仅出现数据x, 则进行单样本t检验; 若出现数据x和y, 则进行二样本的t检验alternative=c(two.sided, less, greater)用于指定所求置信区间的类型; alternative=two.sided是缺省值, 表示求置信区间 alternative=less表示求置信上限; alternative=greater表示求置信下限. mu表示均值, 它仅在假设检验中起作用, 默认值为零.单正态总体参数检验单正态总体参数检验 x t.test(x)One Sample t-testdata: x t = 283.8161, df = 9, p-v

5、alue t.test(x)$conf.int #置信区间1 173.3076 176.0924attr(,conf.level)1 0.95两正态总体参数检验两正态总体参数检验 x y t.test(x, y, var.equal=TRUE)Two Sample t-testdata: x and y t = -0.8548, df = 13, p-value = 0.4081alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.7684249

6、 0.3327106 sample estimates:mean of x mean of y 19.92500 20.14286 原假设的显著性检验原假设的显著性检验 x y t.test(x, y, paired=TRUE)Paired t-testdata: x and y t = 1.8002, df = 7, p-value = 0.1149alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.3213757 2.3713757 sam

7、ple estimates:mean of the differences 1.025 Better-than-advertised gas mileage 某地区上市SUV车,广告宣传一加仑跑17米,消费者协会认为实际上没有达到广告宣传。为了测试,讲SUV灌满油记录里程数。重复十次获得十个数据。 mpg xbar s n c(xbar, s, n)1 14.870000 1.572012 10.000000 SE (xbar - 17)/SE1 -4.284732 pt(-4.285, df = 9, lower.tail = T)1 0.001017478 t.test(mpg,mu=17

8、,alternative=less)ANOVA方差分析(analysis of variance, 简写为ANOVA)是生产和科学研究中分析试验数据的一种有效的统计方法。引起观测值不同(波动)的原因主要有两类: 一类是试验过程中随机因素的干扰或观测误差所引起不可控制的的波动;另一类则是由于试验中处理方式不同或试验条件不同引起的可以控制的波动。方差分析的主要工作就是将观测数据的总变异(波动)按照变异的原因的不同分解为因子效应与试验误差,并对其作出数量分析,比较各种原因在总变异中所占的重要程度,以此作为进一步统计推断的依据.aov()的调用格式的调用格式aov(formula, data=NULL

9、, projections=FALSE,qr=TRUE, contrasts=NULL, .) formula是方差分析的公式, 在单因素方差分析中它表示为x A, data是数据框, 其它参见在线帮助单因子方差分析以淀粉为原料生产葡萄的过程中, 残留许多糖蜜, 可作为生产酱色的原料. 在生产酱色的过程之前应尽可能彻彻底底除杂, 以保证酱色质量.为此对除杂方法进行选择. 在实验中选用5种不同的除杂方法, 每种方法做4次试验, 即重复4次, 结果见表1表1 不同除杂方法的除杂量除杂方法Ai 除杂量Xij 均量XiA1 25.6 22.2 28.0 29.8 26.4A2 24.4 30.0 29

10、.0 27.5 27.7A3 25.0 27.7 23.0 32.2 27.0A4 28.8 28.0 31.5 25.9 28.6A5 20.6 21.2 22.0 21.2 21.3 X A miscellany aov.mis summary(aov.mis)输出结果Df Sum Sq Mean Sq F value Pr(F)A 4 131.957 32.989 4.3061 0.01618 *Residuals 15 114.915 7.661-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1说明: 上述结果中, Df表示自由度; sum

11、Sq表示平方和; Mean Sq表示均方和;F value表示F检验统计量的值, 即F比; Pr(F)表示检验的p值; A就是因素A;Residuals为残差.可以看出, F=4.3061 F0.05(5-1,20-5)=3.06, 或者p=0.01618 plot(miscellany$Xmiscellany$A)得到图8.1. 从图形上也可以看出, 5种除杂方法产生的除杂量有显著差异, 特别第5种与前面的4种, 而方法1与3, 方法2与4的差异不明显.同时置信区间: Tukey法若经前面的F检验, H0 : 1=r被拒绝了, 则因子A的r个水平的效应不全相等, 这时我们希望对效应之差i j

12、 pi jq作出置信区间, 由此了解哪一些效应不相等. 这里仅介绍一种基于学生化极差分布的TUKEY 方法. 这是J.W.Tukey(1952)提出的一种多重比较方法, 是以试验错误率为标准的, 又称真正显著差(honesty significient difference, HSD)法.在R软件中, 函数qtukey( )用于计算q分位数, 函数TukeyHSD( )用于计算同时置信区间, 其调用格式为说明: x为方差分析的对象,which是给出需要计算比较区间的因子向量,ordered是逻辑值, 如果为true, 则因子的水平先递增排序, 从而使得因子间差异均以正值出现. conf.lev

13、el是置信水平.TukeyHSD(x, which, ordered=FALSE, conf.level=0.95.)使用方法 TukeyHSD(aov(XA, sales)例:某商店以各自的销售方式卖出新型手表, 连续四天手表的销售量如表8.3所示, 试考察销售方式之间是否有显著差异.销售方式与销售量数据表销售方式销售量数据A1 23 19 21 13A2 24 25 28 27A3 20 18 19 15A4 22 25 26 23A5 24 23 26 27 sales summary(aov(XA, sales)得Df Sum Sq Mean Sq F value Pr(F)A 4 2

14、12.800 53.200 7.98 0.001178 *Residuals 15 100.000 6.667-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.#可见不同的销售方式有差异.最后再求均值之差的同时置信区间. R命令为 TukeyHSD(aov(XA, sales)运行结果为Tukey multiple comparisons of means95% family-wise confidence levelFit: aov(formula = X A, data = sales)$Adiff lwr upr p adj2-1 7 1.36224

15、7 12.637753 0.01201173-1 -1 -6.637753 4.637753 0.98056324-1 5 -0.637753 10.637753 0.09447315-1 6 0.362247 11.637753 0.03443283-2 -8 -13.637753 -2.362247 0.00415274-2 -2 -7.637753 3.637753 0.80620575-2 -1 -6.637753 4.637753 0.98056324-3 6 0.362247 11.637753 0.03443285-3 7 1.362247 12.637753 0.0120117

16、5-4 1 -4.637753 6.637753 0.9805632双因子方差分析无交互作用的方差分析在R软件中, 方差分析函数aov( )既适合于单因素方差分析, 也同样适用于双因素方差分析, 其中方差模型公式为x A+B, 加号表示两个因素具有可加的. 下面用一个例子来说明原来检验果汁中含铅量有三种方法A1、A2、A3, 现研究出另一种快速检验法A4, 能否用A4代替前三种方法, 需要通过实验考察. 观察的对象是果汁, 不同的果汁当做不同的水平: B1为苹果, B2为葡萄汁, B3为西红柿汁, B4为苹果饮料汁, B5桔子汁, B6菠萝柠檬汁. 现进行双因素交错搭配试验,即用四种方法同时检

17、验每一种果汁, 其检验结果如表2所示. 问因素A(检验方法)和B(果汁品种) 对果汁的含铅量是否有显著影响?表2 果汁含铅比测试实验数据统计因素因素BA B1 B2 B3 B4 B5 B6 XiA1 0.05 0.46 0.12 0.16 0.84 1.30 2.93A2 0.08 0.38 0.40 0.10 0.92 1.57 3.45A3 0.11 0.43 0.05 0.10 0.94 1.10 2.73A4 0.11 0.44 0.08 0.03 0.93 1.15 2.74X:j 0.35 1.71 0.65 0.39 3.63 5.12 X:11:85 juice juice.a

18、ov summary(juice.aov)分析结果为Df Sum Sq Mean Sq F value Pr(F)A 3 0.0570 0.0190 1.6287 0.2248B 5 4.9022 0.9804 83.9755 2.003e-10 *Residuals 15 0.1751 0.0117-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1结论: p值说明果汁品种(因素B)对含铅量有显著影响, 而没有充分理由说明检验方法(因素A)对含铅量有显著影响.有交互作用的方差分析R软件中仍用函数aov( )进行有交互作用的方差分析, 但其中的方差模型

19、格式为xA+B+A : B. 下面用一个例子来全面展示有交互作用方差分析过程.例:有一个关于检验毒品强弱的试验, 给48只老鼠注射I、II、III三种毒药(因素A), 同时有A、B、C、D 4种治疗方案(因素B), 这样的试验在每一种因素组合下都重复四次测试老鼠的存活时间, 数据如表3所示. 试分析毒药和治疗方案以及它们的交互作用对老鼠存活时间有无显著影响.表3 老鼠存活时间(年)的实验报告 A B C DI 0.31 0.45 0.82 1.10 0.43 0.45 0.45 0.71 0.46 0.43 0.88 0.72 0.63 0.76 0.66 0.62II 0.36 0.29 0

20、.92 0.61 0.44 0.35 0.56 1.02 0.40 0.23 0.49 1.24 0.31 0.40 0.71 0.38III 0.22 0.21 0.30 0.37 0.23 0.25 0.30 0.36 0.18 0.23 0.38 0.29 0.24 0.22 0.31 0.33 rats op plot(TimeToxicant+Cure, data=rats) with(rats, interaction.plot(Toxicant, Cure, Time, trace.label=Cure) with(rats,interaction.plot(Cure, Toxi

21、cant, Time, trace.label=Toxicant)输出结果如图8.3(a)和图8.3(b). 两图中的曲线并没有明显的相交情况出现, 因此我们初步认为两个因素没有交互作用.尽管如此, 由于实验误差的存在, 我们用方差分析函数aov( )对此进行确认, 其中方差模型格式为xA*B, 或A+B+A : B, 表示不仅考虑因素A、B各自的效应, 还考虑两者的交互效应. 若仅考虑A与B的交互效应则方差模型格式为A : B.由R程序 rats.aov summary(rats.aov)得到检验结果为Df Sum Sq Mean Sq F value Pr(F)Toxicant 2 1.0

22、3563 0.51781 23.2254 3.326e-07 *Cure 3 0.91462 0.30487 13.6745 4.132e-06 *Toxicant:Cure 6 0.24782 0.04130 1.8526 0.1163Residuals 36 0.80262 0.02230-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1根据p值知, 因素Toxicant和Cure对Time的影响是高度显著的, 而交互作用对Time的影响却是不显著的.多重多重t-test方法方法 多重t检验方法使用方便, 但当多次重复使用t检验时会增大犯第一类错

23、误的概率, 从而使得“有显著差异”的结论不一定可靠, 所以在进行较多次重复比较时, 我们要对p值进行调整.p.adjust(p, method=p.adjust.methods, n=length(p) p是p值构成的向量, method是修正方法, 包括 Holm(1979)方法 Hochberg(1988)方法 Hommel(1988)方法 Bonferroni方法 Benjamini & Hochberg, BH(1995)方法 Benjamini & Yekutieli, BY(2001)方法多重多重t-test方法方法 p.adjust.methods1 holm hochberg

24、hommel bonferroni BH6 BY fdr none当比较次数较多时, Bonferroni方法的效果较好, 所以在作多重t检验时常采用Bonferroni法对p进行调整.多重多重t-test方法方法R软件中函数pairwise.t.test( )可以得到多重比较的p值 x是响应变量构成的向量, g是分组向量(因子).p.adjust.method是上面提到的调整p值的方法, “p.adjust.method=none”表示不作任何调整, 默认值按Holm方法调整pairwise.t.test(x, g, p.adjust.method=p.adjust.methods,pool

25、.sd=TRUE, .)例:我们借用上一个例子的数据,作均值的多重比较, 进一步检验H0 : i =j i; j =1; 2; 3; 4; 5不对不对p作出调整作出调整:R程序为 pairwise.t.test(X, A, p.adjust.method=none)检验结果如下:data: X and A1 2 3 42 0.5087 - - -3 0.7729 0.7069 - -4 0.2893 0.6793 0.4335 -5 0.0189 0.0048 0.0104 0.0020P value adjustment method: none检验的结果与图一致, 即5与其它4个差异明显,

26、后者差异不明显.按缺省的按缺省的“holm”对对p值进行调整值进行调整:R程序为 pairwise.t.test(X, A, p.adjust.method=holm)检验结果如下:Pairwise comparisons using t tests with pooled SDdata: X and A1 2 3 42 1.000 - - -3 1.000 1.000 - -4 1.000 1.000 1.000 -5 0.132 0.043 0.084 0.020P value adjustment method: holm按缺省的按缺省的“bonferroni”对对p值进行调整值进行调整

27、:R程序为 pairwise.t.test(X, A, p.adjust.method=)检验结果如下:Pairwise comparisons using t tests with pooled SDdata: X and A1 2 3 42 1.000 - - -3 1.000 1.000 - -4 1.000 1.000 1.000 -5 0.189 0.048 0.104 0.020P value adjustment method: bonferroni从输出结果可以看出, 作调整后p值增大, 在一定程度上克服了多重t检验的缺点.Exercise 1 Calculate a 95%

28、and 99% CIs from the table in figure 4 below. Formulate two different null hypotheses, one of which would be rejected as a result of the interval. Also state, as precisely as possible, the alternative hypothesis.Exercise 2为考察对纤维弹性测量的误差, 现对四个工厂(A1;A2;A3;A4)生产的同一批原料进行测量, 每厂各找四个检验员(B1;B2;B3;B4)轮流使用各厂设备进行重复测量, 试验数据如表所示. 请问因素A与B的影响是否显著(= 0:05)?=检验员A1 A2 A3 A4B1 71.73 73.75 76.73 71.73B2 72.73 76.74 79.77 73.72B3 75.73 78.77 74.75 70.71B4 77.75 76.74 74.73 69.69谢谢 谢!谢!结束!结束!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号