r语言基础培训第二讲常用统计分析

资源描述

《r语言基础培训第二讲常用统计分析》由会员分享，可在线阅读，更多相关《r语言基础培训第二讲常用统计分析（57页珍藏版）》请在金锄头文库上搜索。

1、基于R的基本统计分析,内容提要,描述统计频数表分析方差分析 t检验,卡方检验线性回归相关分析,描述分析(Descriptive statistics),描述统计就是把数据集所包含的信息加以简要地概况，如计算数据的数字特征、制作频数表和频数图等等，用所获得的统计量和图表来描述数据集所反映的特征和规律，使得研究的问题更加简单、直观。描述性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、标准差、值域、变异系数)和数据分布形态的特征值(比如偏度、峰度)。,标准差（std.dev）和标准误（SE.mean）,标准差（std.dev）,真

2、实均值,SE,样本均值,当样本含量 n 足够大时，标准差趋向稳定；而标准误随n的增大而减小，甚至趋于0 。,标准差（std.dev）和标准误（SE.mean）,比如，某学校共有500名学生，现在要通过抽取样本量为30的一个样本，来推断学生的身高。这时可以依据抽取的样本信息，计算出样本的均值与标准差。如果我们抽取的不是一个样本，而是10个样本，每个样本30人，那么每个样本都可以计算出均值，这样就会有10个均值。也就是形成了一个10个数字的数列，然后计算这10个数字的标准差，此时的标准差就是标准误。但是，在实际抽样中我们不可能抽取10个样本。所以，标准误就由样本标准差除以样本量来表示。当然，这样的

3、结论也不是随心所欲，而是经过了统计学家的严密证明的。 SE.mean= std.dev / n1/2,在实际的应用中，标准差主要有两点作用，一是统计量样本离散程度的表征；二是用来对样本进行标准化处理，即样本观察值减去样本均值，然后除以标准差，这样就变成了标准正态分布。标准误的作用主要是用来做区间估计，常用的估计区间是均值加减n倍的标准误（例如95%的置信区间是：均值+1.96*SE）,标准差（std.dev）和标准误（SE.mean）,95% CI: 假设上面这个随机抽样估计学生身高的例子，抽样100次，每次抽10个学生测量身高，均值估计值及标准误为 152cm12cm。但有时需要表示为估计量

4、的95%的置信区间152cm-1.96*12cm，152cm+1.96*12cm。可以解释为，如果从再从总体中抽样100次（每次抽样10个），产生100个平均值，这100个平均值将有95次落在152cm-1.96*12cm，152cm+1.96*12cm这个范围内，5次落在这个范围外，如果抽样次数越多，这个推断越准确。这个来源于中心极限定理的应用：任何分布(总体)抽样n次，每次抽样的和符合正态分布。通俗一点说, 不管是学校的学生身高是怎么分布, 每次随机抽取10个求和, 抽取n次，这n个身高总和是符合正态分布的。平均身高为身高总和除于10，所以平均身高也是正态分布的。正态分布双尾95%的分界点

5、所对应的值刚好是1.96。,峰度（Kurtosis）,峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。 Kurtosis=0 与正态分布的陡缓程度相同。 Kurtosis0 比正态分布的高峰更加陡峭尖顶 Kurtosis0 比正态分布的高峰来得平台平顶计算公式：,偏度（Skewness）,偏度（Skewness）是描述某变量分布偏离正态对称性的统计量。 Skewness=0 分布形态与正态分布偏度相同 Skewness0 正偏差数值较大，为正偏或右偏。长尾巴拖在右边 Skewness0 负偏差数值较大，为负偏或左偏。长尾巴拖在左边计算公式：

6、Skewness 越大，分布形态偏移程度越大,频数表(Frequency table)分析,频数表分析是对数据集按数据范围分成若干区间，即分成若干组，求出每组组中值，各组数据用组中值代替，计算各组数据的频数，并作出频数表。,频数表分析例子,summary(oats$yield) # 计算频数 A - table(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例 # 画频数表 hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = “

7、yield“, main = “Frequency chart of yield“),方差分析ANOVA,方差分析是一种在若干组能相互比较的试验数据中，把产生变异的原因加以区分的方法与技术，其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显著。类型：单因素方差分析(One-way ANOVA)、双因素方差分析(Two-way ANOVA) 。方差分析的基本模型是线性模型，并假设随机变量是独立、正态和等方差的。方差分析是根据平方和的加和原理，利用 F 检验，进而判断试验因素对试验结果的影响是否显著。,单因素方差分析,# Tukey HSD 方法 # install.package

8、s(“multcomp“) library(multcomp) tuk - glht(fit, linfct = mcp(Treat = “Tukey“) summary(tuk) # standard display tuk.cld - cld(tuk) # letter-based display opar - par(mai=c(1,1,1.5,1) plot(tuk.cld) par(opar),双因素（无重复）方差分析,多重比较,library(agricolae) # 对A因素在a = 0.05水平上进行多重比较 (duncan.test(fit, “A“, alpha = 0.0

9、5) # 对B因素进行多重比较 (duncan.test(fit, “B“, alpha = 0.05),重复试验的双因素方差分析,协方差分析(analysis of covariance),协方差分析是关于如何调节协变量对因变量的影响效应，从而更加有效地分析实验处理效应的一种统计技术，也是对实验进行统计控制的一种综合方差分析和回归分析的方法。当研究者知道有些协变量会影响因变量，却不能够控制和不感兴趣时，则可以在实验处理前予以观测，然后在统计时运用协方差分析来处理。将协变量对因变量的影响从自变量中分离出去，可以进一步提高实验精确度和统计检验灵敏度。例如林木生长量与肥料的关系，施肥条件可以人工

10、控制，但林木初始苗高(协变量)是难以控制的，通过协方差分析，消除初始苗高的影响，使得生长量在一致的基础上进行方差分析。,单因素协方差分析,双因素协方差分析,【例子 4.4.2】为研究某杨树一年生生长与 N 肥、K 肥及初始苗高的关系，采用正交试验设计，共设置了 18 个样地的栽培试验，试验因子与水平及测量结果如表 4-13所示。试分析 N 肥、K 肥及初始苗高对生长量的影响。,t检验,在实际工作中，经常需要判断两个样本平均数是否差异，以了解两样本所属的两个总体平均数是否相同。检验方法可以使用 t 检验。对于两个样本平均数差异显著性检验，可分为非配对设计和配对设计。,3.5.1 单样本检验,【

11、例子 4.5.1】杨树某无性系试验林造林 5 年后，调查树高生长量，随机抽取 32 棵树，调查结果如下表 4-16 所示。有一无性系 B5 的 5 年树龄树高 = 8 m。试分析该试验林的树高与 B5 有无显著差异？,25,18个草地种在放牧和不放牧样方中的生物量（kg/m2）,放牧对所研究草地物种生物量的影响是否显著？,成对双样本 t 检验,卡方检验( 2 test),卡方检验是参照卡方分配来计算概率和临界值的统计检验，是用途很广的一种假设检验方法。分析原理： (1) 建立零假说（Null Hypothesis），即认为观测值与理论值的差异是由于随机误差所致； (2) 确定数据间的实际差

12、异，即求出 2 值； (3) 如卡方值大于某特定概率标准（即显著性差异）下的理论值，则拒绝零假说，即实测值与理论值的差异在该显著性水平下是显著的。,卡方检验,27,freq = c(22,21,22,27,22,36) probs = c(1,1,1,1,1,1)/6 chisq.test(freq,p=probs) chisq.test(freq,p=probs) Chi-squared test for given probabilities data: freq X-squared = 6.7, df = 5, p-value = 0.2423,卡方检验,28,x = c(100,110

13、,80,55,14) probs = c(29, 21, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilities data: x X-squared = 55, df = 4, p-value = 2.685e-11,卡方检验（列联表）,29,yesbelt = c(12813,647,359,42) nobelt = c(65963,4000,2642,303) chisq.test(data.frame(yesbelt,nobelt) chisq

14、.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared test data: data.frame(yesbelt, nobelt) X-squared = 59, df = 3, p-value = 8.61e-13,练习四,以数据stu.data.csv为例，试对体重做频数分析。请分析身高是否符合正态分布？试分析性别对体重有无影响。问题4：请检验总体平均体重与60kg有无显著差异？男生和女生的平均体重有无显著差异？问题5：男女生比例是否符合 1.2 : 1.0？,练习四答案,df-read.csv(file=“stu.data

15、.csv“,header=T) #问题1 A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例 hist(df$weight, breaks = 7, xlim = c(40,140), xlab = “weight“, main = “Frequency chart of weight“) #问题2 shapiro.test(df$height) #问题3 fit-aov(weight Sex,data=df) summary(fit) library(agricolae

16、) duncan.test(fit, “Sex“, alpha=0.05)$groups,#问题4 t.test(df$weight, mu = 60, alternative = “two.sided“) wt.m-subset(df$weight,df$Sex=男) wt.f-subset(df$weight,df$Sex=女) var.test(wt.m,wt.f) #等方差检验 t.test(wt.m,wt.f, paired=F) #问题5 summary(df$Sex) ct-c(87, 33) pt - c(1.2/2.2, 1.0/2.2) chisq.test(ct, p = pt),线性回归,比如产量与施肥量有关，病虫害发生时期与气温有关，小麦单位面积产量与单位面积穗数、千粒重有关，等等。因此，还需要研究两个或多个变量之间的关系。一个变量的变化受另一个或几个变量的影响，称为因果关系。利用回归分析(regression analysi

展开阅读全文