统计建模与r软件第六讲-2017资料

上传人:w****i 文档编号:103330542 上传时间:2019-10-06 格式:PPT 页数:85 大小:3.83MB
返回 下载 相关 举报
统计建模与r软件第六讲-2017资料_第1页
第1页 / 共85页
统计建模与r软件第六讲-2017资料_第2页
第2页 / 共85页
统计建模与r软件第六讲-2017资料_第3页
第3页 / 共85页
统计建模与r软件第六讲-2017资料_第4页
第4页 / 共85页
统计建模与r软件第六讲-2017资料_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《统计建模与r软件第六讲-2017资料》由会员分享,可在线阅读,更多相关《统计建模与r软件第六讲-2017资料(85页珍藏版)》请在金锄头文库上搜索。

1、第六讲 回归分析,统计建模与R软件,主要内容,6.1 一元线性回归 6.2 R软件中与线性模型有关的函数 6.3 多元线性回归,例6.1由专业知识知道,合金的强度Y(N/mm2)与合金中碳含量X(%)有关。为了解他们之间的关系,从生产中收集了一批数据(xi,yi)(i=1,2,n),具体数据见表6.1。,6.1 一元线性回归,x=c(0.1,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0.23) y=c(42.0,43.5,45.0,45.5,45.0,47.5,49.0,53.0,50.0,55.0,55.0,60.0) l=lm(yx

2、); plot(yx);abline(l),6.1 一元线性回归模型,一元线性回归模型只含有一个自变量 x; 误差项 为随机变量; 描述因变量 y 与自变量 x 和误差项 的关系; 和 称为模型的参数;,一元线性回归模型的基本假定:,误差项 满足,.,即当 时, 而 则是 x 变动一个单 位时, 的相应变化量;,x 为确定性变量 ;,称为一元线性回归模型。,参数0,1 的最小二乘估计:,最小二乘法是使因变量的观察值 与估计值 之间的离差平方和达到最小来求 和 的估计 和 的方法;,达到最小,称 和 为 和 的最小二乘估计。,即使:,称为一元回归方程。,根据微积分中求极值的原理, 和 应满足下列

3、方程组,得正规方程组:,参数2的(最小二乘)估计量:,关于0与1估计的方差为:,2未知:,回归方程的显著性检验:H0: 1=0,、F 检验:,(二)t检验:,t statistic only one single parameter; F statistic groups of parameters; 在多元回归分析中,它们是不等价的,t 是检验模型中各个参数的显著性;F 是检验整个回归关系的显著性。 实践中不太用f检验,因为t检验更加容易计算,数据处理更加轻松。,有关线性回归中F检验和参数t检验二者区别的问题:,(三)相关系数检验法:,R反映样本回归方程的拟合优度; 取值范围为 0,1 ;

4、r2 愈大,说明回归方程拟合得愈好; 样本决定系数为样本相关系数 r 的平方;,对于给定的显著性水平,查相关系数临界值表可得r (n-2),则检验的拒绝域为:,拒绝H0时,线性方程回归是显著的.,例6.2,求例6.1的回归方程,并对相应的方程做检验.,x=c(0.1,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0.23) y=c(42.0,43.5,45.0,45.5,45.0,47.5,49.0,53.0,50.0,55.0,55.0,60.0) lm.sol=lm(y1+x) summary(lm.sol),Call:lm(formu

5、la = y 1 + x) Residuals: Min 1Q Median 3Q Max -2.0431 -0.7056 0.1694 0.6633 2.2653 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) 28.493 1.580 18.04 5.88e-09 * x 130.835 9.683 13.51 9.50e-08 * - Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.319 on 10 degree

6、s of freedom Multiple R-squared: 0.9481, Adjusted R-squared: 0.9429 F-statistic: 182.6 on 1 and 10 DF, p-value: 9.505e-08,#回归公式为y=0+1x,#提取模型计算结果,#列出残差的最小值点,0.25分位点,中位点,0.75分位点和最大值点,#0,sd(0), 0 的t统计量,#1, sd(1), 1 的t统计量,#P-value,#相关系数的平方,#F统计量及其P值,6.1.4参数的区间估计:,对于给定的置信水平1-,则有:,因此,i(i=0,1)的区间估计为:,# 求线性

7、模型系数的区间估计 beta.int-function(fm,alpha=0.05) A-summary(fm)$coefficients df-fm$df.residual left-A,1-A,2*qt(1-alpha/2, df) right-A,1+A,2*qt(1-alpha/2, df) rowname-dimnames(A)1 colname-c(“Estimate“, “Left“, “Right“) matrix(c(A,1, left, right), ncol=3, dimnames = list(rowname, colname ) ,# Estimate Std. E

8、rror t value Pr(|t|) (Intercept) 28.49282 1.579806 18.03564 5.881686e-09 x 130.83483 9.683379 13.51128 9.504890e-08,#“(Intercept)“ “x“,data.frame(parametre=rowname,matrix(c(A,1, left, right), ncol=3),parametre X1 X2 X3 1 (Intercept) 28.49282 24.97279 32.01285 2 x 130.83483 109.25892 152.41074,Estima

9、te Left Right (Intercept) 28.49282 24.97279 32.01285 x 130.83483 109.25892 152.41074,data.frame(Estimate=c(A,1), Left=left, Right=right),Estimate Left Right (Intercept) 28.49282 24.97279 32.01285 x 130.83483 109.25892 152.41074,beta.int(lm.sol),6.1.5 预测,根据自变量 x 的取值预测 y 的取值; 预测可分两种类型: 点预测: 区间预测:,I对于自

10、变量 x 的一个取值 ,根据样本回归方程 给出 的一个估计区间,称为区间预测。,其中,II 在置信度 时的预测区间为,当n很大时,实际使用下面的式子:,例6.4,求例6.1中X=x0=0.16时相应Y的概率为0.95的预测区间.,new=data.frame(x=0.16) lm.pred=predict(lm.sol,new,interval=prediction,level=0.95) lm.pred,fit lwr upr 1 49.42639 46.36621 52.48657,predict (object, newdata, se.fit = FALSE, scale = NULL

11、, df = Inf, interval = c(“none“, “confidence“, “prediction“), level = 0.95, type = c(“response“, “terms“), terms = NULL, na.action = na.pass, pred.var = res.var/weights, weights = 1, .) NULL,R中与lm对应的用法:,预测值与相应的预测区间为:,6.1.7 计算实例,数据取扩大100倍再取对数,是为避免小数据对大数据的扰动,求解:,x=matrix(c(194.5,20.79,1.3179,131.79,19

12、4.3,20.79,1.3179,131.79,197.9,22.40,1.3502,135.02,198.4,22.67,1.3555,135.55,199.4,23.15,1.3646,136.46,199.9,23.35,1.3683,136.83,200.9,23.89,1.3782,137.82,201.1,23.99,1.3800,138.00,201.4,24.02,1.3806,138.06,201.3,24.01,1.3805,138.05,203.6,25.14,1.4004,140.04,204.6,26.57,1.4244,142.44,209.5,28.49,1.45

13、47,145.47,208.6,27.76,1.4434,144.34,210.7,29.04,1.4630,146.30,211.9,29.88,1.4754,147.54,212.2,30.06,1.4780,147.80),ncol=4,byrow=T,dimnames=list(1:17,c(F,h,log,log100) #以上为数据录入工作 forbes=as.data.frame(x) plot(forbes$F,forbes$log100) lm.sol=lm(log100F,data=forbes) summary(lm.sol),结果:,Call: lm(formula =

14、 log100 F, data = forbes) Residuals: Min 1Q Median 3Q Max -0.32261 -0.14530 -0.06750 0.02111 1.35924 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) -42.13087 3.33895 -12.62 2.17e-09 * F 0.89546 0.01645 54.45 2e-16 * - Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard er

15、ror: 0.3789 on 15 degrees of freedom Multiple R-squared: 0.995, Adjusted R-squared: 0.9946 F-statistic: 2965 on 1 and 15 DF, p-value: 2.2e-16,残差分析:,y.res=residuals(lm.sol); plot(y.res) text(12,y.res12,labels=12,adj=1.2),lines(y.res),奇异点处理:,lm12=lm(log100F,data=forbes,subset=-12) summary(lm12),Call: lm(formula = log100 F, data = forbes, subset = -12) Residuals: Min 1Q Median 3Q Max -0.21175 -0.06194 0.01590 0.09077 0.13042 Coefficients: Esti

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号