R的简单介绍和线性回归

上传人:宝路 文档编号:25587372 上传时间:2017-12-15 格式:PPT 页数:36 大小:1.87MB
返回 下载 相关 举报
R的简单介绍和线性回归_第1页
第1页 / 共36页
R的简单介绍和线性回归_第2页
第2页 / 共36页
R的简单介绍和线性回归_第3页
第3页 / 共36页
R的简单介绍和线性回归_第4页
第4页 / 共36页
R的简单介绍和线性回归_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《R的简单介绍和线性回归》由会员分享,可在线阅读,更多相关《R的简单介绍和线性回归(36页珍藏版)》请在金锄头文库上搜索。

1、R学习的分享,目录,一、R的介绍 1.R的特点 2.R的界面 3.R的使用注意事项二、R中数据创建 1.数据的输入 1.1. 向量 1.1.1向量的赋值 1.1.2有序向量的赋值 1.2.矩阵的创建 1.3.数据框的创建 1.3.1表格输入 1.3.2数据框的直接输入 2.数据读入,目录,三、统计分析方法简介3.1方差分析和多重比较 3.1.1方差分析和多重比较的命令调用3.2假设检验 3.2.1假设检验的命令调用3.3主成分和因子分析 3.3.1主成分和因子分析的命令调用3.4判别分析及命令3.5聚类分析 3.5.1聚类分析函数的命令调用3.6回归分析 3.6.1回归分析的详细解释,R的介绍

2、,R是什么: R是一个有着统计分析功能及强大作图功能的软件系统,是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立,并受到贝尔实验室s语言的影响。,R的特点,1.免费性:R是一个免费的统计分析软件; 2.运算能力强大:同Matlab一样不需要编译就可执行代码;3.帮助功能完善:可通过help命令可随时了解R所提供的各类函数的使用方法或例子; 4.R有顶尖水准的制图:在可视化方面,R的效果特别好,并能保存为各种形式的文件; 5.统计分析能力尤为突出:R内嵌了许多统计分析函数,一些中间结果既可保存到专门的文件,也可直接用于进一步的分析。 6.,R的界面,中文版的

3、R界面,从后开始输入数据,代码等,R的使用注意事项,R的命令对大小写敏感,这在使用命令方式安装和载入程序包时应特别注意。输入R的命令中尽量使用英文字符,避免使用中文字符。同一行中可输入多个命令,需用 ; 隔开,# 认为是注释内容,不予执行。R中所有的函数后都带圆括号赋值一般用 a a 1 1 2 3 4 5 b b1 one two three four five“ d d1 TRUE FALSE,1.1.2有序向量的赋值,生成有序的向量可以使用seq命令, s1 s1 1 -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.

4、0 1.515 2.0 2.5 3.0 3.5 4.0 4.5 5.0还有其他的赋值向量的命令不再详细举例。,1.2.矩阵创建,创建一个矩阵:Mymatix cells rnames cnamesmymatrix mymatrix C1 C2R1 1 26R2 24 68,1.3.1表格输入,如果要输入以下表格的数据可以使用矩阵,也可用数据框的形式 bloodtype jnbq cs xjt xjgs patientdata patientdata bloodtype jnbq cs xjt xjgs1 zc 8.90 12.00 34.71 44.002 lj 10.63 18.05 46.

5、18 67.243 yc 19.84 30.55 73.06 116.82,1.3.2数据框的直接输入,同样的,可以在R中新建数据框,直接输入数据。命令格式如下:比如创建一个名为mydata的数据框,它含有三个变量,age(数值型)、gender(字符型)、weight(数值型)。命令为: mydata mydata-edit(mydata),2.数据读入,R可以读取多种形式的形式。 以导入csv,xls,txt为例:mydataframemydataframe library(RODBC) channel mydataframe odbcClose(channel)txt读取: mydata

6、 choose.dir()或者 file.choose()直接从弹出的对话框中了来查找文件。,三、统计分析方法简介,统计分析方法:常用的主要方法有:线性回归,方差分析与多重比较,假设检验,主成分和因子分析,判别分析,聚类分析。,3.1方差分析,方差分析:用于分析分类型自变量与数值型自变量之间的关系,即分析多各总体均值是否相等的方法。具体根据影响因素的不同,可以分为单因素方差分析,双因素方差分析例:某城市从4个排污口取水,进行某种处理后检测大肠杆菌数量,单位面积内菌落数如下表所示,请分析各个排污口的大肠杆菌数量是否有差别。排污口属于分类型自变量,大肠杆菌数量属于数值型因变量。 分析的问题是:不同

7、排污口大肠杆菌的数量是否相等。,方差分析代码,X-c(9,12,7,5,20,14,18,12,12,7,6,10,23,13,16,21)A-factor(rep(1:4,each=4)fcfx-data.frame(X,A)fcfxaov.fcfx-aov(XA,data=fcfx)summary(aov.fcfx)plot(fcfx$Xfcfx$A)pairwise.t.test(X,A,p.adjust.method=holm)TukeyHSD(aov(XA,fcfx),3.1多重比较,多重比较是在方差分析得到否定结论后,为确定是哪些组之间存在差异,两两之间进行的比较分析。假设上述问题

8、经分析得到的结果是四个排污口的大肠杆菌的数量是有差异的。那么具体是哪些排污口数量不同造成的,可进行多重比较。,3.1.1方差分析与多重比较命令,函数的调用格式:aov.miss-aov(formula,data=Null,projections=FALSE,qr=TRUE,contrast=NULL,)多重比较的T检验命令pairwise.t.test(x,g,p.adjust.method=p.adjust.methods,poor.sd=TRUE,)x是影响变量构成的向量,g是分组向量(因子),方差分析的对象,数据框,是否返回逻辑预测值,是否返回QR分解,因素对比,合并方差,调整p值,3.

9、2假设检验,假设检验是依据样本去推测总体特征。 思想:是基于小概率事件在一次试验中不发生的原理。 某车间用一台包装机包装精盐, 额定标准每袋净重500g, 设包装机包装出的盐每袋净重XN(,2) 某天随机地抽取9袋, 称得净重为490,506, 508, 502, 498, 511, 510, 515, 512. 问该包装机工作是否正常? H0:=500 H1:500,3.2.1假设检验命令调用,z.test-function(x,n,sigma,alpha,u0=0,alternative=“two.sided”)类似的可以调用t.test,chisq.var.test检验,3.3主成分和因

10、子分析,主成分分析:将多个变量通过线性变换以选出较少个数重要变量,而又尽可能多的保留原始样本的信息。 因子分析:用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。,3.3.1主成分分析,随机抽取30名某年级中学生,测量其身高(X1), 体重(X2), 胸围(X3), 坐高(X4), 数据如下表所示, 试对这30名学生身体四项指标作主成分分析。 序号 X1 X2 X3 X4 序号 X1 X2 X3 X4 1 148 41 72 78 2 139 34 71 76 3 160 49 77 86 4

11、 149 36 67 79 5 159 45 80 86 6 142 31 66 76 7 153 43 76 83 8 150 43 77 79 9 151 42 77 80 10 139 31 68 74 11 140 29 64 74 12 161 47 78 84 通过对以上四项指标做主成分分析,可以构造由四个指标的线性组合组成的主成分,来解释数据。本例中经过主成分分析中可构造出一个反应学生魁梧成度的主成分y1和反应学生胖瘦的主成分y2。,主成分分析代码,x-read.csv(student.csv)student.pr-princomp(x,-1,cor=TRUE)summary(s

12、tudent.pr,loadings=TRUE)#主成分得分predict(student.pr)#主成分的碎石图screeplot(student.pr,type=lines),你的电脑没有这个数据,可以拿其他数据做测试,3.3. 1主成分分析的代码调用,三种格式调用:格式一:princomp(formula,data=NULL,subset,na.action,)格式二:princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow)formula是没有响应变量的公式;x是用于主成分分析的数据;cor是逻辑变量,当cor=

13、TRUE表示用样本的相关阵R作主成分分析。,3.3.2因子分析:,从现有变量综合出少量的变量来解释信息例:现有100名学生六门课(数学、物理、化学、语文、历史、英语)的成绩如下表。目前的问题是:数据中的6个变量能否用一两个综合变量来表示呢?怎么解释它们呢?最终,经过因子分析,得到:Math= -0.355f1+0.793f2 Phys= -0.201f1+0.713f2 Chem= -0.216f1+0.689f2 Literat=0.850f1-0.376f2History= 0.854f1-0.235f2 English= 0.872f1-0.242f2第一个因子f1主要和语文、历史、英语三科有很强的正相关性,而第二个因子主要和数学、物理、化学三科有很强的正相关系数,因此可以给第一个因子f1起名为“文科因子”,给第二个因子f2起名为“理科因子”,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号