R的简单介绍和线性回归

上传人:壹****1 文档编号:571263144 上传时间:2024-08-09 格式:PPT 页数:36 大小:1.87MB
返回 下载 相关 举报
R的简单介绍和线性回归_第1页
第1页 / 共36页
R的简单介绍和线性回归_第2页
第2页 / 共36页
R的简单介绍和线性回归_第3页
第3页 / 共36页
R的简单介绍和线性回归_第4页
第4页 / 共36页
R的简单介绍和线性回归_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《R的简单介绍和线性回归》由会员分享,可在线阅读,更多相关《R的简单介绍和线性回归(36页珍藏版)》请在金锄头文库上搜索。

1、R学习的分享目录一、R的介绍1.R的特点2.R的界面3.R的使用注意事项二、R中数据创建1.数据的输入1.1.向量1.1.1向量的赋值1.1.2有序向量的赋值1.2.矩阵的创建1.3.数据框的创建1.3.1表格输入1.3.2数据框的直接输入2.数据读入目录三、统计分析方法简介3.1方差分析和多重比较3.1.1方差分析和多重比较的命令调用3.2假设检验3.2.1假设检验的命令调用3.3主成分和因子分析3.3.1主成分和因子分析的命令调用3.4判别分析及命令3.5聚类分析3.5.1聚类分析函数的命令调用3.6回归分析3.6.1回归分析的详细解释R的介绍的介绍R是什么:R是一个有着统计分析功能及强大

2、作图功能的软件系统,是由奥克兰大学统计学系的RossIhaka和RobertGentleman共同创立,并受到贝尔实验室s语言的影响。R的特点1.免费性:R是一个免费的统计分析软件;2.运算能力强大:同Matlab一样不需要编译就可执行代码;3.帮助功能完善:可通过help命令可随时了解R所提供的各类函数的使用方法或例子;4.R有顶尖水准的制图:在可视化方面,R的效果特别好,并能保存为各种形式的文件;5.统计分析能力尤为突出:R内嵌了许多统计分析函数,一些中间结果既可保存到专门的文件,也可直接用于进一步的分析。6.R的界面中文版的R界面从后开始输入数据,代码等R的使用注意事项1.R的命令对大小

3、写敏感,这在使用命令方式安装和载入程序包时应特别注意。2.输入R的命令中尽量使用英文字符,避免使用中文字符。3.同一行中可输入多个命令,需用; 隔开,#认为是注释内容,不予执行。4.R中所有的函数后都带圆括号5.赋值一般用aa112345bb1onetwothreefourfive“dd1TRUEFALSE1.1.2有序向量的赋值 生成有序的向量可以使用seq命令,s1s11-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.5152.02.53.03.54.04.55.0还有其他的赋值向量的命令不再详细举例。1.2.矩阵创建创建一个矩阵:My

4、matixcellsrnamescnamesmymatrixmymatrixC1C2R1126R224681.3.1表格输入如果要输入以下表格的数据可以使用矩阵,也可用数据框数据框的形式bloodtypejnbqcsxjtxjgspatientdatapatientdatabloodtypejnbqcsxjtxjgs1zc8.9012.0034.7144.002lj10.6318.0546.1867.243yc19.8430.5573.06116.82血压状态血压状态 冠状动脉冠状动脉机能不全机能不全猝死猝死心绞痛心绞痛心肌梗塞心肌梗塞正常正常8.91234.7144临界临界10.6318.0

5、546.1867.24异常异常19.8430.5573.06116.821.3.2数据框的直接输入同样的,可以在R中新建数据框,直接输入数据。命令格式如下:比如创建一个名为mydata的数据框,它含有三个变量,age(数值型)、gender(字符型)、weight(数值型)。命令为:mydatamydata-edit(mydata)2.数据读入R可以读取多种形式的形式。 以导入csv,xls,txt为例:mydataframemydataframelibrary(RODBC)channelmydataframeodbcClose(channel)txt读取:mydatachoose.dir()

6、或者file.choose()直接从弹出的对话框中了来查找文件。三、统计分析方法简介统计分析方法:统计分析方法:常用的主要方法有:线性回归线性回归,方差分析与方差分析与多重比较,假设检验多重比较,假设检验,主成分和因子分析,主成分和因子分析,判别分析,聚类分析。判别分析,聚类分析。3.1方差分析方差分析方差分析:用于分析分类型自变量与数值型自变量之间的关系,即分析多各总体均值是否相等的方法。具体根据影响因素的不同,可以分为单因素方差分析,双因素方差分析例:例:某城市从4个排污口取水,进行某种处理后检测大肠杆菌数量,单位面积内菌落数如下表所示,请分析各个排污口的大肠杆菌数量是否有差别。排污口属于

7、分类型自变量,大肠杆菌数量属于数值型因变量。分析的问题是:不同排污口大肠杆菌的数量是否相等。排污口排污口1234大肠杆菌数量9,12,7,520,14,18,1212,7,6,1023,13,16,21方差分析代码X-c(9,12,7,5,20,14,18,12,12,7,6,10,23,13,16,21)A-factor(rep(1:4,each=4)fcfx-data.frame(X,A)fcfxaov.fcfx-aov(XA,data=fcfx)summary(aov.fcfx)plot(fcfx$Xfcfx$A)pairwise.t.test(X,A,p.adjust.method=h

8、olm)TukeyHSD(aov(XA,fcfx)3.1多重比较多重比较是在方差分析得到否定结论后,为确定是哪些组之间存在差异,两两之间进行的比较分析。假设上述问题经分析得到的结果是四个排污口的大肠杆菌的数量是有差异的。那么具体是哪些排污口数量不同造成的,可进行多重比较。3.1.1方差分析与多重比较命令函数的调用格式:aov.miss-aov(formula,data=Null,projections=FALSE,qr=TRUE,contrast=NULL,)多重比较的T检验命令pairwise.t.test(x,g,p.adjust.method=p.adjust.methods,poor.

9、sd=TRUE,)x是影响变量构成的向量,g是分组向量(因子)方差分析的对象数据框是否返回逻辑预测值是否返回QR分解因素对比合并方差调整p值3.2假设检验 假设检验假设检验是依据样本去推测总体特征。是依据样本去推测总体特征。 思想思想:是基于小概率事件在一次试验中不是基于小概率事件在一次试验中不发生发生的原理。的原理。某车间用一台包装机包装精盐,额定标准每袋净重500g,设包装机包装出的盐每袋净重XN(,2) 某天随机地抽取9袋,称得净重为490,506,508,502,498,511,510,515,512.问该包装机工作是否正常?H0:=500H1:500 3.2.1假设检验命令调用z.t

10、est-function(x,n,sigma,alpha,u0=0,alternative=“two.sided”)类似的可以调用t.test,chisq.var.test检验3.3主成分和因子分析 主成分分析:将多个变量通过线性变换以选出较少个数重要变量,而又尽可能多的保留原始样本的信息。 因子分析:用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。3.3.1主成分分析随机抽取30名某年级中学生,测量其身高(X1),体重(X2),胸围(X3),坐高(X4),数据如下表所示,试对这30名学生身

11、体四项指标作主成分分析。序号X1X2X3X4序号 X1X2X3X4114841727821393471763160497786414936677951594580866142316676715343768381504377799151427780101393168741114029647412161477884通过对以上四项指标做主成分分析,可以构造由四个指标的线性组合组成的主成分,来解释数据。本例中经过主成分分析中可构造出一个反应学生魁梧成度魁梧成度的主成分y1和反应学生胖瘦胖瘦的主成分y2。主成分分析代码x-read.csv(student.csv)student.prweightfhlw

12、omendataplot(fhlweight,type=b,col=red,xlab=体重,ylab=肺活量,xlim=c(40,50),ylim=c(0,3.5) 通过图形发现,体重与肺活量之间有较强的线性关系。进一步做线性回归分析:fitsummary(fit)Call:lm(formula=fhlweight,data=womendata)Residuals:Min1QMedian3QMax-0.30590-0.166990.032690.124810.33128Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)-1.581541

13、.27732-1.2380.2619weight0.093210.027413.4010.0145*-Signif.codes:0*0.001*0.01*0.05.0.11Residualstandarderror:0.2421on6degreesoffreedomMultipleR-squared:0.6584,AdjustedR-squared:0.6015F-statistic:11.56on1and6DF,p-value:0.01448以上分析,我们看到肺活量与体重之间存在着线性关系残差最值及分位数残差最值及分位数回归系数检验,回归系数检验,y=-1.58154+0.09321*weight残差标准残差标准 误误拟合优度拟合优度R方方估计方程的显著性检估计方程的显著性检验,验,P值小于值小于0.05,认为方程显著认为方程显著

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号