用r做数据分析

上传人:今*** 文档编号:105737902 上传时间:2019-10-13 格式:DOCX 页数:25 大小:389.43KB
返回 下载 相关 举报
用r做数据分析_第1页
第1页 / 共25页
用r做数据分析_第2页
第2页 / 共25页
用r做数据分析_第3页
第3页 / 共25页
用r做数据分析_第4页
第4页 / 共25页
用r做数据分析_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《用r做数据分析》由会员分享,可在线阅读,更多相关《用r做数据分析(25页珍藏版)》请在金锄头文库上搜索。

1、R简介R语言是由 Ross Ihaka、Robert Gentleman二位创建的,这也许可以解释为什么叫R语言。现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目。一、R语言介绍 R是为统计计算和作图的一门语言和环境。是一个GNU项目,和S语言和环境很相似,S语言是由BELL实验室的John Chambers和他的同事开发的。R语言可以认为是从S语言衍生而来的,他们之前有很重要的不同,但是大多数用S语言写的代码也可以在R中运行。 目前R在高校非常流行,特别是随着这几年互联网的发展,(R在一些大公司的运用得到的实践,例如:国外的google、linkdin、facebook等,国

2、内一些大型互联网公司也在开始使用R),及随着互联网版权的意识增强,也促使了R在互联网的发展。当然R在很多领域都有很广泛的运用。 R语言是开源的,同时可以运行在各种平台上(Linux、Windows、MacOS等)。R的许多软件包是由R语言、 LaTeX、Java及最常用C语言和Fortran撰写。 可以说现在R包含各种各样的功能,可以说目前你能想到的功能,都可以找到一个或者多个R包来实现。几千个R包,哪个才最适合你呢?“最适合你自己的R包,也许就是你自己写的那个包”。二、 R软件安装下载 CRAN地址:http:/www.r-project.org/,什么是CRAN: CRAN为Compreh

3、ensive R Archive Network(R综合典藏网)的简称。它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。现时,全球有超过一百个CRAN镜像站。 根据你的操作系统,下载相应的R语言安装文件。 下载地址:http:/ftp.ctex.org/mirrors/CRAN/三、 R语言的特点 1、变量不需要申明即可引用。 2、R语言的核心是:向量。 3、R语言是一个函数语言。 4、向量中的下标是从1开始引用的。 5、R是脚本语言、面像对象;四、 如何学学习R语言1、不要期望你能学会R中所有的包。不要把目标定的那么高。2、关键能理解R语言的内涵。多看看CRAN

4、上的相关文档,例如:季刊、R语言相关新闻,特别是每次版本更新的一些内容。3、运用 如果你是做数据分析相关的工作的,一定要把学习到的R语言知识运用到你的工作中,不管你把R语言当用一门编程语言还是统计工具,用的多了,自然你就有感觉,很多东西你就记住了。4、持续 每天花点时间写几条R代码,实现一些小功能。如果你工作上就用R,那是最完美的。5、多看 多看别人写的代码,R运用的案例。你可以google一下R会有很多好的博客,文章。很多人都是R的GREEK。6、开放 一定要开放、分享的心态。多与别人交流,不要总是需求,一定要学习给予。7、总结 学到的东西,及时做好总结,可以总结成案例或者笔记,如果可以欢迎

5、分享给大家(http:/ 到这投稿是一个不错的选择) 五、 我对R语言的理解和看法 随时互联网的发展,特别是互联网对于版权、成本的因素考虑,因为免费、开源使越来越多的公司开始用R语言来处理数据、分析数据、完成模型等,当然这其中也伴随着对于数据价值挖掘的,特别是在大数据的背景下,想通过对数据挖掘&分析建立自己的竞争优势。 R不仅 免费还有各种各样的的功能包资源。从某种程度上讲,任何你想要的功能应该都可以找到对应的包,只是说是否完全满足,对于一些算法研究人员来说,可以在原来的代码的基础进行借鉴。这也许就是为什么R最开始主要用到高校或者学术领域(当然和国外学者、专家这种自由、开放的环境或者意识有很关

6、系,这也许就是为什么许多开源软件都是国外出来,很少看到国内的大公司有什么好的东西开源)。 很多行业人士都说R是未来的“王道”,就像unix的发展过程一样。我觉得未来一定有属于R的一片天空,而且这种天空可以说是接近无限。所以,对于有志于从事数据挖掘、数据分析这个行业的朋友来说,掌握R是也许会成为未来的必备技能(就像现在数据分析师大多要求会:SQL)。 最后,我对R语言的理解与总结可以概括为一句话:“开源、二次加工、分享精神”。R包介绍R语言的使用,很大程度上是借助各种各样的R包的辅助,从某种程度上讲,R包就是针对于R的插件,不同的插件满足不同的需求一、 R语言包的安装1、通过选择菜单:程序包-安

7、装程序包-在弹出的对话框中,选择你要安装的包,然后确定。2、使用命令install.packages(package_name,dir)package_name:是指定要安装的包名,请注意大小写。dir:包安装的路径。默认情况下是安装在.library 文件夹中的。可以通过本参数来进行修改,来选择安装的文件夹。例如:mvtnorm安装到D:/DM/r/R-2.15.2/library/目标下install.packages(mvtnorm,D:/DM/r/R-2.15.2/library/)3、本地来安装如果你已经下载的相应的包的压缩文件,则可以在本地来进行安装。请注意在windows、uni

8、x、macOS操作系统下安装文件的后缀名是不一样的:1)linux环境编译运行:tar.gz文件2)windows 环境编译运行 :.zip文件3)MacOSg环境编译运行: .tgz文件注:包安装好后,并不可以直接使用,如果在使用包中相关的函数,必须每次使用前包加载到内存中。通过library(package_name)来完成。二、 加载包包安装后,如果要使用包的功能。必须先把包加载到内存中(默认情况下,R启动后默认加载基本包),加载包命令:Library(“包名”)Require(“包名”) 三、 查看包的相关信息1、查看包帮忙library(help=package_name)主要内容包

9、括:例如:包名、作者、版本、更新时间、功能描述、开源协议、存储位置、主要的函数,例如:library(help=igraph)2、查看当前环境哪些包加载 find.package() 或者 .path.package()例如:默认情况下安装7个包(本系列文章使用的R的版:2.15.2) 3、移除包出内存detach()4、把其它包的数据加载到内存中data(dsname, package=pkgname)5、查看这个包里的包有数据data( package=包名)6、列出所有安装的包library() 四、 R包的分类1、根据包的功能,分成不同的类:http:/cran.r-project.o

10、rg/web/views/2、截止到2013年3月6号,CRAN上一共收录的:4338个包。3、不同开源协议的包的分布如下:(相关查看代码:#读取CRAN上包的相关信息a - available.packages(contrib.url(http:/ftp.ctex.org/mirrors/CRAN, source)#查看CRAN上当前包的个数nrow(a)#各种开源协议的包的分布个数sort(table(gsub( .*, , a,License), decreasing = T)R软件初识数据分析R软件下载地址:http:/www.r-project.org/1.用来制作散点图非常便捷。

11、plot(纵坐标变量横坐标变量,data=数据集名称)library(lattice)xyplot(纵坐标变量横坐标变量|属性拥有者,data=数据集名称) 。多个散点图。2.数据存储成CSV格式的会更容易处理3.R能用正则表达式来处理数据模式!NewName - sub( ( . * ) ,Test$Name)( 表示左括号,告诉R这不是R表达式. 句点表示任何字符* 星号表示任何数值的前字符) 表示右括号4.读写文件语句INPUT - read.csv( .csv,header=TRUE) 读取一个.csv格式的文件head(INPUT,n=?) 查看开头数据中开头?行write.csv(

12、INPUT,file=OUTPUT.csv) 将结果写入到csv格式的文件5.R区分大小写,连TRUE都不能用小写 .向量在本系列文章中,接下将分别介绍R语言的几种数据对象:向量、矩阵、数据框与列表、其它特殊对象;请大家在学习R语言的时候永远记住一个概念,R语言所有内容都是对象;一、向量基本概念R语言中最为核心的构成之一 1、向量构成的基本元素为:数值(numeric)、字符(character)、逻辑值(logical)、复数型(complex); 2、向量不需要定义类型,可直接赋值: 1)生成一个空向量;x-c(); 2)给向量赋值。x-c(0,1,2,3); 3、向量的元素下标取值是以1

13、开始,这点请刚开始接触R的同学注意。例如:要前例中取x向量中值为1,则为x2 4、如果一个向量中有一个字符,则该向量的类型会变成字符; 如果逻辑变量与数值在一起,则为转换成数值。TRUE转变成1 and FALSE 转变成 0. 2、在R语言中没有单一的整数、单一字符的概念 例如:X-2;X-a;R都是当作向量来处理,只是这个向量只包括单一值。3、给向量各元素命名: names(x) Demo_3-1:3 names(Demo_3) - c(a,b,ab) 二、几种特殊向量的生成1、生成系列seq()1)seq(length=, from=, to=) Length:指定生成个数 From:是

14、指开始生成的点 To:截止点2)如果不指定,则默认条件下:seq(N1,N2,BY=) N1:开始位置 N2:截止位置 BY=指定间隔 2、rep(P,N) 重复生成P值N次 三、向量运算1、取子向量 通过下标: 取某个元素:x2;(如果X包括名称,注意:x2与x2的区别; 取某中几个:xc(1,2,0) 取某个/几个元素,利用-:x-n2、向量排序; sort(); 输出排序后的结果; order();输出排序后的各个向量位置; a-c(3,9,0,12,19) sort(a);order();3、循环。如果二个向量进行运算过程中,二个向量不相同,则R对长度小的向量自动补充值,直到长度等于大的向量。例如:Demo_5-1:3;Demo_6-2:5;Demo_7= De

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号