r语言笔记常用函数、统计分析、数据类型、数据操作、帮助、安装程序包、r绘图

资源描述

《r语言笔记常用函数、统计分析、数据类型、数据操作、帮助、安装程序包、r绘图》由会员分享，可在线阅读，更多相关《r语言笔记常用函数、统计分析、数据类型、数据操作、帮助、安装程序包、r绘图（16页珍藏版）》请在金锄头文库上搜索。

1、R R 语言学习笔记语言学习笔记常用函数常用函数 1 1、聚类、聚类常用的包： fpc，cluster，pvclust，mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats 2 2、分类、分类常用的包 rpart， party， randomForest， rpartOrdinal， tree， margin

2、Tree， maptree， survival 决策树: rpart, ctree 随机森林: cforest, randomForest 回归, Logistic 回归, Poisson 回归: glm, predict, residuals 生存分析: survfit, survdiff, coxph 3 3、关联规则与频繁项集、关联规则与频繁项集常用的包 arules：支持挖掘频繁项集，最大频繁项集，频繁闭项目集和关联规则 DRM：回归和分类数据的重复关联模型 APRIORI 算法，广度 RST 算法：apriori, drm ECLAT 算法：采用等价类，RST 深度搜索和集合的交

3、集： eclat 4 4、序列模式、序列模式常用的包： arulesSequences SPADE 算法： cSPADE 5 5、时间序列、时间序列常用的包： timsac 时间序列构建函数： ts 成分分解: decomp, decompose, stl, tsr 6 6、统计、统计常用的包： Base R, nlme 方差分析: aov, anova 密度分析: density 假设检验: t.test, prop.test, anova, aov 线性混合模型：lme 主成分分析和因子分析：princomp 7 7、图表、图表条形图: barplot 饼图: pie 散点图: d

4、otchart 直方图: hist 密度图: densityplot 蜡烛图, 箱形图 boxplot QQ (quantile-quantile) 图: qqnorm, qqplot, qqline Bi-variate plot: coplot 树: rpart Parallel coordinates: parallel, paracoor, parcoord 热图, contour: contour, filled.contour 其他图: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot, assocp

5、lot, mosaicplot 保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png 8 8、数据操作、数据操作缺失值：na.omit 变量标准化：scale 变量转置：t 抽样：sample 堆栈：stack, unstack 其他：aggregate, merge, reshape 9 9、与数据挖掘软件、与数据挖掘软件 WekaWeka 做接口做接口 RWeka: 通过这个接口，可以在 R 中使用 Weka 的所有算法。安装程序包安装程序包 1 用函数用函数 install.packages() 2 安装本地安装本地 zip 包

6、包路径：路径：Packagesinstall packages from local files 查看安装的包查看安装的包 installed.packages() 检查更新检查更新 old.packages() 更新更新 update.packages() 帮助帮助查看帮助文档 ?install.package() help(“install.package”) 函数帮助 ?function help(function) html 帮助 Help.start() 帮助帮助Html 帮助帮助关键词搜索 RSiteSearch(word) 数据类型数据类型向量向量创建向量 c( ),创

7、建向量 length( ), 向量长度删除向量 vector-n，即删除第 n 个向量 mode( ), 向量类型 rbind( ), 向量元素都作为一行 row cbind( ) ，向量元素都作为一列 col *创建向量序列创建向量序列 seq(from, to, by = (to - from)/(length.out - 1),length.), length 是总长度（个数），因此 by 就是间隔 rep(mode,time) 产生 mode 重复 time 次的向量 lettersn:m产生字符向量 r rnorm(n,mean=norm(n,mean=,sd=,sd=) ) 随机

8、序列随机序列取子集值范围限制如：V(xm|xk,c(“col1”,”col2”,)，用用 attach(data)可以简化这一步可以简化这一步操作操作，即在即在 attach 之后可以直接访问列之后可以直接访问列（所有所有）， datadata$colk，用用 detach 可以解除可以解除。另一种控制条件查询的方式即通过 subset 函数取子集 Subset(data,colNamek)，此时 colName 是数据框的一个列属性筛选筛选 which()函数进行筛选，which 中是筛选条件，如：is.na() 编辑数据编辑数据 edit(data) 查看数据框属性查看

9、数据框属性查看数据维度：dim(data)返回：行，列单独查看行数列数：nrow(data)、ncol(data) 查看列名：names(data)，同时修改列名：names(data)=c(“”,”,) 查看数据结构：str(data) 查看属性（列名$names、类$class、列$row.names），attributes(data) 添加一列添加一列 data$addCol=c(“”,”,)，添加列的元素应与原来的行数相等 merge(dataframeA,dataframeB,by=c(“”,”,)，横向合并（添加多列）数据操作数据操作数据处理数据处理变量重命名，调用 fi

10、x(data)，出现一个交互式工具；或者 rename(dataframe,c(oldname=”newname,”) 类型转换：is.datatype()判断，as.datatype()转换字符串处理：nchar()，计算字符数量 substr(x,start,stop) grep(pattern,v)，返回向量坐标 sub(pattern,replacement,x)，替换 strsplit(x,split)分割 paste(x,c(),sep=”)，在 x 后面（向量个数）连接 c()向量，以 sep 分隔 cat(“str1”,”str2”,)，连接字符串 toupper() tol

11、ower() 读取文件数据读取文件数据 data=read.table(”位置位置”, header=T)读取文本文件读取文本文件 data=read.csv(”位置位置”,header=T)读取读取 csv 文件文件在数据导入 R 语言后，会以数据框(dataframe)的形式储存。dataframe 是一种 R 的数据格式，可以将它想象成类似统计表格，每一行都代表一个样本点，而每一列则代表了样本的不同属性或特征。初学者需要掌握的基本操作方法就是 dataframe 的编辑、抽取和运算。数据库操作数据库操作 1、配置数据元安装 connector 配置数据源（控制面板管理工具数据源

12、） 2、连接数据库 odbcConnect(data_src,uid=“ “,pwd=“ “) 3、查询这个是一个通用类型的操作，即可以查询，又可以添加删除修改 sqlQuery(channel,“sql“) 4、更新数据库表，并读取数据（问题暂未解决） sqlSave(channel,mydata,NEW_TABLE_NAME,append = TRUE) 表若不存在则新建，默认以数据框命名。mydata 数据框：data.frame()函数建立描述统计描述统计统计函数 mean() Median() var() mad()，绝对中位差 quantile(x,probs)，求分位数 r

13、ange()，值域 sum() diff(v,lag=n)，滞后差分 min() max() scale()，按列标准化概率函数分布函数 Beta 分布 beta() 柯西分布 cauchy() 卡方分布 chisq() t 分布 t() F 分布 f() Logistic 分布 logis() 均匀分布 unif() 正态分布函数 rnorm( ) 对数正态分布 lnorm() 多项分布 mutinom() 泊松分布函数 pois( ) 指数分布函数 exp( ) Gamma 分布函数 gamma( ) 均匀分布函数 unif( ) 二项分布函数 binom( ) 几何分布函数 geom

14、( ) 将这些分布函数加上第一个字母：d=密度函数 p=分布函数 q=分位数函数 r=生成随机数生成随机数统计与整合（分组） summary() 描述统计是一种从大量数据中压缩提取信息的工具，最常用的就是 summary命令，运行 summary(data)得到结果如下：对于数值变量计算了五五个分位点个分位点和均值均值，对于分类变量则计算了频数频数（显示最高的前五个）（显示最高的前五个） aggregate(x, by, FUN, ., simplify = TRUE) 对数据 x，通过 by 指明的变量，以 FUN 的方式进行整合。 x 是一个数据框的一个属性 by 有哪些因子去进行

15、统计 FUN 是计算的方法这个函数最后返回的是一个组织好的数据框数据框 sapply(x,FUN,options)，指定统计方法进行描述 options 是 FUN 的参数。另外，可以自定义统计函数，返回是一个向量。描述统计将根据自定义的函数计算，最终返回这个向量。 by(x,INDICES,FUN)，也可以对数据进行整合描述，其中，INDICES 是一个因子或列表。 table()统计频数。列联表创建表 table(data)，创建一维列联表 table(A,B)，创建二维列联表（矩阵式），A 是行，B 是列 xtabs(formula,data)，根据 formula 的格式创

16、建。 formula 可以为A+B 抽样函数：Sample(x,size=,replace=T) 处理表 prob.table(table,margins)，比例，margins 是边际（1 表示行与行相比，2 表示列与列相比） margin.table(table,margins)，频数 addmargins(tables,margins)，为表格添加边际 ftable(table) 常用统计推断常用统计推断独立性检验卡方独立性检验 chisq.test() p0.05 则不拒绝。 Fisher 精确性检验 fisher.test()，假设是：边界固定的列联表行和列是相互独立的。 Corchran-Mantel-Haenszel 检验 mantelhaen.test()，假设：两个名义变量在第三个变量的每一层中都是独立的。相关性度量 assocstats()，

展开阅读全文

r语言笔记 常用函数、统计分析、数据类型、数据操作、帮助、安装程序包、r绘图

r语言笔记常用函数、统计分析、数据类型、数据操作、帮助、安装程序包、r绘图