R语言应用_数据挖掘.pdf

资源描述

《R语言应用_数据挖掘.pdf》由会员分享，可在线阅读，更多相关《R语言应用_数据挖掘.pdf（56页珍藏版）》请在金锄头文库上搜索。

1、Teradata数据挖掘之 R语言应用交流 Yinbinfeng 2014 11 2 Agenda 2014 Teradata2 一 R语言基础介绍二如何使用R语言及思考三 R语言应用案例 1 基于熵值法指标权重设定因子分析评估 2 R自回归指标预测 3 基于二次规则的马科维茨资产组合 3 什么是R语言 2014 Teradata R语言是统计挖掘的绘图语言也是实现该语言的软件 4 R语言的特点 2014 Teradata 目前在R网站上约有近6000个包涵盖了基础统计学社会学经济学生态学空间分析系统发育分析生物信息学等诸多方面多领域的统计资源 R可在多种操作系统

2、上运行如Windows MacOS 多种Linux 和UNIX等跨平台 R即时解释输入命令即可获得相应的结果命令行驱动 5 为什么选择R语言 2014 Teradata 6 R和其它统计软件的比较 2014 Teradata 无需编程所见即所得重在数据的整理能满意绝大部分常规统计分析速度快有大量统计分析模块可扩展性稍差且价格昂贵简单的图型操作界面简单易学但编程十分困难运行S语言具有复杂的界面与R完全兼容且价格昂贵 SAS EXCEL SPSS Statistics SPSS Modeler S 7 R语言的缺点 2014 Teradata 8 R开发常用开

3、源工具 RStudio 2014 Teradata R代码区 R运行结果 R图型展示区及帮助区 R运行对象 R Studio 是当前R开发最流量的开源工具之一主要功能介绍如下 9 R程序包 R Packages 2014 Teradata 10 R常用程序包介绍 1 2014 Teradata R Package名称R描述 abindCombine multi dimensional arrays caret分类与回归预测 ccgarch基于异分差条件回归预测模型 datasetsR数据集包 Features特征选择 foreachForeach looping construct for

4、R Forecast时间序列与线性回归模型 ggplostR绘图包 iteratorsIterator construct for R MatrixSparse and Dense Matrix Classes and methods 11 R常用程序包介绍 2 2014 Teradata R Package名称R描述 bootB值检验 cluster聚类分析 mboosting模型为基础的提升包含众多预测模如最小二乘法 ForeachForeach looping construct for R foreignRead Data Stored by S SAS SPSS dBASE pa

5、rallel支撑数据的并行计算 penalizedSVMSVM向量机分类模型 RODBCODBC Database Access XLConnectExcel Connector for R timeData时间序列对象 12 R常用程序包介绍 3 2014 Teradata R Package名称R描述 nlme线性回归和非线性回归 statsT值检验 B检验 F检验线性回归广义回归 party决策树分析模型包 strings字符串类 13 R语言基础对象 1 数字向量 2014 Teradata 向量是有相同基本类型的元素序列即一维数组定义向量的最常用办法是使用函数c R中用符号

6、 x c 1 3 10 13 x 1 1 2 3 10 11 12 13 可以对向量进行加减乘除乘方运算其含意是对向量的每一个元素进行运算如 x y x 2 1 y 1 3 0 9 0 13 5 14 向量可以取逻辑值如 l c T T F l输出 1 TRUE TRUE FALSE 当然逻辑向量往往是一个比较的结果如 x 输出 1 1 00 4 00 6 25 l x 3 l 输出 1 FALSE TRUE TRUE 一个向量与常量比较大小结果还是一个向量元素为每一对比较的结果逻辑值如 log 10 x 1 2 302585 3 688879 4 135167 l

7、og 10 x x 输出 1 TRUE FALSE FALSE 比较运算符包括 R语言基础对象 2 逻辑向量 15 如 v为和x等长的逻辑向量 x v 表示取出所有v为真值的元素如 x 输出 1 1 00 125 00 6 25 x x x x x 0 输出 numeric 0 可见x x0 可以取出x中所有正弦函数值为正的元素组成的向量如果下标都是假值则结果是一个零长度的向量显示为numeric 0 R语言基础对象 2 1 取逻辑值的下标向量 16 向量元素可以取字符串值例如 c1 c x sin x c1输出 1 x sin x ns c Weight Height 年龄 ns

8、输出 1 Weight Height 年龄 paste函数用来把它的自变量连成一个字符串中间用空格分开例如 paste My Job 1 My Job paste Hi 早输出 1 Hi 早 R语言基础对象 3 字符型向量 17 多维数组 array 带多个下标的类型相同的元素的集合常用的是数值型的数组如矩阵也可以有其它类型如字符型逻辑型复型数组数组有一个特征属性叫做维数向量 dim属性比如维数向量有两个元素时数组为二维数组矩阵维数向量的每一个元素指定了该下标的上界下标的下界总为1 一组值只有定义了维数向量 dim属性后才能被看作是数组比如 a 1 24 a

9、dim a c 2 4 3 a R语言基础对象多维数组结果展现 18 访问数组的某个元素写出数组名和方括号内用逗号分开的下标即可如a 2 1 2 在每一个下标位置写一个下标向量表示对这一维取出所有指定下标的元素如a 1 2 3 2 3 取出所有第一下标为1 第二下标为2或3 第三下标为2或3的元素略写某一维的下标则表示该维全选还有一种特殊下标是对于数组只用一个下标向量是向量不是数组比如a 3 4 这时忽略数组的维数信息把下标表达式看作是对数组的数据向量取子集 R语言基础对象 3 1 多维数组下标访问取第三个维度的全部数据取全部数据 19 矩阵是二维数组应用广泛

10、函数t A 返回矩阵A的转置 nrow A 为矩阵A的行数 ncol A 为矩阵A的列数矩阵之间进行普通的加减乘除四则运算即数组的对应元素之间进行运算所以注意 A B不是矩阵乘法而是矩阵对应元素相乘要进行矩阵乘法使用运算符 A B表示矩阵A乘以矩阵B 当然要求A的列数等于B的行数例如 A B A R语言基础对象矩阵运算 20 矩阵运算还有solve A b 解线性方程组 solve A 求方阵A的逆矩阵 R语言基础对象矩阵解线性方程取逆矩阵解线性方程 21 R语言基础对象因子及频数统计因子是一种特殊的字符型向量每一个元素取一组离散值中的一个而因子对象有一个特殊

11、属性levels表示这组离散值用字符串表示函数factor 用来把一个向量编码成为一个因子一般形式为 factor x levels sort unique x na last TRUE labels exclude NA ordered FALSE 如 x y y 1 男女男男女 Levels 男女因子的基本统计是频数统计用函数table 来计数如 sex factor c 男女男男女 res tab res tab 22 Agenda 2014 Teradata22 一 R语言基础介绍二如何使用R语言及思考三 R语言应用案例 1 基于熵值法指标权重设定

12、因子分析评估 2 R自回归指标预测 3 基于二次规则的马科维茨资产组合 23 互联网公司怎么使用R 2014 Teradata 24 2014 Teradata Teradata公司R语言使用流程 25 Teradata AsterR中使用流程 2014 Teradata Table access functions R function push down Aster Cluster R O D B C R O D B C R Client asterR package R Map reduce runners Bulk data import export ODBC ODBC Aste

13、r Analytic Foundation Wrappers asterRExt package Mule Copy 26 示例代码 27 2014 Teradata tadf apprx dcount tadf apprx percentile tadf attribution tadf basket tadf classify text tadf collab filter tadf cor tadf analyze forest tadf forest drive tadf forest predict tadf glm tadf glm predict tadf hist tadf k

14、means tadf kmeansplot tadf knn tadf larspredict tadf train lars tadf ldist tadf linreg tadf lm tadf naive bayes predict tadf naive bayes train tadf ngram tadf npath tadf mnpath tadf pca tadf percentile tadf pivot tadf sample tadf sessionize tadf single tree drive tadf single tree predict tadf extrac

15、t sentiment tadf train sentiment tadf svm predict tadf svm train tadf evaluate text classifier tadf train text classifier tadf text parse tadf unpack tadf unpivot Aster R Package分析函数 28 2014 Teradata Teradata 主仓库中使用流程 29 Teradata R Package使用示例 30 2014 Teradata R语言在大数据时代的并行计算支撑 31 如何让R运行的更快一些内存运行库内

16、运行算法优化运行还能更快一点么 32 Agenda 2014 Teradata32 一 R语言基础介绍二如何使用R语言及思考三 R语言应用案例 1 基于熵值法指标权重设定因子分析评估 2 R自回归指标预测 3 基于二次规则的马科维茨资产组合 33 随着电信行业竞争日趋激烈省级运营商对精细化运营提出了更高的要求本方案重点从地市业务识别评估的角度从发对不同的地市进行综合评估应用背景 XX省移动公司 2014 Teradata 第一步确认评估指标根据KPI考核指标分别从客户发展话务量互通话务财务收入流量发展资源投入等6方面出发筛选出9个关键指标并进行数据标准化处理第二步确认各指标权重并根据权重计算得分 1 利用熵值法确认指标的权重 2 根据权重重新计算指标的实际值即Value 原始值权重值第二步得用因子分析计算综合得分 1 利用因子分析对11个指标进行降维在保证数据信覆盖的前提下得出关键因子 2 根据关键因子计算各地市的综合得分然后根据分值进行区域分隔即得出高中低地市 34 利用熵值

展开阅读全文

R语言应用_数据挖掘.pdf

最新文档