R语言应用_数据挖掘.pdf

上传人:飞****9 文档编号:134041686 上传时间:2020-06-02 格式:PDF 页数:56 大小:3.22MB
返回 下载 相关 举报
R语言应用_数据挖掘.pdf_第1页
第1页 / 共56页
R语言应用_数据挖掘.pdf_第2页
第2页 / 共56页
R语言应用_数据挖掘.pdf_第3页
第3页 / 共56页
R语言应用_数据挖掘.pdf_第4页
第4页 / 共56页
R语言应用_数据挖掘.pdf_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《R语言应用_数据挖掘.pdf》由会员分享,可在线阅读,更多相关《R语言应用_数据挖掘.pdf(56页珍藏版)》请在金锄头文库上搜索。

1、Teradata数据挖掘之 R语言应用交流 Yinbinfeng 2014 11 2 Agenda 2014 Teradata2 一 R语言基础介绍 二 如何使用R语言及思考 三 R语言应用案例 1 基于熵值法指标权重设定 因子分析评估 2 R自回归指标预测 3 基于二次规则的马科维茨 资产组合 3 什么是R语言 2014 Teradata R语言是统计挖掘的绘图语言 也是实现该语言的软件 4 R语言的特点 2014 Teradata 目前在R网站上约有近6000个包 涵盖了基础统计学 社会学 经济学 生态学 空间分析 系统发育分析 生物信息学等诸多 方面 多领域的统计资源 R可在多种操作系统

2、上运行 如Windows MacOS 多种Linux 和UNIX等 跨平台 R即时解释 输入命令 即可获得相应的结果 命令行驱动 5 为什么选择R语言 2014 Teradata 6 R和其它统计软件的比较 2014 Teradata 无需编程 所见即所得 重在数据的整理 能满意绝大部分常规统计分析 速度快 有大量统计分析模块 可扩展性稍差 且价格昂贵 简单的图型操作界面 简单易学 但编程十分困难 运行S语言 具有复杂的界面 与R完全兼容 且价格昂贵 SAS EXCEL SPSS Statistics SPSS Modeler S 7 R语言的缺点 2014 Teradata 8 R开发常用开

3、源工具 RStudio 2014 Teradata R代码区 R运行结果 R图型展示区及帮助区 R运行对象 R Studio 是当前R开发最流量的开源工具之一 主要功能介绍如下 9 R程序包 R Packages 2014 Teradata 10 R常用程序包介绍 1 2014 Teradata R Package名称R描述 abindCombine multi dimensional arrays caret分类与回归预测 ccgarch基于异分差条件回归预测模型 datasetsR数据集包 Features特征选择 foreachForeach looping construct for

4、R Forecast时间序列与线性回归模型 ggplostR绘图包 iteratorsIterator construct for R MatrixSparse and Dense Matrix Classes and methods 11 R常用程序包介绍 2 2014 Teradata R Package名称R描述 bootB值检验 cluster聚类分析 mboosting模型为基础的提升 包含众多预测模 如最小二乘法 ForeachForeach looping construct for R foreignRead Data Stored by S SAS SPSS dBASE pa

5、rallel支撑数据的并行计算 penalizedSVMSVM向量机分类模型 RODBCODBC Database Access XLConnectExcel Connector for R timeData时间序列对象 12 R常用程序包介绍 3 2014 Teradata R Package名称R描述 nlme线性回归和非线性回归 statsT值检验 B检验 F检验 线性回归 广义回归 party决策树分析模型包 strings字符串类 13 R语言基础对象 1 数字向量 2014 Teradata 向量是有相同基本类型的元素序列 即一维数组 定义向量的最常用办法是使用 函数c R中用符号

6、 x c 1 3 10 13 x 1 1 2 3 10 11 12 13 可以对向量进行加 减 乘 除 乘方 运算 其含意是 对向量的每一个元素进行运算 如 x y x 2 1 y 1 3 0 9 0 13 5 14 向量可以取逻辑值 如 l c T T F l输出 1 TRUE TRUE FALSE 当然 逻辑向量往往是一个比较的结果 如 x 输出 1 1 00 4 00 6 25 l x 3 l 输出 1 FALSE TRUE TRUE 一个向量与常量比较大小 结果还是一个向量 元素为每一对比较的结果逻辑值 如 log 10 x 1 2 302585 3 688879 4 135167 l

7、og 10 x x 输出 1 TRUE FALSE FALSE 比较运算符包括 R语言基础对象 2 逻辑向量 15 如 v为和x等长的逻辑向量 x v 表示取出所有v为真值的元素 如 x 输出 1 1 00 125 00 6 25 x x x x x 0 输出 numeric 0 可见x x0 可以取出x中所有正弦函数 值为正的元素组成的向量 如果下标都是假值则结果是一个零长度的向量 显示为numeric 0 R语言基础对象 2 1 取逻辑值的下标向量 16 向量元素可以取字符串值 例如 c1 c x sin x c1输出 1 x sin x ns c Weight Height 年龄 ns

8、输出 1 Weight Height 年龄 paste函数用来把它的自变量连成一个字符串 中间用空格分开 例如 paste My Job 1 My Job paste Hi 早 输出 1 Hi 早 R语言基础对象 3 字符型向量 17 多维数组 array 带多个下标的类型相同的元素的集合 常用的是数值型的数组如矩 阵 也可以有其它类型 如字符型 逻辑型 复型数组 数组有一个特征属性叫做维数向量 dim属性 比如维数向量有两个元素时数组为 二维数组 矩阵 维数向量的每一个元素指定了该下标的上界 下标的下界总为1 一组值只有定义了维数向量 dim属性 后才能被看作是数组 比如 a 1 24 a

9、dim a c 2 4 3 a R语言基础对象 多维数组 结果展现 18 访问数组的某个元素 写出数组名和方括号内用逗号分开的下标即可 如a 2 1 2 在每一个下标位置写一个下标向量 表示对这一维取出所有指定下标的元素 如a 1 2 3 2 3 取出所有第一下标为1 第二下标为2或3 第三下标为2或3的元素 略写某一维的下标 则表示该维全选 还有一种特殊下标是对于数组只用一个下标向量 是向量 不是数组 比如a 3 4 这时忽 略数组的维数信息 把下标表达式看作是对数组的数据向量取子集 R语言基础对象 3 1 多维数组下标访问 取第三个维度的全部数据 取全部数据 19 矩阵是二维数组 应用广泛

10、 函数t A 返回矩阵A的转置 nrow A 为矩阵A的行数 ncol A 为矩阵A的列数 矩阵之间进行普通的加减乘除四则运算 即数组的对应元素之间进行运算 所以注意 A B不是矩阵乘法而是矩阵对应元素相乘 要进行矩阵乘法 使用运算符 A B表示矩阵A乘以矩阵B 当然要求A的列 数等于B的行数 例如 A B A R语言基础对象 矩阵运算 20 矩阵运算还有solve A b 解线性方程组 solve A 求方阵A的逆矩阵 R语言基础对象 矩阵解线性方程 取逆矩阵 解线性方程 21 R语言基础对象 因子及频数统计 因子是一种特殊的字符型向量 每一个元素取一组离散值中的一个 而因子对象有 一个特殊

11、属性levels表示这组离散值 用字符串表示 函数factor 用来把一个向 量编码成为一个因子 一般形式为 factor x levels sort unique x na last TRUE labels exclude NA ordered FALSE 如 x y y 1 男 女 男 男 女 Levels 男 女 因子的基本统计是频数统计 用函数table 来计数 如 sex factor c 男 女 男 男 女 res tab res tab 22 Agenda 2014 Teradata22 一 R语言基础介绍 二 如何使用R语言及思考 三 R语言应用案例 1 基于熵值法指标权重设定

12、 因子分析评估 2 R自回归指标预测 3 基于二次规则的马科维茨 资产组合 23 互联网公司怎么使用R 2014 Teradata 24 2014 Teradata Teradata公司R语言使用流程 25 Teradata AsterR中使用流程 2014 Teradata Table access functions R function push down Aster Cluster R O D B C R O D B C R Client asterR package R Map reduce runners Bulk data import export ODBC ODBC Aste

13、r Analytic Foundation Wrappers asterRExt package Mule Copy 26 示例代码 27 2014 Teradata tadf apprx dcount tadf apprx percentile tadf attribution tadf basket tadf classify text tadf collab filter tadf cor tadf analyze forest tadf forest drive tadf forest predict tadf glm tadf glm predict tadf hist tadf k

14、means tadf kmeansplot tadf knn tadf larspredict tadf train lars tadf ldist tadf linreg tadf lm tadf naive bayes predict tadf naive bayes train tadf ngram tadf npath tadf mnpath tadf pca tadf percentile tadf pivot tadf sample tadf sessionize tadf single tree drive tadf single tree predict tadf extrac

15、t sentiment tadf train sentiment tadf svm predict tadf svm train tadf evaluate text classifier tadf train text classifier tadf text parse tadf unpack tadf unpivot Aster R Package分析函数 28 2014 Teradata Teradata 主仓库中使用流程 29 Teradata R Package使用示例 30 2014 Teradata R语言在大数据时代的并行计算支撑 31 如何让R运行的更快一些 内存运行 库内

16、运行 算法优化运 行 还能更快一 点么 32 Agenda 2014 Teradata32 一 R语言基础介绍 二 如何使用R语言及思考 三 R语言应用案例 1 基于熵值法指标权重设定 因子分析评估 2 R自回归指标预测 3 基于二次规则的马科维茨 资产组合 33 随着电信行业竞争日趋激烈 省级运营商对精细化运营提出了更高的要求 本方案 重点从地市业务识别评估的角度从发 对不同的地市进行综合评估 应用背景 XX省移动公司 2014 Teradata 第一步 确认评估指标 根据KPI考核指标 分别从客户发展 话务量 互通话务 财务收入 流量发 展 资源投入等6方 面出发 筛选出9个 关键指标 并进行 数据标准化处理 第二步 确认各指标权重 并根据权重计算得分 1 利用熵值法确认 指标的权重 2 根据权重 重 新计算指标的实际 值 即Value 原始 值 权重值 第二步 得用因子分析 计算综合得分 1 利用因子分析 对11个指标进行降 维 在保证数据信 覆盖的前提下 得 出关键因子 2 根据关键因子 计算各地市的综合 得分 然后根据分 值进行区域分隔 即得出高 中 低 地市 34 利用熵值

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号