sas_em数据挖掘实例

上传人:第*** 文档编号:69153873 上传时间:2019-01-12 格式:PDF 页数:34 大小:806.87KB
返回 下载 相关 举报
sas_em数据挖掘实例_第1页
第1页 / 共34页
sas_em数据挖掘实例_第2页
第2页 / 共34页
sas_em数据挖掘实例_第3页
第3页 / 共34页
sas_em数据挖掘实例_第4页
第4页 / 共34页
sas_em数据挖掘实例_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《sas_em数据挖掘实例》由会员分享,可在线阅读,更多相关《sas_em数据挖掘实例(34页珍藏版)》请在金锄头文库上搜索。

1、 SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ SAS Enterprise Miner 4 数据挖掘实例数据挖掘实例 目录 1. SAS 8.2 Enterprise Miner 简介 . 2 2. EM 工具具体使用说明. 2 3. 定义商业问题 3 4. 创建一个工程 4 4.1 调用 EM. 4 4.2 新建一个工程. 5 4.3 应用工作空间中的节点 5 5. 数据挖掘工作流程. 6 5.1 定义数据源 6 5.2 探索数据 8 5.2.1 设置 Insight 节点. 8 5.2.2 察看

2、Insight 节点输出结果 9 5.3 准备建模数据11 5.3.1 建立目标变量.11 5.3.2 设置目标变量 13 5.3.3 数据分割. 21 5.3.4 替换缺失值 . 22 5.4 建模. 23 5.4.1 回归模型. 23 5.4.2 决策树模型 . 25 5.5 评估模型 28 5.6 应用模型 30 5.6.1 抽取打分程序 30 5.6.2 引入原始数据源 31 5.6.3 查看结果. 32 6. 参考文献: 34 SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ 1. SAS 8.2

3、 Enterprise Miner 简介 数据挖掘就是对观测到的庞大数据集进行分析, 目的是发现未知的关系和以 数据拥有者可以理解并对其有价值的新颖方式来总结数据。1 一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功 建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从 数据抽样到分析和建模,最后公布结果信息。大部分专业统计数据分析软件只实 现特定的数据挖掘技术,而 SAS 8.2 Enterprise Miner 是一个集成的数据挖掘系 统, 允许使用和比较不同的技术, 同时还集成了复杂的数据库管理软件。 SAS 8.2 Enterprise Miner

4、把统计分析系统和图形用户界面 (GUI) 集成在一起, 并与 SAS 协会定义的数据挖掘方法SEMMA 方法, 即抽样 (Sample) 、 探索 (Explore) 、 修改(Modify)建模(Model) 、评价(Assess)紧密结合,对用户友好、直观、 灵活、适用方便,使对统计学无经验的用户也可以理解和使用。 Enterprise Miner 简称 EM,它的运行方式是通过在一个工作空间 (workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不 同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的 结果。 2. EM 工具具体使用说明

5、 EM 中工具分为七类: ? Sample 类 包含 Input Data Source、Sampling、Data Partition ? Explore 类 包含 Distribution Explorer、Multiplot、Insight、 Association、Variable Selection、Link Analysis (Exp.) ? Modify 类 包含 Data Set Attribute、Transform Variable、Filter Outliers、Replacement、Clustering、SOM/Kohonen、 Time Series(Exp.) ?

6、 Medel 类 包括 Regression、Tree、Neural Network、 Princomp/Dmneural、 User Defined Model、 Ensemble、 Memory-Based Reasoning、Two Stage Model ? Assess 类 包括 Assessment、Reporter SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ ? Scoring 类 包括 Score、C*Score ? Utility 类 包括 Group Processing、Data

7、 Mining Database、SAS Code、Control point、Subdiagram 每个节点的具体使用方法可以在 EM 打开界面,选择 SAS 主菜单中帮助子 菜单中的“EM 参考资料”选项,进一步查看各个节点的具体使用方法。 下面我们将以客户商品信息为例来建立如下的工作流程, 从而引导我们学会 使用 EM(Enterprise Miner) 。 3. 定义商业问题 假设有一家目录服务公司每个月都要向发出一份服饰用品和家用器皿的商 品目录。 为了更好的面对商品战, 公司打算发出一张主要宣传厨房用品 (dining) , 包括厨具(kitchenware) 、器皿(dishes

8、)和餐具(flatware)的目录。由于对 所有的客户发送目录的成本是公司无法承受的, 所以公司需要把目标锁定在那些 有购买倾向的客户。我们可以通过 EM 来建立一个倾向模型来完成这个任务,从 而得到一个邮寄对象列表。 要完成这个任务我们需要准备好关于客户购买产品记录的数据库表, 表中应 该包含近两年内客户是否购买了厨具(kitchenware) 、器皿(dishes)和餐具 (flatware)的数据,以及其他与客户购买倾向相关的变量。我们这里根据客户 购买的历史数据建立起来了数据集(数据库表)CUSTDET1,它包含了 49 个变 量。 SAS Enterprise Miner 4 数据挖

9、掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ 上表中的 Total Dining (kitch+dish+flat)变量是我们新建的变量, 它的值等 于Kitchen Product、 Dishes Purchase和Flatware Purchase三个变量的值的和, 这个变量可以用来预示客户购买厨房用品(dining)的倾向,同时也是建模的基 础。 当建立好这个数据集以后,相当于我们已经为我们的挖掘准备好了数据源, 接下来我们就可以在 EM 的工作空间(workspace)里建立我们的挖掘工作流程 (workflow)了。 4. 创建一个工程 4.1

10、 调用 EM 启动 SAS 系统后,有两种方式调用 EM,一种是通过菜单调用,一种是通 过在命令窗口输入命令调用。 ? 菜单方式 在 SAS 系统主菜单中选择“解决方案分析企业数据挖掘” SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ ? 命令方式 在 SAS 命令窗口输入 miner 后按回车。 4.2 新建一个工程 在 EM 窗口打开后,建立一个新数据挖掘工程的步骤如下: (1) 在 SAS 主菜单中选择“文件新建项目”,会出现建立新项目 的对话框, 在Create new project窗口中的Na

11、me域输入Dining List。 (2) 单击 Create 按钮后,Dining List 工程名将显示在 EM 窗口的左侧, 下面是默认的工作流的名称 Untitled,单击 Untitled 输入新的工作流 名称 Propensity,如下图所示,则一个名为 Propensity 的工作流程 就建立起来了。 4.3 应用工作空间中的节点 SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ EM 中的挖掘程序需要通过设置相应的节点的方式实现,节点是 EM 的一个 重要组成部分,在 EM 中的挖掘任务都是

12、通过拖拽、右单击、双击节点等操作实 现的。 在图 3 中单击左下方的 tools 标签,所有可以使用的带名称的节点分组列表 显示。 部分工具也可以通过 EM 窗口顶部的菜单栏来选择, 将鼠标在相应的节点上 停留 1-2 秒钟可以显示节点的名称。 5. 数据挖掘工作流程 EM 工作流程主要包括六个环节:定义数据源(Input Data Source)、探索 数据(Explore data)、为建模准备数据(Prepare data for modeling)、建立 模型 (Build model) 、评价模型 (Evaluate model) 和应用模型 (Apply model), 每个环节可

13、能由一个或多个节点来完成。 5.1 定义数据源 EM 定义数据源的工具是 Input Data Source 节点, 利用 Input Data Source 节点引入一个数据源的过程如下: (1) 在名为 Input Data Source 的节点上按住鼠标左键, 将其拖拽到 EM 窗 口右侧的空白工作区中释放,则工作区中会出现一个新的 Input Data Source 节点。双击该节点会出现 Input Data Source 窗口 SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ (2) 单击 se

14、lect 按钮,会出现 SAS Data Set 窗口,其中 SASUSER 为默 认数据集库。tables 下面是 SASUSER 库中所有可以选择的数据集, 这里我们选择 CUSTDET1 作为我们的数据源。 (3) 选择 CUSTDET1 后单击 OK 按钮可以返回到 Input Data Source 窗口 SAS Enterprise Miner 4 数据挖掘实例 SAS 中文论坛网站 http:/ SAS 中文论坛 FTP 站 ftp:/ 可以看到当选择完数据源以后,EM 会自动创建节点输出数据和元数据样 本。元数据样本的默认容量(size)是 2000,当数据源的记录小于 200

15、0 时,元 数据容量会等于数据源的大小。 如果需要改动元数据样本大小可以通过单击 change 按钮实现。 (4) 选择完数据源后关闭 Input Data Source 会弹出对话框, (5) 单击“是”按钮保存修改返回到 EM 工作区,EM 会自动将 Input Data Source 节点名称改为所选数据集的名称。 5.2 探索数据 数据源中的缺失值、边界值、不规则分布都可能会影响到挖掘得建模甚至歪 曲挖掘得结果。所以,清楚的了解数据源的内容和结构对于建立一个数据挖掘项 目来说是非常重要的。 5.2.1 设置 Insight 节点 EM 实现探索数据的步骤如下: (1) 将 Insight 节点拖拽到工作区中方在名为 SASUSER.CUSTDET1 的 Input Data Source 节点下方。 (2) 连接 Input Data Source 节点和 Insight 节点: A 单击空白工作区 B 将鼠标箭头移动到 Input Data Source 节点边缘,使鼠标箭头变 为十字形状 C 按住鼠标左键滑动到 Insight 节点后释放,单击空白工作 D 出现从 Input

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 规章制度

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号