应用sas_em进行数据挖掘

上传人:aa****6 文档编号:53781223 上传时间:2018-09-05 格式:PPT 页数:76 大小:2.73MB
返回 下载 相关 举报
应用sas_em进行数据挖掘_第1页
第1页 / 共76页
应用sas_em进行数据挖掘_第2页
第2页 / 共76页
应用sas_em进行数据挖掘_第3页
第3页 / 共76页
应用sas_em进行数据挖掘_第4页
第4页 / 共76页
应用sas_em进行数据挖掘_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《应用sas_em进行数据挖掘》由会员分享,可在线阅读,更多相关《应用sas_em进行数据挖掘(76页珍藏版)》请在金锄头文库上搜索。

1、应用SAS/EM进行数据挖掘,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具SAS/EM简介 Workshop,企业决策支持信息系统,OLTP,数据仓库,统计分析 数据挖掘,决策支持,企业知识,DW Solution,DM & Analysis Solution,Application for C/S & B/S,CBI Solution,OLAP,查询报表,什么是数据挖掘?,定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro 特征: 处理海量的数据; 揭示企业运作中的内在

2、规律; 为企业运作提供直接决策分析,并为企业带来巨大经济效益。,数据 仓库,处理后 数据,Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press.,数据抽取,数据预处理,数据挖掘,数据变换,解释评价,数据挖掘全过程,数据挖掘涉及领域,数据挖掘算法(按有无目标变量),有监督算法 无监督算法 (有目标变量) (无目标变量)传统回归 无 神经网络 决策树逻辑/概率回归 决策树 聚类

3、神经网络 神经网络 判别分析 基于记忆的推理决策树 主成分分析聚类关联/序列分析连接分析因子分析,预测,分类,探索,关联, 预测用过去的数据预测 未来发生什么,预测未来 发生的可能性,历史数据,预测算法- 神经元网络 - 决策树- 回归, 描述 用过去的数据 描述 现在发生了什么,描述现在 已经发生的规律,历史数据,描述算法 - 聚类- 关联,数据挖掘算法(按分析目的),回归算法:线性回归、逻辑回归、概率回归 统计方法:主成分分析、因子分析、判别分析等 关联算法:关联模式、序列模式、连接分析等 聚类算法:Cluster、SOM/Kohonen 神经元网络:MLP、RBF 决策树:CHAID、C

4、ART、C4.5、C5.0,数据挖掘算法,使用一元二次项,使用简单线性, 预测型 回归希望预测“绿点”在哪些情况下发生以及发生的概率,数据挖掘常用算法, 预测型 决策树希望预测“绿点”在哪些情况下发生以及发生的概率,Quoted price Lower limit price (ratio),Time,0,0.2,0.4,0.6,0.8,9,10,11,13,15,数据挖掘常用算法,timemethod# of orderratio# of ordered items,数据挖掘常用算法, 预测型 神经元网络希望预测“绿点”在哪些情况下发生以及发生的概率,Combination A D A C

5、C A B & C D,Support 2/5 2/5 2/5 1/5,Confidence 2/3 2/3 2/4 1/3,A,B,C,A,C,D,B,C,D,A,D,E,B,C,E, 描述型 关联了解客户购买哪些产品组合,数据挖掘常用算法, 描述型 聚类把具有相似行为的客户分到一群,Quoted amount Total amount,Quoted Price Average Price,数据挖掘常用算法,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 Workshop,SAS 数据挖掘项目方法论,企业化经典统计数据分析工具 统计分析:STAT,LAB,INSIGHT 计量经济

6、学与时间序列分析:ETS 运筹优化:OR 质量控制与质量提高:QC 矩阵编程语言:IML 图形与分析工具:GRAPH Thin Client: Enterprise Guide 数据挖掘工具:SAS/Enterprise Miner 傻瓜兼专家型,国际标准的全方位的 统计分析和数据挖掘工具,SAS 数据分析方案的特点,Integration of Software Knowledge Methodology,EM基本介绍,EM特色 EM界面 SEMMA方法论 节点简介 节点通用概貌,SAS 研究所的业绩,1996、1997, 1998 年度获Datamation数据仓库“年度最佳产品” 199

7、8全球数据仓库年会给SAS颁发 “Excellence in Business Information”奖 1998 DM Reviewdata warehousing,第二名 1999 DM Reviewdata warehousing/BI,第一名 1997、 1998、 1999年SAS Enterprise Miner产品获Yphise “最佳数据挖掘软件”奖 1998、1999 KDD 竞赛中, SAS/EM产品获金奖 2000/5,The CRM Excellence Award, Technology Marketing Corp. (TMC).,数据挖掘行业应用,General

8、 Customer SegmentationRetention / AcquisitionDatabase marketingLifetime value of a customer Cross selling BankingCredit scoringCredit Card Fraud Detection Portfolio Analysis Cash Planning Insurance & Health CareClaim AnalysisFraudulent Behavior,TelecommunicationsCall Behaviour AnalysisChurn Manageme

9、ntFraud Detection Retail/MarketingMarket Basket AnalysisCategory ManagementCredit Scoring Manufacturing and UtilitiesProcess Management Demand PatternsCapacity PlanningInventory Planning,SAS/EM特色,支持广泛的平台包括各种UNIX,MVS,OS/390,Linux 可访问的数据源多达50多种,和数据库,数据仓库很好的集成 Client/Server结构。 SEMMA方法论引导,将数据挖掘功能模块组成处理流

10、程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员 丰富的可视化数据探索节点,对数据进行细致分析 提供多种数据预处理和变换工具,包括变量自动选择等功能 提供丰富的数据挖掘模型和灵活的算法: 决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble) 提供模型评估模块和多种评估准则 提供完整的数据挖掘模型代码输出和打分(Scoring)功能 报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。,SAS/EM 界面,SAS数据挖掘过程方法论-SEMMA,节点简介:Sampl

11、ing类节点,Input Data 确定数据源。Sampling 提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。Data Partition 将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。,节点简介: Explore类节点,Distribution Explorer 提供数据的多维分布图,以了解变量的趋势和特色 Multiplot 提供所有变量的分布图及对KOV的关系图SAS/INSIGHT 提供交互式直观统计分析Variable Selection 提供选择对KOV重要的KIVs的功能Association 提供关联分析和序列

12、分析 Link Analysis 提供连接关系分析,节点简介: Modify类节点,Data Set Attributes 设置或改变数据集与变量的属性 Filter Outliers 提供处理数据集中异常点、稀缺值的功能 Transform Variables 提供变量变换的功能 Data Replacement 数据集中数据的替换和校正,主要用于处理缺失数据 Cluster 提供多种方法的聚类分析(K-mean) SOM/Kohonen 自组织特征映射网络据进行分类,节点简介: Model类节点,Regression 提供多元回归、 逻辑/概率回归及自动选择变量变量的功能 Decision

13、 Tree 决策树,支持CHAID, CART, ID3/ C4.5等算法 Neural Network 提供MLP、RBF等网络结构,及多种调整方法 User Defined Model 为SAS程序编制的模型提供统一的模型评价界面 Ensemble 提供模型整合的功能,如Combine, Stratified, Bagging&Boosting Two-Stage Model 两阶段模型 Memory Based Reasoning,节点简介: Assess类节点,Assessment 对不同模型提供图形化比较:“哪一个模型最好?”Reporter 自动生成HTML格式报告,节点简介: S

14、coring类节点,Score 可输出SAS/BASE方式的预测代码 可用于对新的数据集进行预测C*Score 可输出 C code的预测代码,节点简介: Utilities类节点,SAS Code 提供SAS程序接口。Group Processing 提供分组处理的功能Subdiagram 建立模型流程子表,方便管理Control Point 控制流程执行,方便管理Data Mining Database (DMDB) 建立DMDB(Meta Data),节点通用概貌,In/Out Data Properties(选择,浏览) Data/Variables/Log/Output/Notes等Tab 修改节点后的自动保存 节点的下拉菜单,SAS/EM处理示例,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号