应用sas_em进行数据挖掘讲义

上传人:今*** 文档编号:108105240 上传时间:2019-10-22 格式:PPT 页数:73 大小:2.04MB
返回 下载 相关 举报
应用sas_em进行数据挖掘讲义_第1页
第1页 / 共73页
应用sas_em进行数据挖掘讲义_第2页
第2页 / 共73页
应用sas_em进行数据挖掘讲义_第3页
第3页 / 共73页
应用sas_em进行数据挖掘讲义_第4页
第4页 / 共73页
应用sas_em进行数据挖掘讲义_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《应用sas_em进行数据挖掘讲义》由会员分享,可在线阅读,更多相关《应用sas_em进行数据挖掘讲义(73页珍藏版)》请在金锄头文库上搜索。

1、应用SAS/EM进行数据挖掘,2003-04-16 赛仕软件研究所(上海)有限公司,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具SAS/EM简介 Workshop,企业决策支持信息系统,OLTP,数据仓库,统计分析 数据挖掘,决策支持,企业知识,DW Solution,DM & Analysis Solution,Application for C/S & B/S,CBI Solution,OLAP,查询报表,什么是数据挖掘?,定义: 从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程 -Fayyad,Piatetsky-Sh

2、apiro 特征: 处理海量的数据; 揭示企业运作中的内在规律; 为企业运作提供直接决策分析,并为企业带来巨大经济效益。,数据 仓库,处理后 数据,Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press.,数据抽取,数据预处理,数据挖掘,数据变换,解释评价,数据挖掘全过程,数据挖掘涉及领域,数据挖掘算法(按有无目标变量),有监督算法 无监督算法 (有目标变量) (无目标变量)

3、传统回归 无 神经网络 决策树 逻辑/概率回归 决策树 聚类 神经网络 神经网络 判别分析 基于记忆的推理 决策树 主成分分析 聚类 关联/序列分析 连接分析 因子分析,预测,分类,探索,关联, 预测 用过去的数据预测 未来发生什么,预测未来 发生的可能性,历史数据,预测算法 - 神经元网络 - 决策树 - 回归, 描述 用过去的数据 描述 现在发生了什么,描述现在 已经发生的规律,历史数据,描述算法 - 聚类 - 关联,数据挖掘算法(按分析目的),回归算法:线性回归、逻辑回归、概率回归 统计方法:主成分分析、因子分析、判别分析等 关联算法:关联模式、序列模式、连接分析等 聚类算法:Clust

4、er、SOM/Kohonen 神经元网络:MLP、RBF 决策树:CHAID、CART、C4.5、C5.0,数据挖掘算法,使用一元二次项,使用简单线性, 预测型 回归 希望预测“绿点”在哪些情况下发生以及发生的概率,数据挖掘常用算法, 预测型 决策树 希望预测“绿点”在哪些情况下发生以及发生的概率,Quoted price Lower limit price (ratio),Time,0,0.2,0.4,0.6,0.8,9,10,11,13,15,数据挖掘常用算法,time method # of order ratio # of ordered items,数据挖掘常用算法, 预测型 神经元

5、网络 希望预测“绿点”在哪些情况下发生以及发生的概率,Combination A D A C C A B & C D,Support 2/5 2/5 2/5 1/5,Confidence 2/3 2/3 2/4 1/3,A,B,C,A,C,D,B,C,D,A,D,E,B,C,E, 描述型 关联 了解客户购买哪些产品组合,数据挖掘常用算法, 描述型 聚类 把具有相似行为的客户分到一群,Quoted amount Total amount,Quoted Price Average Price,数据挖掘常用算法,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 Workshop,SAS 数

6、据挖掘项目方法论,企业化经典统计数据分析工具 统计分析:STAT,LAB,INSIGHT 计量经济学与时间序列分析:ETS 运筹优化:OR 质量控制与质量提高:QC 矩阵编程语言:IML 图形与分析工具:GRAPH Thin Client: Enterprise Guide 数据挖掘工具:SAS/Enterprise Miner 傻瓜兼专家型,国际标准的全方位的 统计分析和数据挖掘工具,EM基本介绍,EM特色 EM界面 SEMMA方法论 节点简介 节点通用概貌,SAS/EM特色,支持广泛的平台包括各种UNIX,MVS,OS/390,Linux 可访问的数据源多达50多种,和数据库,数据仓库很好

7、的集成 Client/Server结构。 SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员 丰富的可视化数据探索节点,对数据进行细致分析 提供多种数据预处理和变换工具,包括变量自动选择等功能 提供丰富的数据挖掘模型和灵活的算法: 决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble) 提供模型评估模块和多种评估准则 提供完整的数据挖掘模型代码输出和打分(Scoring)功能 报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖

8、掘专家共享。,SAS/EM 界面,SAS数据挖掘过程方法论-SEMMA,节点简介:Sampling类节点,Input Data 确定数据源。 Sampling 提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。 Data Partition 将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。,节点简介: Explore类节点,Distribution Explorer 提供数据的多维分布图,以了解变量的趋势和特色 Multiplot 提供所有变量的分布图及对KOV的关系图 SAS/INSIGHT 提供交互式直观统计分析 Variable

9、 Selection 提供选择对KOV重要的KIVs的功能 Association 提供关联分析和序列分析 Link Analysis 提供连接关系分析,节点简介: Modify类节点,Data Set Attributes 设置或改变数据集与变量的属性 Filter Outliers 提供处理数据集中异常点、稀缺值的功能 Transform Variables 提供变量变换的功能 Data Replacement 数据集中数据的替换和校正,主要用于处理缺失数据 Cluster 提供多种方法的聚类分析(K-mean) SOM/Kohonen 自组织特征映射网络据进行分类,节点简介: Model

10、类节点,Regression 提供多元回归、 逻辑/概率回归及自动选择变量变量的功能 Decision Tree 决策树,支持CHAID, CART, ID3/ C4.5等算法 Neural Network 提供MLP、RBF等网络结构,及多种调整方法 User Defined Model 为SAS程序编制的模型提供统一的模型评价界面 Ensemble 提供模型整合的功能,如Combine, Stratified, Bagging&Boosting Two-Stage Model 两阶段模型 Memory Based Reasoning,节点简介: Assess类节点,Assessment 对

11、不同模型提供图形化比较:“哪一个模型最好?” Reporter 自动生成HTML格式报告,节点简介: Scoring类节点,Score 可输出SAS/BASE方式的预测代码 可用于对新的数据集进行预测 C*Score 可输出 C code的预测代码,节点简介: Utilities类节点,SAS Code 提供SAS程序接口。 Group Processing 提供分组处理的功能 Subdiagram 建立模型流程子表,方便管理 Control Point 控制流程执行,方便管理 Data Mining Database (DMDB) 建立DMDB(Meta Data),节点通用概貌,In/Ou

12、t Data Properties(选择,浏览) Data/Variables/Log/Output/Notes等Tab 修改节点后的自动保存 节点的下拉菜单,SAS/EM处理示例,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 Workshop,Workshop(信用风险建模),业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施,信用风险的业务问题,客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用 一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益 信用管理者要求提供对风险进行定

13、量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失,定义我们关注的高信用风险,申请信用时关注的风险 Profitable? 将来拖欠的可能性很大 客户使用过程中关注的风险 信用卡欺诈 客户拖欠偿还我提供的信用?多久才是高风险? 催收欠费过程中关注的风险 无法收回?,信用周期 - Applying,信用周期 - Behaviour,行为打分引擎(Beh Scoring Engine) 新的Strategy: Inc/Dec Limit X-selling,信用周期 - Collection,收集打分引擎 (Col Scoring Engine),Strategy,被移管的客户,9/

14、17,卖给债务代理公司,Write-off,部分偿还,全部偿还Recovery,损 失 !,催帐单 email 电话 ,Workshop(信用风险建模),业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施,定义所需数据,确定业务问题,找出您想预测的事物 历史数据必须包含您想预测的事物(目标变量) 其它的变量包括客户的属性,交易数据。 使用最新的数据 。,信用风险分析数据集市,. . .,. . .,. . .,. . .,. . .,. . .,. . .,. . .,. . .,. . .,.,.,.,.,.,.,.,., 哪些客户?,.,., 哪些属性?,. . .,目标变量, 哪些客户?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号