SPSS培训_Clementine

上传人:jiups****uk12 文档编号:39139355 上传时间:2018-05-12 格式:PDF 页数:90 大小:3.43MB
返回 下载 相关 举报
SPSS培训_Clementine_第1页
第1页 / 共90页
SPSS培训_Clementine_第2页
第2页 / 共90页
SPSS培训_Clementine_第3页
第3页 / 共90页
SPSS培训_Clementine_第4页
第4页 / 共90页
SPSS培训_Clementine_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《SPSS培训_Clementine》由会员分享,可在线阅读,更多相关《SPSS培训_Clementine(90页珍藏版)》请在金锄头文库上搜索。

1、Clementine数据挖掘平台数据挖掘平台邵朱明邵朱明售前经理售前经理数据挖掘概念数据挖掘概念什么是数据挖掘什么是数据挖掘?数据挖掘是按既定业务目标业务目标,对大大 量的企业数据量的企业数据进行探索,揭示隐藏 其中的规律性规律性,并进一步将其模型模型 化化的先进、有效的方法。?业务目标业务目标?大量的企业数据大量的企业数据?规律性:有意义的业务模式或规则规律性:有意义的业务模式或规则?模型化模型化关联性分析关联性分析交叉销售交叉销售关联性分析关联性分析交叉销售交叉销售序列相关性序列相关性 Web路径优化等路径优化等1主页主页2电子商电子商 店店3结帐结帐聚类技术聚类技术 客户细分客户细分12

2、3预测与分类预测与分类 客户获取客户获取/收入预测等收入预测等教育程度教育程度非大学毕业非大学毕业大学毕业大学毕业收入收入高收入高收入低收入低收入异常监测异常监测异常点异常点Data Mining vs. BI & OLAP?DM vs. BI?DM: 学习历史,理解现 在,预测未来?BI : 过去和现在发生 了什么?DM vs. OLAP?DM?数据驱动 ?归纳 ?什么是正确的问题 ?OLAP?用户驱动 ?演绎推理?什么是问题的答案数据挖掘与传统商务智能的区别数据挖掘与传统商务智能的区别传统商务智能数据挖掘产品销售中通过邮件订购方式所占比率 是多少?未来使用邮件方式订购产品的客户 属性可能是

3、什么?有多少新产品销售给了已有客户?哪些已有的客户可能购买未来的新 产品?去年10佳客户是什么?哪10个客户可能给带来最大利润?上月保持客户数是多少?未来6个月哪些客户可能流失?哪些客户拖欠了贷款?这些客户信用风险怎么样?上季度各地区的销售量是多少?明年各地区的预计销售量是多少?互相补充,相辅相成互相补充,相辅相成数据挖掘方法数据挖掘方法数据挖掘方法论数据挖掘方法论?CRoss Industry Standard Process - for Data Mining?跨行业数据挖掘标准过程?循环递进的数据挖掘过程?商业知识的紧密结合?数据挖掘结果的部署Business Understanding

4、1商业目标的确认 数据挖掘目标的确定 数据挖掘成功的标准?商业理解过程商业理解过程?理解商业目标 ?熟悉业务流程 ?统一业务术语 ?成本/收益分析 ?当前系统评估 ?主要用户使用者 ?结果的输出形式 ?挖掘任务的结果和现有系统的集成 ?任务分解 ?挖掘目标分解为子任务 ?将商业目标转化为数据挖掘任务 ?约束条件确认 ?资源 ?数据保护制度等 ?制定项目计划Data Understanding2进行数据探索 数据质量检查 发现数据模式?数据理解过程数据理解过程?数据源情况?数据处理范围?数据源访问情况 ?数据描述?数据质量描述 ?基本统计值/汇总值计算方法?数据探索?数据取值?数据分布?属性相关

5、性分析 ?空值/缺失值处理?异常值处理Data Preparation3数据采集 数据评估 数据合并和清洗 数据选择 数据转换?数据准备过程数据准备过程 ?数据整合 ?多个数据表的数据联合 ?数据的汇总和聚合 ?数据选择 ?属性的选择和排除 ?数据集合构成:训练集,测试集,检验集 ?数据转换 ?函数转换 ?因子分析 ?主成分分析 ?标准化处理 ?离散化处理 ?数据清理 ?缺失值处理 ?噪声处理 ?数据派生 ?新属性的生成Modeling4依据目标选择模型 调整模型参数 构建模型训练环境?数据建模过程数据建模过程?选择合适的建模技术 ?数据预处理的情况 ?依赖与数据挖掘问题类型和输出形式 ?模型

6、建立?选择初始化参数设置 ?模型估计?考虑过训练的情况?误差分布的调查?模型参数修正及其原因Evaluation5依据测试集模型评估 不同模型的检验标准 技术标准和商业准则?模型评估过程模型评估过程?模型评估?根据专家的知识和经验进行人工评估?从商业角度来评价结果的有效性?定义参照对象 ?计算升益曲线(Lift Curve)?期望的投资回报率(ROI) ?对整个数据挖掘过程进行回顾 ?决定下一步骤?模型部署的时机?部署框架结构?进一步改进模型Deployment6结果的使用方式 数据挖掘结果的运用 数字到业务知识转化?部署过程部署过程 ?部署方式 ?模型的结果输出到数据库 ?结果转化为可解释的

7、业务规则 ?在线实时地模型打分过程 ?与现有业务系统的集成 ?模型运用的模式 ?实时处理 ?批处理 ?自动化问题Clementine功能与特点功能与特点Clementine?企业级数据挖掘平台?快速开发多种预测模型 ?紧密结合业务知识,行业经验 ?可视化数据挖掘工作流?方便快捷的部署方式 ?增强决策能力, 更高的ROI?全面支持数据挖掘方法论 ?CRISP-DM?开放的体系架构 充分利用已有的 设备投资Clementine的数据流的数据流简单方便的Clementine操作简单方便的Clementine操作?“节点”:数据及相应的操作?节点之间的连接代表了数据的流向?可视化数据挖掘工作流?简单的

8、拖、拉、拽的操作模式?工作流可执行?无代码编写的“可视化编程”数据访问,处理和可视化数据访问,处理和可视化?数据访问 ?数据库(ODBC),文件, Excel,SPSS,SAS?数据处理?数据选择?预处理,查询和清洗?数据转换?数据可视化?丰富的图表元素:分布图, 直方图,立方图.?数据探索提高对数据的理解?指导数据预处理?建模结果的展示丰富的数据挖掘模型丰富的数据挖掘模型聚类算法模型关联分析模型决策树模型其它模型回归模型Oracle DMIBM DB2 Intelligent MinerSQL SERVER 2005 Analysis Services在在Clementine中通过中通过CE

9、MI加入新的算法加入新的算法NodeNodeMeta DataInput DataOutput DataExternal Module开放的建模功能开放的建模功能Clementine 开放的体系架构开放的体系架构DB2 Oracle SQL Server Informix Sybase Teradata +ODBC or OLE DB drivers?In-Database Mining?企业已经投资搭建数据库基础平 台?数据库厂商提供了成熟的可扩展 的体系架构(如平行处理机制)?一些数据库甚至提供了自身的数 据挖掘算法?数据挖掘工具应尽可能的利用数 据库的自身性能?Clementine 三层

10、体系结构 ?Client, Server, Database?SQL Pushback?将数据操作和模型评分转化 为SQL语句?在数据库内部进行执行?In-database 建模和评分,充分 利用数据库产品提供的算法 ?SQL Server OLAP Services?IBM DB2 Intelligent Miner?Oracle Data MiningClementine部署方式Clementine部署方式部部署署方方式式批批处处理理 / / 实实时时部部署署对对象象范范围围Clementine Client实时处理模型建立,打分等Clementine Solution Publisher

11、主要面向实时处理数据流Cleo实时处理数据流Clementine Batch批处理模型建立,打分等PMML Models根据实际使用方式模型Clementine Solution PublisherClementine Solution Publisher?Solution Publisher?使用Publisher节点可以将任 何一个Clementine评分数据 流(可以包括数据预处理/ 数据后处理操作)创建为一 个独立的运行模块 ?部署的运行模块可以在 Clementine Runtime环境下 运行 ?调用方式 ?命令行(clemrun.exe):适 用于简单的应用?API调用(Clem

12、RTL):适合 于实时应用Clementine Solution Publisher 体系架构体系架构?Data mining 数据流存储于.pim 文件(生成) Publisher Publisher 图象文件图象文件图象文件图象文件 (. (.pimpim) ) 参数文件参数文件参数文件参数文件 (.par)(.par)( (读取读取读取读取) )应用系统应用系统应用系统应用系统 (Web, Call (Web, Call Centre)Centre)Clementine Clementine RuntimeRuntime( (调用调用调用调用) )Data( (读读读读) )( (写结果

13、写结果写结果写结果) )Web实时部署实时部署CLEO: Richmond 警察局警察局填入抢劫细节填入抢劫细节抢劫发展成暴力的可能性预测抢劫发展成暴力的可能性预测Clementine PMMLClementine PMML?单独的模型部署?模型导出格式:PMML (XML在数据挖掘领域的 应用格式)?凡是支持PMML格式的第三 方应用都可以进行二次开 发CATs成熟的数据挖掘解决方案CATs成熟的数据挖掘解决方案?按照CRISP-DM标准结构建立;?分析数据 ?数据流 ?商业分析 ?对商业问题分析的细节指导;?数据挖掘项目快速启动的引导?分析型商业内涵?范围广泛?电信、CRM、欺诈分析、基因

14、序列矩阵分析CATsCATs DiagramDiagramData mining process diagramExplorationPre-processingModellingDeployment软件环境软件环境?Clementine Server?Windows Server 2003 or 2000, or Windows 2000 Professional?Red Hat Enterprise Linux?Sun Solaris 9 or 10(C+ runtime libraries )?HP-UX 11i(C+ runtime libraries )?IBM AIX 5L, ve

15、rsion 5.2 or higher(Visual Age C+ runtime )?Clementine Client?WindowsClementine效率效率性能测试环境性能测试环境硬件环境硬件环境?2 x Intel Xeon 3.6GHz (hyperthreaded)?8GB RAM?36GB RAID 1 System disk, 440GB RAID 0 Data disk, 软件环境软件环境?Microsoft Windows Server 2003 Enterprise x64 SP1?Microsoft SQL Server 2000 SP4?Clementine 10

16、.0Clementine 性能性能-模型建立模型建立?5分钟内对一千六百万条数据建立Logistic回归模型?对于一般的合理数据集合50万条数据,能在2分钟内执 行完毕Clementine 性能性能-模型评分模型评分?8分钟给三千两百万条数据进行评分?评分结果写入数据库?稳定的处理速度:65,000条/秒Clementine服务器配置建议服务器配置建议- CPU&Disk用用户户个个数数CPU数数量量1-213-425-10411-20821+16?用户数量 vs. CPU ?Clementine能够很 好的发挥SMP和多 核CPU的并行处理 机制单位:单位:G列数列数行数(百万)行数(百万)101020205050100100500500100010001 10.512.5525502 212510501004 42410201002008 84820402004001616816408040080032321632801608001600646432641603201

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号