数据挖掘与clementine使用培训(电信

上传人:j7****6 文档编号:61641436 上传时间:2018-12-08 格式:PPT 页数:306 大小:5.57MB
返回 下载 相关 举报
数据挖掘与clementine使用培训(电信_第1页
第1页 / 共306页
数据挖掘与clementine使用培训(电信_第2页
第2页 / 共306页
数据挖掘与clementine使用培训(电信_第3页
第3页 / 共306页
数据挖掘与clementine使用培训(电信_第4页
第4页 / 共306页
数据挖掘与clementine使用培训(电信_第5页
第5页 / 共306页
点击查看更多>>
资源描述

《数据挖掘与clementine使用培训(电信》由会员分享,可在线阅读,更多相关《数据挖掘与clementine使用培训(电信(306页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与Clementine使用培训,北京瑞斯泰得数据技术开发有限公司 2018/12/8,,1,一、数据挖掘概述,什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DM,,2,为什么进行数据挖掘? 商业观点,业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大,,3,为什么进行数据挖掘? 技术观点,业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中

2、发现有价值的规律,,4,一个市场营销的例子,在数据中发现有价值的规则或者模式,女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关,,5,一个市场营销的例子,数据变的复杂会如何?,女性对市场活动做出回应,老年男性也可能对市场活动做出回应,,6,一个市场营销的例子,数据挖掘可以从异常复杂的数据中发现规律,通过数据挖掘发现回应的5条规则: 1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应 ,通过数据挖掘发现不回应的5条规则: 1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应 ,,7,数据挖掘收益分析,,8,利润分析图,,9,数据挖掘效

3、果模拟分析,目的:发现新客户(使响应率从1%提高到1.2%),,10,什么是数据挖掘?,不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 ,,11,数据挖掘的起源,来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想,,12,数据挖掘面临的挑战,海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐

4、私问题,,13,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,,14,商业理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,确定商业 目标,形势评估,确定数据 挖掘目标,制定项目 计划,背景,商业目标,成功标准,拥有资源,需求、假定 和限制,风险和 偶然性,专业 术语,成本和 收益,数据挖掘 目标,数据挖掘 成功标准,项目计划,工具和方法 评估,,15,数据理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,收集原始 数据,数据描述,数据探索 性分析,数据质量 描述,数据收集 报告,数据描述

5、报告,探索性数据 分析报告,数据质量 报告,,16,数据准备,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择数据,确定分析包含/剔除数据,数据集,数据集 描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,,17,建立模型,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择建模 技术,产生检验 设计,建立模型,评价模型,模型 技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定 的修订,模型描述,,18,模型评估,商业 理解,数据 理解,数据 准备

6、,建立 模型,模型 评估,结果 发布,结果评估,数据挖掘 过程回顾,确定下一 步的工作,评估数据 挖掘结果,被认可的模型,数据挖掘过程 的回顾,列出可能 的行动,决策,,19,结果发布,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,发布结果 计划,监测和维护 模型计划,生成最终数据 挖掘报告,项目回顾,结果发布计划,监测和维护 模型计划,最终数据 挖掘报告,数据挖掘 报告展现,项目检验 总结,,20,商业理解是数据挖掘的起点,解决方案,商业需要,,21,商业理解的内容,数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?

7、我们期望模型能够给我们怎样的精确率? 有那些前提假定?,,22,约束分析,时间约束分析 资源约束分析 人力资源 数据资源 软件资源 硬件资源,,23,制定特定的数据挖掘目标,制定的数据挖掘目标应具有: 可评估性(assessable) 可实现性(attainable),,24,如何给定一个数据挖掘问题,是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响,,25,数据来源与数据之间的关系,,26,使数据适合数据挖掘,对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据

8、源得到的不同格式的数据整合成这样一张表,要求: 所有的记录含有排列顺序一致的变量 所有记录的变量信息是完整的(理想化状态,在现实中很难达到),,27,检查数据质量,影响数据质量的几个主要问题 缺失值 不合理值 不同数据源的不一致 异常值,,28,对数据进行适当的变换,数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度,,29,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(

9、Prediction) 相关分析(Dependency analysis),,30,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,,31,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,,32,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),输 入,流失概率 (0.87),输 出,男,29,3000元/月,套

10、餐A,130元/月,,33,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),,34,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),,35,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),,36,检验的形式,方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验: 商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验,,37,关注那些错误的预测,,38,数据挖掘不成功的几种可能性,糟糕的数据 组织

11、抵制 结果没有被有效的发布 得到了无用的结果,,39,模型发布的形式,书面报告 数据库更新 针对特定主题的应用系统,,40,数据挖掘的体系结构,,41,问题&讨论,,42,二、Clementine概述,Clementine在数据挖掘中的地位 Clementine发展历史 Clementine的配置 Clementine操作基础,,43,数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位,,44,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,,45,Clementine发展历程,Clementine是ISL (Integral Solution

12、s Limited)公司开发的数据挖掘工具平台 1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点,,46,Clementine的软件构成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,,47,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器

13、不联网; 无Clementine Server可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器配置高。,www.broadta

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号