【精品文档】数据挖掘与Clementine使用培训(深圳电信)

上传人:jiups****uk12 文档编号:45558801 上传时间:2018-06-17 格式:PPT 页数:306 大小:5.65MB
返回 下载 相关 举报
【精品文档】数据挖掘与Clementine使用培训(深圳电信)_第1页
第1页 / 共306页
【精品文档】数据挖掘与Clementine使用培训(深圳电信)_第2页
第2页 / 共306页
【精品文档】数据挖掘与Clementine使用培训(深圳电信)_第3页
第3页 / 共306页
【精品文档】数据挖掘与Clementine使用培训(深圳电信)_第4页
第4页 / 共306页
【精品文档】数据挖掘与Clementine使用培训(深圳电信)_第5页
第5页 / 共306页
点击查看更多>>
资源描述

《【精品文档】数据挖掘与Clementine使用培训(深圳电信)》由会员分享,可在线阅读,更多相关《【精品文档】数据挖掘与Clementine使用培训(深圳电信)(306页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与Clementine 使用培训北京瑞斯泰得数据技术开发有限公司 *Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一、数据挖掘概述 什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DMBeijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385为什么进行

2、数据挖掘? 商业观点 业务中产生了大量的数据,这些数据存储 在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强 大 商业竞争越来越激烈,对客户了解越多就 意味着机会越大Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385为什么进行数据挖掘? 技术观点 业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据

3、中发现有价值的规律The Data Gap Total new disk (TB) since 1995Number of analystsFrom: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个市场营销的例子在数据中发现有价值的规则或者模式女

4、性对市场活动做出 回应,男性对市场活 动不做出回应,和年 龄无关Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个市场营销的例子数据变的复杂会如何?女性对市场活动做出回应, 老年男性也可能对市场活动 做出回应Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个市场营销的

5、例子数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发 现回应的5条规 则: 1、如果收入大 于29622,有孩 子,并且孩子的 数量小于等于2 ,那么对市场活 动会回应 通过数据挖掘发 现不回应的5条 规则: 1、如果收入小 于12640.3,并 且有一个孩子, 那么对市场活动 不会回应 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义Beijing Stats

6、 Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385利润分析图Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009

7、,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户(使响应率从1%提高到1.2%)Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385什么是数据挖掘? 不同的定义 从大量数据中发现非平凡的、先前不知道的、

8、有价值的规律的 过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过 程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的起源 来源于机器学习/人工智能、模式识别、统 计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想机器学习/ 模式识别统计学数

9、据挖掘数据库系统Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘面临的挑战 海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘方法论项目顺利实 施的保证 商业理解 数据理解 数据准备 建

10、立模型 模型评估 模型发布Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385商业理解商业 理解数据理解数据 准备建立 模型模型 评估结果 发布确定商业 目标形势评估确定数据 挖掘目标制定项目 计划背景商业目标成功标准拥有资源需求、假定 和限制风险和 偶然性专业 术语成本和 收益数据挖掘 目标数据挖掘 成功标准项目计划工具和方法 评估Beijing Stats Data Mining Co. Ltd. Beijing (8610)517

11、22052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据理解商业 理解数据理解数据 准备建立 模型模型 评估结果 发布收集原始 数据数据描述数据探索 性分析数据质量 描述数据收集 报告数据描述 报告探索性数据 分析报告数据质量 报告Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据准备商业 理解数据理解数据 准备建立 模型模型 评估结果 发布选择数据确定分析包含/剔除数据数据

12、集数据集 描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385建立模型商业 理解数据理解数据 准备建立 模型模型 评估结果 发布选择建模 技术产生检验 设计建立模型评价模型模型 技术模型假设检验设计参数设定建模模型评价参数设定 的修订模型描述Beijing Stats Data Mining Co. Ltd. Beijin

13、g (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385模型评估商业 理解数据理解数据 准备建立 模型模型 评估结果 发布结果评估数据挖掘 过程回顾确定下一 步的工作评估数据 挖掘结果被认可的模型数据挖掘过程 的回顾列出可能 的行动决策Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385结果发布商业 理解数据理解数据 准备建立 模型模型 评估结果 发布发布结果 计

14、划监测和维护 模型计划生成最终数据 挖掘报告项目回顾结果发布计划监测和维护 模型计划最终数据 挖掘报告数据挖掘 报告展现项目检验 总结Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385商业理解是数据挖掘的起点C2C1解决方案商业价值商业需要Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385商业理解的内容 数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应 的行动以提高利润或降低成本? 我们期望模型能够给我们怎样的精确率? 有那些前提假定?Beijing Sta

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号