CH1第1讲数据挖掘技术引论

上传人:博****1 文档编号:590668616 上传时间:2024-09-15 格式:PPT 页数:34 大小:573.50KB
返回 下载 相关 举报
CH1第1讲数据挖掘技术引论_第1页
第1页 / 共34页
CH1第1讲数据挖掘技术引论_第2页
第2页 / 共34页
CH1第1讲数据挖掘技术引论_第3页
第3页 / 共34页
CH1第1讲数据挖掘技术引论_第4页
第4页 / 共34页
CH1第1讲数据挖掘技术引论_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《CH1第1讲数据挖掘技术引论》由会员分享,可在线阅读,更多相关《CH1第1讲数据挖掘技术引论(34页珍藏版)》请在金锄头文库上搜索。

1、大大 纲纲 数据挖掘的原由数据挖掘的原由 什么是数据挖掘什么是数据挖掘 SPSSSPSS公司公司CRISPCRISP(数据挖掘流程)数据挖掘流程)第一部分:数据挖掘的原由第一部分:数据挖掘的原由国民经济和社会的信息化 社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转因此政府提出因此政府提出“信息化信息化”和和“发展软件产业发展软件产业”.数据大与信息少的矛盾数据大与信息少的矛盾数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据爆炸,知识贫乏数据知识知识决策决

2、策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.POS.n人口统计人口统计n生命周期生命周期第二部分:什么是数据挖掘?第二部分:什么是数据挖掘?数据挖掘都干了些什么?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成

3、本比原来减少了3.8%数据挖掘都干了些什么?数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以通过数据挖

4、掘您可以留住那些最有价值的客户通过数据挖掘您可以通过数据挖掘您可以用更小的成本发现欺诈现象通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解的新颖方式来总结数据。什么是数据挖掘什么是数据挖掘数据挖掘与统计的不同特征数据挖掘与统计的不同特征它们的任务不一样它们的任务不一样 统计是具有结构化的决策任务统计是具有结构化的决策任务 数据挖掘是非结构化决策任务数据挖掘是非结构化决策任务它们对以前知识的依赖程度不一样它们对以前知识的依赖程度不一样 统计工作依赖以前的统计知识统计工

5、作依赖以前的统计知识 数据挖掘是创新性的工作数据挖掘是创新性的工作电信 :流失银行:聚类(细分), 交叉销售百货公司/超市:购物篮分析 (关联规则)保险:细分,交叉销售,流失(原因分析)信用卡: 欺诈探测,细分电子商务: 网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学: 医疗保健数据挖掘应用领域数据挖掘应用领域数据挖掘效益分析数据挖掘效益分析( (直邮)直邮)(Big Bank & Credit Card Company)目的:发现新客户目的:发现新客户数据挖掘以前数据挖掘以前数据挖掘以后数据挖掘以后差别差别发信的数量发信的数量1,000,000750,000(250,000)

6、成本成本$1,000,000$750,000($250,000)响应的数量响应的数量10,0009,000(1,000)每个响应的毛利每个响应的毛利$125$125$0总总毛利毛利$1,250,000$1,125,000($125,000)净净利润利润$250,000$375,000$125,000建模的费用建模的费用040,000$40,000最终的利润最终的利润$250,000$335,000$85,000“数据挖掘数据挖掘”的其它术语的其它术语知识发现知识发现 (knowledge discovery)数据库中知识挖掘(数据库中知识挖掘(knowledge mining from dat

7、abase)知识提取(知识提取(knowledge extraction)商业智能商业智能BI(Business Intelligence)数据数据/模式分析(模式分析(data/pattern analysis)数据考古(数据考古(data archaeology)数据捕捞(数据捕捞(data dredging)数据库中知识发现(数据库中知识发现(KDD,knowledge discovery in database)数据挖掘和数据挖掘和KDD关系关系不同文章作者对数据挖掘和不同文章作者对数据挖掘和KDD之间的之间的差异往往有不同的理解。差异往往有不同的理解。有人将数据挖掘等同于有人将数据挖

8、掘等同于KDD有人认为数据挖掘是有人认为数据挖掘是KDD过程中的一部过程中的一部分分商业、商务(商业、商务(business)的的具体含义具体含义商业等词的含义并不是仅指传统的零售业商业等词的含义并不是仅指传统的零售业和服务业,而是包含企业运作的各种业务和服务业,而是包含企业运作的各种业务(business)。)。什么是商业智能(什么是商业智能(BI)商业智能是在合适的时间向相应的用户提供正确商业智能是在合适的时间向相应的用户提供正确的信息,并转化为知识的应用。的信息,并转化为知识的应用。Business intelligence is not business as usual. Its a

9、bout making better decisions easier and making them more quickly. Business intelligence means using your data assets to make better business decisions. It is about access, analysis, and uncovering new opportunities.Source: IBM Business Intelligence Web Page数据挖掘和商业智能的关系数据挖掘和商业智能的关系商业智能,将数据挖掘技术等应用于商业智

10、能,将数据挖掘技术等应用于Business,但偏重于但偏重于OLAP。商业智能是数据挖掘技术的最主要的体现。商业智能是数据挖掘技术的最主要的体现。Much more than a combination of data and technology, BI helps you to create knowledge from a world of information. Get the right data, discover its power, and share the value, BI transforms information into knowledge. Business

11、Intelligence is the application of putting the right information into the hands of the right user at the right time to support the decision-making process. 商业智能的作用商业智能的作用商业决策中合理地组织数据将产生竞争优势商业决策中合理地组织数据将产生竞争优势最新的调查表明,企业中最新的调查表明,企业中93%的数据在商业的数据在商业决策处理中未用到。决策处理中未用到。数据库数据库数据的坟摹数据的坟摹商业智能帮助更快更好地决策商业智能帮助更快

12、更好地决策每每2-3年数据翻一倍年数据翻一倍数据挖掘的基础数据挖掘的基础数据挖掘是一个多学科交叉领域数据挖掘是一个多学科交叉领域数据库技术数据库技术人工智能人工智能机器学习机器学习神经网络神经网络统计学统计学模式识别模式识别知识库系统知识库系统知识获取知识获取信息提取信息提取高性能计算高性能计算数据可视化数据可视化第三部分:数据挖掘流程第三部分:数据挖掘流程CRISPCRISPDMDM简介简介 CRISPDM是是CRoss-Industry Standard ProcessData Mining的缩写的缩写 由由SPSS、NCR、Daimler-Benz在在1996年制定年制定 CRISP是是

13、当今数据挖掘业界通用流行的标准之一当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域在的问题,而不是把数据挖掘局限在研究领域CRISPCRISPDMDM 数据理解数据理解 选定数据选定数据 数据准备(转换)数据准备(转换) 建立模型建立模型 模型解释与评估模型解释与评估 模型发布模型发布数据理解(数据理解(Data Data Understanding)Understanding) 找问题确定商业目标找问题确定商业目标 对现有资源的评估对现有资源的评估 确定问题是否能够通过数据挖掘来解

14、决确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标确定数据挖掘的目标 制定数据挖掘计划制定数据挖掘计划数据理解数据理解( (Data Data Understanding)Understanding) 确定数据挖掘所需要的数据确定数据挖掘所需要的数据 对数据进行描述对数据进行描述 数据的初步探索数据的初步探索 检查数据的质量检查数据的质量数据准备数据准备( (Data Data Preparation)Preparation) 选择数据选择数据 清理数据清理数据(去除异常值等)去除异常值等) 对数据进行重建(维度归约等)对数据进行重建(维度归约等) 调整数据格式使之适合建模(是否需要标准

15、调整数据格式使之适合建模(是否需要标准化)化)建立模型(建立模型(Modeling)Modeling) 对各个模型进行评价对各个模型进行评价 选择数据挖掘模型(分类还是回归等)选择数据挖掘模型(分类还是回归等) 建立模型建立模型模型解释与评估模型解释与评估( (Evaluation)Evaluation) 评估数据挖掘的结果评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型挖掘过程进行进一步的调整,产生新的模型模型发布(模型发布(DeploymentDeployment) 把把数据挖掘模型的结果送到相应的管理人员数据挖掘模型的结果送到相应的管理人员手中手中 对模型进行日常的监测和维护对模型进行日常的监测和维护 定期更新数据挖掘模型定期更新数据挖掘模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号