《第九讲数据挖掘与决策支持》由会员分享,可在线阅读,更多相关《第九讲数据挖掘与决策支持(50页珍藏版)》请在金锄头文库上搜索。
1、数据挖掘数据挖掘华师大华师大MBAMBA资料资料20102010王仁武王仁武1 1、什么是数据挖掘?、什么是数据挖掘?数据挖掘的出现数据挖掘的出现数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据挖掘的出现数据挖掘的出现数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.
2、POS.n人口统计人口统计n生命周期生命周期 更大更大,更便宜的存储器更便宜的存储器 - 磁盘密度以磁盘密度以Moores law增长增长 “每次每次18个月增长一倍个月增长一倍” - 存储器价格飞快下降存储器价格飞快下降 更快更快,更便宜的信息处理器更便宜的信息处理器 - 分析更多的数据分析更多的数据 - 适应更多复杂的模型适应更多复杂的模型 - 引起更多查询技术引起更多查询技术 - 激起更强的可视化技术激起更强的可视化技术什么是数据挖掘?什么是数据挖掘?数据挖掘的定义SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用
3、模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 知识发现过程定义: 半自动或自动地从海
4、量数据中发现模式, 相关性,变化, 反常规律性, 统计上的重要结构和事件.是统计学、数据库技术和人工智能技术的综合。 特点:半自动或自动 提取 预测 大数据库什么是数据挖掘什么是数据挖掘 统计学统计学 机器学习机器学习 数据库数据库 高效率的计算高效率的计算 Gauss, Fisher,和和 - 最小二乘法,最大似然法最小二乘法,最大似然法 - 一些基本原理的发展一些基本原理的发展 数学时代数学时代 - 1950s :Neyman等数学家独领风骚等数学家独领风骚 计算时代计算时代 - 自从自从1960s平稳增长平稳增长 - 1970s:EDA,Bayesian estimation, flex
5、ible models, EM,etc - 逐渐意识到计算机在数据分析中的逐渐意识到计算机在数据分析中的 能力和作用能力和作用 模式识别和人工智能模式识别和人工智能(AI) - 集中于感官问题集中于感官问题,如如: 语言识别语言识别,图像识别图像识别 - 1960s: 统计方法与非统计方法的分流统计方法与非统计方法的分流 - 应用统计学与工程学的交叉应用统计学与工程学的交叉 如如: 统计图像分析统计图像分析 机器学习和神经网络机器学习和神经网络 - 1980s 非统计学习方法的失败非统计学习方法的失败 - flexible models的出现的出现,如如: 树树,网络网络 - 应用统计学与学习
6、方法的交叉应用统计学与学习方法的交叉 直接演化的结果直接演化的结果: - AI和机器学习和机器学习 * 1989 KDD工作组工作组2000 ACM SIGKDD工作组工作组 *集中于自动发现集中于自动发现 - 数据库研究数据库研究 * 大型数据组大型数据组 * SIGMMODassociation rules,scalable algorithms - 数据管理者数据管理者 * 如何处理数据如何处理数据 * 面向客户面向客户 * 工业占主导的工业占主导的,面向应用面向应用 前者前者: 发现驱动发现驱动 (数据驱动数据驱动) 数据数据研究研究后者后者: 假设驱动假设驱动 (人为驱动人为驱动)
7、研究研究数据数据 3 3、数据挖掘都干了些什么?、数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易,进行深入
8、调查,节约了大量的调查成本数据挖掘都干了些什么?数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以通过数据挖掘您可以用更小的成本发现欺诈现象电信 :流失银行:聚类(细分), 交叉销售百货公司/超市:购物篮分析 (关联规则)保险:细分,交叉销售,流失(原因分析)信用卡: 欺诈探测,细分电子商务: 网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行
9、为分析医学: 医疗保健数据挖掘应用领域数据挖掘应用领域数据挖掘效益分析数据挖掘效益分析( (直邮)直邮)(Big Bank & Credit Card Company)目的:发现新客户目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$2
10、50,000$335,000$85,0004、数据挖掘技术数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分
11、析或OLAP方法,另外还有面向属性的归纳方法。 4.1 决策树应用 决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树建立决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。然后根据记
12、录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。决策树图4.2 聚类分析应用聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质
13、的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。案例:对某城市年龄范围为25岁55岁的中青年人群进行健康调查。调查数据项包括年龄、血脂、血糖、冠心病、性别等项。4.3 关联规则应用 5、数据挖掘功能预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 数据挖掘功能关联分析数据关联是数据库中存
14、在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些
15、来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。 数据挖掘功能概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决
16、策树方法、遗传算法等。 数据挖掘功能偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。 6、数据挖掘环境与流程数据挖掘的流程 数据挖掘的流程确定业务对象数据准备数据挖掘结果分析和知识同化7、数据挖掘中存在的问题数据挖掘的基本问
17、题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。数据挖掘涉
18、及到数据也就碰到了数据的私有性和安全性。数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。数据挖掘中存在的问题8、数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘
19、语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining;加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉
20、及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。交互式发现和知识的维护更新。 小测试传统数据分析工具数据挖掘工具工具特点回顾型的、验证型的预测型的、发现型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发预测未来的情况、解释发生的原因生的原因分析目的从最近的销售文件中列出最大客户锁定未来的可能客户,以锁定未来的可能客户,以减少未来的销售成本减少未来的销售成本数据集大小数据维、维中属性数、维中数据均是少量的数据维、维中属性数、维数据维、维中属性数、维中数据均是庞大的中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动,少量的数据与系统启动,少量的人员指导人员指导技术状况成熟统计分析工具已成熟,其统计分析工具已成熟,其他工具正在发展中他工具正在发展中