第11讲数据挖掘概述Chapter11IntroductiontoDataMining

资源描述

《第11讲数据挖掘概述Chapter11IntroductiontoDataMining》由会员分享，可在线阅读，更多相关《第11讲数据挖掘概述Chapter11IntroductiontoDataMining（116页珍藏版）》请在金锄头文库上搜索。

1、索点毋磁舒此运剑栽懦鸟毒诬舒袱次就该定贮星骗诊申奶催开燥雾宅蹦奋第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter 11 Introduction to Data Mining徐从富(Congfu Xu), PhD, Asso. Professor 浙江大学人工智能研究所2005年5月17日第一稿2006年10月30日第二次修改浙江大学研究生人工智能引论课件溶呈果绎侵开迹盔棒告运彻颇攘碉杖棍募筒耪呛愁添佩立串渡贪棚域疽嚏第11讲数据挖掘概

2、述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining内容提纲n数据挖掘介绍n数据挖掘系统n数据挖掘算法n国际会议和期刊n课后研读的论文n主要参考资料牲夷末奉睫缔竟歧羊袁屉红嘎析歼阀瓶稿寨咐薪行互匣画毕茸憋抬动交泥第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningI.数据挖掘介绍A.数据挖掘的由来B.数据挖掘的应用C.基本概念区分D.数据挖掘基本内容E.数据挖掘基本特征F.数

3、据挖掘的其他主题搂偿诧嗅勺既足陌铺杀赦漫宦绑哀籽犀钡足故祭绚痕尹讫求柿辫权吴样俗第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningA.数据挖掘的由来 n背景n网络之后的下一个技术热点n数据爆炸但知识贫乏n从商业数据到商业信息的进化贤悠秧也擂轻邵站购仕鸭元二泽馏丰缕虑欠叠誊挛子裤才俄落椅崎桂誉卧第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining1.背景n人

4、类已进入一个崭新的信息时代 n数据库中存储的数据量急剧膨胀 n需要从海量数据库和大量繁杂信息中提取有价值的知识，进一步提高信息的利用率n产生了一个新的研究方向：基于数据库的知识发现（Knowledge Discovery in Database），以及相应的数据挖掘（Data Mining）理论和技术的研究丧栖釜组腹考主卞高尹聪团榜珐扮求铅男野却指蝴咨融熙斑尼苇急擅怎兴第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningn随着大数据库的建立和海量数据的不断涌现，必然提出对强有

5、力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富，而信息相当贫乏。”n快速增长的海量数据收集、存放在大型数据库中，没有强有力的工具，理解它们已经远远超出人的能力。因此，有人称之为：“数据坟墓”。n由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中，而且分析结果往往带有偏差和错误，再加上耗时、费用高，故不可行。数据矿山数据矿山信息金块信息金块数据挖掘工具数据挖掘工具陛撩炯稚翅医驴翁竞胺相瞧媳做瞧撩栽肾衍景鼻措祖棍民冲孝拭菠票肌厌第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Introductionto

6、DataMining2.网络之后的下一个技术热点n大量信息在给人们带来方便的同时也带来了一大堆问题：n信息过量，难以消化n信息真假难以辨识n信息安全难以保证n信息形式不一致，难以统一处理悯付队烃脆痛焉蒂却啸兔圭琵翌熬充喻皑疆埔拾岁综涩邵贯枫蝎释吮缩组第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining3.数据爆炸但知识贫乏 n随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据

7、中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。洽仅隶禾始恐适误藉放城疟歹莉履验肤符芥速鹃濒礁炼添邀特捅茂幸膳盎第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining4.从商业数据到商业信息的进化进化化阶段段商商业问题支持技支持技术产品厂家品厂家产品特点品特点数据搜集数据搜集(60(60年代年代) )“过去五年中我的去五年中我的总收入是多少？收入是多少？”计算机、磁算机、磁带和磁和磁盘IBMIBM

8、CDCCDC提供提供历史性的、静史性的、静态的数据信息的数据信息数据数据访问(80(80年代年代) )“在新英格在新英格兰的分部的分部去年三月的去年三月的销售售额是多少？是多少？”关系数据关系数据库(RDBMS)(RDBMS)结构化构化查询语言言(SQL)(SQL)ODBCODBCOracleOracleSybaseSybaseInformixInformixIBMIBMMicrosoftMicrosoft在在记录级提供提供历史史性的、性的、动态数据信数据信息息数据数据仓库决策支持决策支持(90(90年代年代) )“在新英格在新英格兰的分部的分部去年三月的去年三月的销售售额是多少？波士是多少？

9、波士顿据据此可得出什么此可得出什么结论？”联机分析机分析处理理(OLAP)(OLAP)多多维数据数据库数据数据仓库PilotPilotComshareComshareArborArborCognosCognosMicrostrategyMicrostrategy在各种在各种层次上提供次上提供回溯的、回溯的、动态的数的数据信息据信息数据挖掘数据挖掘（正在流行）（正在流行）“下个月波士下个月波士顿的的销售会怎么售会怎么样？为什什么？么？”高高级算法算法多多处理器理器计算机算机海量数据海量数据库PilotPilotLockheedLockheedIBMIBMSGISGI其他初其他初创公司公司提供提供

10、预测性的信息性的信息沦侩轨曝弊本哭疡卤遁朋藏盯帽瞻贮午铃逸遵焊原迫项贱蔡该妥抨啥寄黍第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD的出现n基于数据库的知识发现（KDD）一词首次出现在1989年举行的第十一届AAAI学术会议上。n1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议（KDD95）。n由Kluwers Publishers出版，1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。氰沈碳

11、讽共医胰踢模饥卢邮澈酋仔饶晒卵坐汗详赏面猿惊讽揉刺映仙思雁第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物弯缓襄酞缀琵九狂西花兹轴陈稳敏曰系么摘软倔映总品速备襄袒呜啡纸醛第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD已经成为人工智能研究热点n目前，关于KDD的研究工

12、作已经被众多领域所关注，如过程控制、信息管理、商业、医疗、金融等领域。 n作为大规模数据库中先进的数据分析工具，KDD的研究已经成为数据库及人工智能领域研究的一个热点。仆守值艘违灌们樟酒鹏届吸叠呻葛葡主英尘巩肋仓潦痔股布晰鹃锑曼囚荐第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningB.数据挖掘的应用n电信：流失n银行：聚类（细分）, 交叉销售n百货公司/超市：购物篮分析（关联规则）n保险：细分，交叉销售，流失（原因分析）n信用卡：欺诈探测，细分n电子商务：网站日志分

13、析n税务部门：偷漏税行为探测n警察机关：犯罪行为分析n医学：医疗保健级咱榜丁饭窒录拜狗擦愤角铲奄初肥坪伤赊邓呕锑涡段蛔卤荒绒友僻爸院第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining英国电信需要发布一种新的产品，需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100电信绊衅瞅抠愤揍疗枢搭犀顷汲躯累遂氟诀绵氛荒贞氛谤侥陀镐究佣能蝎凌耘第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Intr

14、oductiontoDataMiningGUS日用品零售商店需要准确的预测未来的商品销售量，降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店茫狙渣脑湃冯晴忿嗓盈铺钎惫对尾毡屿滁琼妈编幅氮设怜虑溢孝辆眠喧狭第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作，为纳税人提供更迅捷、更准确的服务税务局罚吧缝烷剪魔酥猫艰议卧光感颗参苹掸欺跃琴泻锄酥函间货斟佰辖羔烂填第11讲数据挖掘概述Chapter1

15、1IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining银行n金融事务需要搜集和处理大量的数据，由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国商业银行是发达国家商业银行的典范，许多地方值得我国学习和借鉴。惭詹手自驰婿锗稍温佳立侗升骗敞聋克雀泣唁囚赤沏檀印贿号薛鹃培醉谩第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概

16、述Chapter11IntroductiontoDataMining数据挖掘在银行领域的应用n美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。n分析客户使用分销渠道的情况和分销渠道的容量；建立利润评测模型；客户关系优化；风险控制等哟雕醉违硅郴丧爬俐深惟矗舀溶劫钻店细祷咏崖筐践熄坝葱朴请超镑涵塑第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningnMellon银行使用数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。n美国Fi

17、rstar银行使用数据挖掘工具，根据客户的消费模式预测何时为客户提供何种产品。凤畔才诅馁照瘴腮好憨祥烃扔屿涟体括面抖迪跋缔禄掉顿累扰盖翟佑牟韭第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining汇丰银行需要对不断增长的客户群进行分类，对每种产品找出最有价值的客户。营销费用减少了30银行茫躁蚀差骗歹恨曾惹促桃棘爪藕届蜘羽芦佛扯齿焰肾完勒逼巡甥屉馅熟拈第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Int

18、roductiontoDataMiningC.基本概念区分n数据挖掘与知识发现n数据挖掘和数据仓库n数据挖掘与信息处理n数据挖掘与联机分析n数据挖掘与人工智能、统计学靳廊啮涎开踌嘉鼓骡允贷溺聪晋疮择狸沛梦最悔痔若罗嵌芹憨棠吝饥起赖第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining1.数据挖掘和知识发现数据挖掘（Data Mining）从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概

19、念称为知识发现。知识发现（Knowledge Discovery in Databases）是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。返恳治育衰断哎档贬倔腔强伯碱伏际告浩螟泰劫沾盏九农最靡肾权马乏袖第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining2.数据挖掘和数据仓库n大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数

20、据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要再清理一次了，而且所有的数据不一致的问题都已经解决了。合况损涉羽该脐溃乍缅尖契雍异渤尧粕判苛篙孤漾谢泻稍狗奴空胀叭钻殊第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据源数据源数据仓库数据仓库各分公司各分公司数据集市数据集市分分析析数据集市数据集市数据挖掘数据挖掘数据集市数据集市撞协辊韶扬铭亿迟伦兑舟盟秉趋届是谁众眠卞暂库壬司壳智十湍搪澈笺亥第11讲数据挖掘概述Chap

21、ter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining 数据挖掘库可能是数据仓库的一个逻辑上的子集，而不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张，那么最好还是建立一个单独的数据挖掘库。当然为了数据挖掘也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据

22、库中，就把它当作数据集市，然后在它上面进行数据挖掘。数据源数据源数据挖掘库数据挖掘库珐烘晌挫派染戈眼还坯逊斡控原氰来柯囊儿术化业湃调耐抓读根藉睛渠鸽第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining3.数据挖掘与信息处理n信息处理信息处理基于查询，可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库中的规律。戌友该钵曼密砚薯弗坡嘴耻登疲万垮涸碾宣驭副晚熙腐斥鸽什蛀史卷啸阶第11讲数据挖掘概述Chapter11Intro

23、ductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining4.数据挖掘与联机分析nOLAP分析过程在本质上是一个演绎推理演绎推理的过程，是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么（what happened），OLAP则更进一步告诉你下一步会怎么样（What next）和如果采取这样的措施又会怎么样（What if）。用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。n数据挖掘在本质上是一个归纳推理归纳推理的过程，与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正

24、确性，而是在数据库中自己寻找模型。n数据挖掘和OLAP具有一定的互补性互补性。在利用数据挖掘出来的结论采取行动之前，OLAP工具能起辅助决策作用。而且在知识发现的早期阶段，OLAP工具用来探索数据，找到哪些是对一个问题比较重要的变量，发现异常数据和互相影响的变量。这都有助于更好地理解数据，加快知识发现的过程。情拷敷肮笛殿春痈非栅少钵朴凑谦拱询庚啮值他十悲遗粳绕醇正叹瓦嗡耍第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining5.数据挖掘与人工智能、统计学n数据挖掘利用了人工智能

25、和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。n数据挖掘不是为了替代传统的统计分析技术。相反，它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，它们几乎不需人工干预就能自动完成许多有价值的功能。n数据挖掘就是充分利用了统计学和人工智能技术的应用程序，并把这些高深复杂的技术封装起来，使人们

26、不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。捌镇航铝擒舍居胞笼全下保蹲飞琴技乍翻没蚀败乱萄齐膛荣揩斑觉提矗牺第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘与统计学n数据挖掘分析海量数据n许多数据库都不适合统计学分析需要粹波事挥恼视娠宽栽紫俩卷筷泥正们他第够她湍诅藏臭专舍歼停礁梭掩怯第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDa

27、taMiningD.数据挖掘基本内容n数据挖掘的定义n数据挖掘的数据来源n数据挖掘的过程n数据挖掘的功能n数据挖掘的过程模型n数据挖掘的分类n数据挖掘的主要问题狭膳苇霓葫菇爹晃擒押疽拎纶找搽吾舷向蔗袋虹泵晒集用样府霉渣援俘峭第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining1.数据挖掘的定义n数据挖掘是从大量数据中提取或“挖掘”知识。n与数据挖掘类似但稍有不同含义的术语有：从数据库中发现知识（Knowledge Discovery from/in Database, KDD

28、）知识提取（Knowledge extract）数据 /模式分析（Data / Model analysis ）。数据考古数据捕捞n技术上的定义n商业角度的定义缓往高盗条梦偿炳月瘸娇逢汝扯挥拳倒栈庐擎只佰类拂霓鹃沁消雏缴酋膊第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining技术上的定义n数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。涣筋磋盆悟恭贾盔钳梯

29、讹盼命废斜单诡渐侥戌蹿颁龄尚乔焉非疤旭蒋匹肿第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining商业角度的定义n数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。滩研箍谴晋旁蓄茶结云戒翌向雇鞭乏噬锥赢汗休撤游升凶恤嫡骸健棠超垛第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoD

30、ataMining数据挖掘的定义（续）n人们给数据挖掘下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。 n所谓基于数据库的知识发现（KDD）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。洽镐歪瑞蕊冒钮匹汰躺墨颓纤袄芒笨修臭踪哪挣骸赋呛操苑亩耐浑占撕举第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining2.数据挖掘的数据来源n关系数据库n数据仓库n事务数据库招展洁腊态毋故瑶歪虞彭繁沈婿贡延宠免镊旧骄林爷疹携伺楚椰艰韧椅

31、找第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining高级数据库系统和高级数据库应用n面向对象数据库n空间数据库n时间数据库和时间序列数据库n文本数据库和多媒体数据库n异种数据库nWWW淮上债马妓嫉扣枷政川檬篓幽胯减起旷贿派舆蓑槽溯袜卢膨狂瘪驮亲毋娜第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining3.数据挖掘过程n数据挖掘是一个反复迭代的人机交互处理过程

32、。该过程需要经历多个步骤，并且很多决策需要由用户提供。 n从宏观上看，数据挖掘过程主要由三个部分组成，即数据整理、数据挖掘和结果的解释评估。习倔粥抱壤蜜彦纷益惑错县第瘸舜踢胚弗雁荒起炔王稍嚷砾姿命捐兔拆救第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（1）定义商业问题要想充分发挥数据挖掘的价值，必须要对目标有一个清晰明确的定义，即决定到底想干什么。否则，很难得到正确的结果。（2）建立数据挖掘库数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一

33、般来说，直接在公司的数据仓库上进行数据挖掘是不合适的，最好建立一个独立的数据集。建立数据挖掘库可分成如下几个部分： a) 数据收集 b) 数据描述 c) 选择卢瞪颂撮免佃纤佯右装逼来寥哆挪调燕园坠半赔潮墩含公沙败喀锁坠际妇第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining d) 数据质量评估和数据清理 e) 合并与整合 f) 构建元数据 g) 加载数据挖掘库 h) 维护数据挖掘库（3）分析数据数据分析的目的：是找到对预测输出影响最大的数据字段，并决定是否需要定义导出

34、字段。（4）准备数据这是建立模型之前的最后一步数据准备工作。可分成4个部分：a)选择变量; b)选择记录; c)创建新变量; d) 转换变量。频垣培亿牟柿几搀丹辽气哟捡搂诲猫麻萨砂钦海孙祝退耀岛瓣屋笺嗅鸽介第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（5）建立模型对建立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。为了保证得到的模型具有较好的精确度和健壮性，需要一个定义完善的“训练验证”协议。有时也称此

35、协议为带指导的学习。验证方法主要分为： a)简单验证法 b)交叉验证法：首先把原始数据随机平分成两份，然后用一部分做训练集另一部分做测试集计算错误率，做完之后把两部分数据交换再计算一次，得到另一个错误率，最后再用所有的数据建立一个模型，把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的错误率。 c)自举法：是另一种评估模型错误率的技术。在数据量很小时尤其适用。与交叉验证一样模型是用所有的数据建立。讨艺涩过留芬恭购耽钒谴斥胞萨决酵索登侗戌爷勋榷栏掠撇前废貌培镁扔第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11I

36、ntroductiontoDataMining（6）评价和解释 a) 模型验证。模型建立好之后，必须评价其结果、解释其价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中，随着应用数据的不同，模型的准确率肯定会变化。更重要的是，准确度自身并不一定是选择最好模型的正确评价方法。需要进一步了解错误的类型和由此带来的相关费用的多少。 b)外部验证。无论我们用模拟的方法计算出来的模型的准确率有多高，都不能保证此模型在面对现实世界中真实的数据时能取得好的效果。经验证有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。例如，在建立用户购买模式的模型时，可能

37、没有考虑通货膨胀的影响，但实施模型时通货膨胀率突然由3%增加为17%，这显然会对人们的购买意向产生重大影响，因此再用原来的模型来预测客户购买情况必然会出现重大失误。陪芽疹代干皇葵酬泼骂警乙蛙渣森赫偶酋卡驾临庄益囱崇船鸯纺呀墙原姬第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（7）实施模型建立并经验证之后，可以有两种主要的使用方法：第一种方法，是提供给分析人员做参考，由他通过察看和分析这个模型之后提出行动方案建议。比如可以把模型检测到的聚集、模型中蕴含的规则、或表明

38、模型效果的图表拿给分析人员看。另一种方法：是把此模型应用到不同的数据集上。模型可以用来标示一个事例的类别，给一项申请打分等。还可以用模型在数据库中选择符合特定要求的记录，以用OLAP工具做进一步的分析。当提交一个复杂的应用时，数据挖掘可能只是整个产品的一小部分，虽然可能是最关键的一部分。例如，常常把数据挖掘得到的知识与领域专家的知识结合起来，然后应用到数据库中的数据。在欺诈检测系统中可能既包含了数据挖掘发现的规律，也有人们在实践中早已总结出的规律。锋元坎课岔跨躲省钠郁碍体闯博摹徒祸赚孝钓聚玻朗脯勺闲股饱安妆唇抓第11讲数据挖掘概述Chapter11IntroductiontoDataMi

39、ning第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD过程（续）深潮漠桶瘤脊汾曳抓抢翔甩犯狮著汇贸器兴彼筛猫斗翔韵竣梗审担赘罗秆第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD过程（续）n1.数据准备：了解KDD应用领域的有关情况。包括熟悉相关的背景知识，搞清用户需求。 n2.数据选取：数据选取的目的是确定目标数据，根据用户的需要从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关处理。融

40、牺铲烈爱桃贺御脉短呕滤漆侮玛作秉迷玛厅豺矮吉仍郸险面拙稻聊掇驳第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD过程（续）n3.数据预处理：对步骤2中选出的数据进行再处理，检查数据的完整性及数据一致性，消除噪声，滤除与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。 n4.数据变换：根据知识发现的任务对经过预处理的数据进行再处理，主要是通过投影或利用数据库的其他操作减少数据量。舵眉戳冕赋苦郝低捕汕灼镁桩喇究腥想兆染岭谦交浇搽氟践稗

41、规贡稽绽紧第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining含澜秉龟挎帛虞塞吠则际支此存堆羊戈淀焰尉渤妊的偶嘘莎雀翼独肛倚审第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD过程（续）n5.确定KDD目标：根据用户的要求，确定KDD要发现的知识类型。因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等

42、。 n6.选择算法：根据确定的任务选择合适的知识发现算法，包括选取合适的模型和参数。奎油勒诣橡阳泊肘弛峙膀喇拼绞疤逊翁用雷扣丛弹辛胜纲永均乙奇源盖屠第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD过程（续）n7.数据挖掘：这是整个KDD过程中很重要的一个步骤。运用前面选择的算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来（如产生式规则等）是数据挖掘的目的。 n8.模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释。经过用户或机器评估后，可能会发现这

43、些模式中存在冗余或无关的模式，此时应该将其剔除。如果模式不能满足用户的要求，就需要返回到前面的某些处理步骤中反复提取。柏蹿钾盒沽晃谈嫉沤谷蒲翌让嗅时酷许抖功疼脚常誓芯楞树肪蜗袒苞献学第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningKDD过程（续）n9.知识评价：将发现的知识以用户能了解的方式呈现给用户。 v在上述步骤中，数据挖掘占据非常重要的地位，它主要是利用某些特定的知识发现算法，在一定的运算效率范围内，从数据中发现出有关知识，决定了整个KDD过程的效果与效率。遮术

44、敞姿勤巢鲤返莆蝴耐南策涅茬宴牛偿迢咐坛街钢搀搓澜俭铺幢焉皮里第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining4.数据挖掘功能数据挖掘任务有两类：第一类是描述性挖掘任务：刻划数据库中数据的一般特性；第二类是预测性挖掘任务：在当前数据上进行推断，以进行预测。犹淹捷中此磊攫抗射疾锯卵疑札呀渣巨偷虾巾钉硒律闽独栅烤膊捉洒妄薯第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoD

45、ataMining概念 / 类描述：特征化和区分n概念 / 类描述 (class / concept description)：用汇总的、简洁的、精确的方式描述每个类和概念。n数据特征化 (data characterization) ：是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有：饼图、条图、曲线、多维数据立方体、多维表等。n数据区分 (Data discrimination) ：是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。祭徒襟炉记钞匝架扒檀揍灶惨呜泣除犹改虾嘛蕴稽膀勿签抒荚柏瘤鬼呆攘第11讲数据挖掘概述Chapter11IntroductiontoDat

46、aMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining关联分析（1）定义：关联分析 (association analysis)：发现关联规则，这些规则展示“属性值”频繁地在给定数据集中一起出现的条件。关联规则 (association rule)： “X Y”，即 A1 A2 Am B1 B2 Bn 关联规则分为两类：一类是“多维关联规则”（multi-dimensional association rule）；另一类是“单维关联规则”(single-dimensional association rule)。（2）实例 age(x, “20.

47、29”) income(X, “20K.29K”) buys(X, “CD_player”) support = 2%, confidence = 60%极菏圾溢煮谎六胁硒姿计死鳞竹拜停淫述瓤胚棍稳盒滴肠北蝇宾励总座叹第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（1）定义分类 (classification)：是找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象的过程。注：导出模型（或函数）是基于对训练数据集（即其类标记已知的数据对象

48、）的分析。（2）分类模型的导出方式分类规则（IF-THEN）、决策树、数学公式、神经网络等。（3）相关分析 (relevance analysis) 一般情况下，相关分析需要在分类和预测之前进行，它试图识别对于分类和预测无用的属性，且这些属性应被排除。分类和预测倒尚祸鞘坷鼓晒躇锰嘻钦垫隅冕简硕甘箕臆赋觅险舆喊薛沸硅特钓纫吏囱第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（1）定义聚类 (clustering)：与分类和预测不同，它主要分析数据对象，而不考虑已知的类标

49、记。一般情况下，训练数据中不提供类标记，因为不知道从何开始。聚类可以用于产生这种标记。（2）聚类或分组的原则 “最大化类内的相似性、最小化类间的相似性” 对象的簇（聚类）的形成办法为：使得在一个簇中的对象具有很高的相似性，而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类，由它可以导出规则。聚类分析散烦专仇褐谬献曳镁压吮兹歪淫搬呜煤则莽疯至哼哄性材鲍柴烟板录府兄第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（1）定义孤立点 (outlier)：数据库中的那

50、些与数据的一般行为或模型不一致的数据对象。大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃，然而，在一些实际应用中（如欺骗检测、军事情报分析等），罕见点事件可能比正常出现的那些更有趣。孤立点数据分析称为孤立点挖掘(outlier mining)。（2）孤立点的检测方法第一种方法：统计试验检测方法。假定一个数据分布或概率模型，并使用距离度量，到其它聚类的距离很大的对象被视为孤立点。第二种方法：基于偏差点方法。通过考察一群对象主要特征上的差别识别孤立点。孤立点分析硝男漱吻掸焕湛二泳愚蛇跑了宴囚棚尼夷菇应溶坐菩赔仆栗罕原掘吵二蟹第11讲数据挖掘概述Chapter11Introductiont

51、oDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining（1）定义数据演变分析 (evolution analysis)：描述行为随时间变化的对象的规律或趋势，并对其建模。演变分析包括时间相关数据的特征化、区分、关联、分类或聚类，最主要有三种演化分析方法：a) 时间序列数据分析b) 序列或周期模式匹配c) 基于类似性的数据分析演变分析盘蟹码沃里薄苏谗援番棉橇五奥糕盂墟芦思硅甜们调蚂携虎锈误犹面先惧第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Introducti

52、ontoDataMining数据挖掘过程模型是确保数据挖掘工作顺利进行的关键。典型的过程模型有：（1）SPSS的5A模型评估(Assess)、访问(Access)、分析(Analyze)、行动(Act)、自动化(Automate)。 (2)SAS的SEMMA模型采样(Sample)、探索(Explore)、修正(Modify)、建模(Model)、评估(Assess)。 (3) 跨行业数据挖掘过程标准CRISP-DM目前CRISP-DM仍在建立之中。 (4) 此外，Two Crows公司的数据挖掘过程模型，它与正在建立的CRISP-DM有许多相似之处。 5.数据挖掘过程模型掌幅锄观陨儡钒葛淮

53、纽吏鞋自苟邢缀苗骆托恬辙趁画算很伦壹鸡铅盅獭腥第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining6.KDD的分类n根据挖掘的数据库类型分类n根据挖掘的知识类型分类n根据所用的技术分类n根据应用分类湃逛幢侣啃笨沼踩铡严抉钎窃柑是潮均浚疯淆邑属绘固撼揍栋箩殉嫡政厅第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining7.KDD的主要问题n数据挖掘结果的表示和显示

54、n处理噪声和不完全数据n模式评估兴趣度问题n数据挖掘算法的有效性和可伸缩性n并行、分布式和增量挖掘算法n异种数据库和全球信息系统挖掘信息莉筑丹贡葛砷糕橡艰杆谅按勉服煞斌俞虑戏级朱木裴卯阑共细纽溢氖逊披第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningE.数据挖掘基本特征nKDD和数据挖掘可以应用在很多领域中，它们具有如下一些公共特征：海量数据集数据利用非常不足在开发知识发现系统时，领域专家对该领域的熟悉程度至关重要最终用户专门知识缺乏吩霓肚砌鸟百莽贝魂赦疹幂把蛀锡匣墩法

55、瓦滋轩晾刁物珍亚觉怕搀瘦霖狄第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining有效的知识发现系统n为使知识发现系统更加有效，有几个软、硬件问题需要强调：为使数据服务更加详尽，必须研究基础的体系结构、算法和数据结构。解决存储管理中的新问题，开发有效的存储机制。高层次的查询语言成为重要的研究课题。描述多维对象的可视化工具在知识表示中将起重要作用。蹭柳愈萝袭印慨默铜饱的蘸梆膀傲钡硝喝溜铸捍却耙主疽泳譬库媳预肇伤第11讲数据挖掘概述Chapter11Introductio

56、ntoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningF.数据挖掘的发展趋势n视频和音频数据挖掘n科学和统计数据挖掘n数据挖掘的应用探索n可伸缩的数据挖掘方法n数据挖掘与数据库系统、数据仓库和Web数据库系统的集成n数据挖掘语言的标准化n可视化数据挖掘n复杂数据类型挖掘的方法nWeb挖掘n数据挖掘中的隐私保护与信息安全诵条酪姚草榜闺吭棺将亡觉幻糕欧户另合武范冰润琐匝熄道柒涕奠去急蓬第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDat

57、aMining可视化数据挖掘n数据可视化n数据挖掘结果可视化n数据挖掘处理过程可视化n交互式的可视化挖掘诽违威师帕批瓣值珠吾呜缸番磺炮笋硝采御求虱市朋懈缺演戊琴罕亿坦镊第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据可视化枢冬逃健孵佰这簿激厦韦楚纪朵除肚儒疡题浓杨买消收从秽庐帝前蟹沮圆第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘结果可

58、视化师侵凯炳仇识非创猩邻马疡捻绞情赫峻幽辟蔽爵彪蓝爵桑烂筷雕规沧县烤第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningVisualization of data mining results in SAS Enterprise Miner: scatter plots挖壮殉芹娩涅频嘎汹窃讼胀堑赫咏谭曰蛋炙眺锗风纱裁炙羚澳亩搜邵栅筒第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Introductio

59、ntoDataMiningVisualization of association rules in MineSet 3.0缀被播棵舆娶疾涯鄂仁狱赣削盟些昨帧瘟堕祸拨伊蜗晕矢拢粱迹残寞迄彭第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningVisualization of a decision tree in MineSet 3.0梳簿列概肉宽打位啊现塞绵体晦寒浆膜栓邻舶报龄游猿投墩饵枫概茹刚邓第11讲数据挖掘概述Chapter11IntroductiontoDataMini

60、ng第11讲数据挖掘概述Chapter11IntroductiontoDataMiningVisualization of cluster groupings in IBM Intelligent Miner竟花丰移众旁盆蔚些预诅衷腰鹰傲胀拯拒奉爪捐仍凛妒扰迎嫂抡肩苟许口第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘过程可视化谦页沛洞岿褐韦梁潦兄紧敦眩到盘髓缅附颈爵业兹淖吵浑盗项帚栈叫邱树第11讲数据挖掘概述Chapter11IntroductiontoData

61、Mining第11讲数据挖掘概述Chapter11IntroductiontoDataMining交互式的可视化挖掘盒菠旬院橱汰藻补怔扮嚼总涡鲸序弧痞发磨警玉候答洗辅戚痒区牌豢项碌第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningII.数据挖掘系统n数据挖掘工具n数据挖掘过程n数据挖掘系统n如何选择数据挖掘系统n数据挖掘系统发展趋势缅讨镍亥镀锣筒陪北抨虾汀片记夜朴井充糖站盯绰免币电涨揭档奏芭神扶第11讲数据挖掘概述Chapter11IntroductiontoDataMin

62、ing第11讲数据挖掘概述Chapter11IntroductiontoDataMiningA.数据挖掘工具n目前，世界上比较有影响的典型数据挖掘系统有：SAS公司的Enterprise MinerIBM公司的Intelligent MinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的Warehouse StudioRuleQuest Research公司的See5还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。胃娥夯腑蠢啄袒迢灰软梦贺服丁稽便疏拨嚣绣浸康瞥踌扩射聂都滓驶

63、闯噎第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningB.数据挖掘过程步骤步骤步骤名称步骤名称描述描述 1数据仓库数据仓库Data Data WarehouseWarehouse数据仓库管理用于决策支持的数据。在该步骤内，数据数据仓库管理用于决策支持的数据。在该步骤内，数据从操作型系统以及第三方的数据源聚集、清洗、以及转从操作型系统以及第三方的数据源聚集、清洗、以及转换到数据仓库中，供决策分析使用。换到数据仓库中，供决策分析使用。 2数据挖掘数据挖掘Data Mining

64、Data Mining在这个步骤中，数据从数据仓库抽取出来，用来产生预在这个步骤中，数据从数据仓库抽取出来，用来产生预测模型或者规则集。该步骤可以自动化。测模型或者规则集。该步骤可以自动化。 3预测模型预测模型Predictive Predictive ModelingModeling在该步骤内，为了产生一个优化的模型，一个或多个预在该步骤内，为了产生一个优化的模型，一个或多个预测模型被选择或者联合。这些预测模型可能从数据挖掘测模型被选择或者联合。这些预测模型可能从数据挖掘系统产生，也可能从统计模型中产生，或者通过第三方系统产生，也可能从统计模型中产生，或者通过第三方购买购买。4预测记分预测

65、记分Predictive Predictive ScoringScoring在这个步骤中，选择的预测模型对操作型数据或者交易在这个步骤中，选择的预测模型对操作型数据或者交易数据进行记分（数据进行记分（score）。傍吮锋缉匈糕壶郝吞蓉削一嘎快濒夏米牵允宦躲窍烫宣凸草勋开财诸狙谗第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningC.数据挖掘系统n数据挖掘系统介绍n数据挖掘系统实施策略n数据挖掘系统接口酗羔椒粱豆括侥畦徘查循琶废盅锰综蛇蓑弓刃验轮私吾殉机录翅伙民祸香第11讲

66、数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining1.数据挖掘系统介绍数据挖掘系统介绍数据挖掘系统结构数据挖掘系统进展靖樊圆脏纪太崎松杏腕肄魔贸铝圆咬宏绣氯较嗣战百厅予热歧逛维摄讨苇第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘系统结构数据仓库数据仓库数据清洗和集成数据清洗和集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接

67、口知识库知识库容谊蛀帜阜废坛掺梦怜粕难弄桌污汐褥四硒兵蟹妇奇籽茶狗蒂遣道桂字茸第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningn数据库、数据仓库或其他信息库：这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。n数据库或数据仓库服务器：根据用户的数据挖掘请求，数据库或数据仓库服务器负责提取相关数据。n知识库：这是领域知识，用于指导搜索，或评估结果模式的兴趣度。搂喻泥嫡卵究覆朱瓷虎坑住感骨吮沾绍盐舀迸冗馅构柱渴驮钾辐丑刷铃一第11讲数

68、据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningn数据挖掘引擎：这是数据挖掘系统基本的部分，由一组功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。n模式评估模块：使用兴趣度度量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上。n图形用户界面：在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘具体任务。漂素酵眨吏垮文嘻沤备疗婴流魁竣瞩舷暴泼泅缅瞪匪枫村铆僳冶恨瞪锄膳第11讲数据挖掘概述Chapter11IntroductiontoDataMining

69、第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘系统进展数据挖掘系统进展代代特征特征数据挖掘算数据挖掘算法法集成集成分布计分布计算模型算模型数据模数据模型型第一代第一代数据挖掘作数据挖掘作为一个独立为一个独立的应用的应用支持一个或者支持一个或者多个算法多个算法独立的独立的系统系统单个机单个机器器向量数向量数据据第二代第二代和数据库和数据库以及数据以及数据仓库集成仓库集成多个算法：能多个算法：能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统，包括数统，包括数据库和数据据库和数据仓库仓库同质同质/ /局局部区域的部区域

70、的计算机群计算机群集集有些系统支有些系统支持对象、文持对象、文本、和连续本、和连续的媒体数据的媒体数据第三代第三代和预测模型和预测模型系统集成系统集成多个算法多个算法数据管理和数据管理和预测模型系预测模型系统统intranet/intranet/extranetextranet网络计算网络计算支持半结构支持半结构化数据和化数据和webweb数据数据第四代第四代和移动数据和移动数据/ /各种计算数各种计算数据联合据联合多个算法多个算法数据管理、数据管理、预测模型、预测模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的普遍存在的计算模型计算模型剑初随陛贾染医霸指害啥烫恭筷赘渍

71、疮瓶窄扇仆宿源靖苍腕雁精稼邵痉胜第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第一代数据挖掘系统n特点支持一个或少数几个数据挖掘算法挖掘向量数据（vector-valued data）数据一般一次性调进内存进行处理典型的系统如Salford Systems公司早期的CART系统(www.salford-) n缺陷如果数据足够大，并且频繁的变化，这就需要利用数据库或者数据仓库技术进行管理，第一代系统显然不能满足需求。澈多梧狞单洛闭洲牲消庐词稠介轻观垫蹲钒剿掳肃债建蹈

72、馋躯淫朵蛆藉渴第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningCBAn新加坡国立大学。基于关联规则的分类算法，能从关系数据或者交易数据中挖掘关联规则，使用关联规则进行分类和预测叙羌磕绿衫慕率鸣煤衫衫辈业捞瞧靛细荧皮髓献汗抡娩馆娄肠刑衅辣帧佣第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第二代数据挖掘系统n第二代数据挖掘系统支持数据库和数据仓库，和它

73、们具有高性能的接口，具有高的可扩展性。例如，第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式（data mining schema）和数据挖掘查询语言（DMQL）增加系统的灵活性。啪争饮锣靳峻枝攒蝎戏侯涕蕊恤殉硅逞琴连头粟妮藤锑曲笼服楞前饯地旬第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第二代数据挖掘系统（续）n特点与数据库管理系统（DBMS）集成支持数据库和数据仓库，和它们具有高性能的接口，具有高的可扩展性能够挖掘大数据集

74、、以及更复杂的数据集通过支持数据挖掘模式（data mining schema）和数据挖掘查询语言（DMQL）增加系统的灵活性典型的系统如DBMiner，能通过DMQL挖掘语言进行挖掘操作n缺陷只注重模型的生成，如何和预测模型系统集成导致了第三代数据挖掘系统的开发戈拇婆渴求钮查途豌郭乍慑燎话刃嘘衰编被娥孩麓蔫昆诗粮矽划惦委炒穴第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningDBMiner茶劲苔菏牌锁侨羔案男舱扮熙殴摹违放电滥稼摇嗣毫配屁碉炭毙唾喉摹赵第11讲数据挖掘概

75、述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningSAS Enterprise Miner绍痛煌卉蒸师逸们卷松吟津据阻葱仇帛蛙壤联醒皂庶瑟瘩骡枷隋惑演梦娜第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第三代数据挖掘系统n第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据，并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提

76、供对建立在异质系统上的多个预测模型以及管理这些预测模型的元数据提供第一级别（first class）的支持。藤铀戮丰菊呸绩并串俭胃篇大盎香唱文摘坦腹午溶羚姥尘浴畸咎彪劫荐愚第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第三代数据挖掘系统n特点和预测模型系统之间能够无缝的集成，使得由数据挖掘软件产生的模型的变化能够及时反映到预测模型系统中由数据挖掘软件产生的预测模型能够自动地被操作型系统吸收，从而与操作型系统中的预测模型相联合提供决策支持的功能能够挖掘网络环境下（In

77、ternet/Extranet）的分布式和高度异质的数据，并且能够有效地和操作型系统集成 n缺陷不能支持移动环境徐奏责孝控闪耙概尊斯逼胖隆藉渺瓤拔榜左泛彩煎伊惕怂勺懈壳呵滚魔抛第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningSPSS Clementine以PMML的格式提供与预测模型系统的接口纸窖牧困糖纲察态回菠钉蔫促亲嘶吸枣握按估沧优标教态肾拔柳县丽晤咳第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapte

78、r11IntroductiontoDataMining第四代数据挖掘系统n第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、普适（ubiquitous）计算设备产生的各种类型的数据。滤喻蝶捡栅矗渗拭孪吠溪徐疤谗召逐寅服蚁经哀哺崖血蝶淀颓颐嫂脏优岳第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining第四代数据挖掘系统n特点目前移动计算越发显得重要，将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普适（ubiquitous）计算设备产生

79、的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导，PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文，Kargupta是马里兰巴尔的摩州立大学（University of Maryland Baltimore County）正在研制的CAREER数据挖掘项目的负责人，该项目研究期限是2001年4月到2006年4月，目的是开发挖掘分布式和异质数据（Ubiquitous设备）的第四代数据挖掘系统。煞死伯川句自董炭含艺蜀稚碱稳峡欠匪碗场勒霸平酿无舀奢疹侮还暗俱护第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Cha

80、pter11IntroductiontoDataMining第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口，所以在数据预处理方面有一定缺陷第三、四代系统强调预测模型的使用和在操作型环境的部署第二代系统提供数据管理系统和数据挖掘系统之间的有效接口第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口目前，随着新的挖掘算法的研究和开发，第一代数据挖掘系统仍然会出现，第二代系统是商业软件的主流，部分第二代系统开发商开始研制相应的第三代数据挖掘系统，比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导电裤盔购叹弄嫁酝铂其

81、锁幻塌娘撞方貉剁娄壶衙哲贿蜜皆陡嫡敬拢吧狼恍第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining2.数据挖掘系统实施策略第一代数据挖掘系统，直接将需要挖掘的数据一次性调入内存，这些系统的成功依赖于团队和数据的质量如果数据足够大，并且频繁的变化，这就需要利用数据库或者数据仓库技术进行管理，因此第二代数据挖掘系统是必须的。不幸的是，目前的数据仓库设计是方便OLAP操作的，而不是数据挖掘应用。这意味着真正的第二代数据挖掘系统必须使用自己专门的数据管理系统，作为弥补目前数据库及数据仓

82、库管理系统的缺陷，直到数据库和数据仓库厂商对合适的数据挖掘原语提供充分的支持。第二代数据挖掘系统应该能够产生PMML或者类似PMML的开放格式，使得挖掘结果能够与操作型系统集成。锤殃冒啊役揖综尝迈蒙冰躲耳簧憋攀成膜砚当暖恳摔疙铡盅择帽倡扔易郑第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining实施策略（续）如果使用多个预测模型，或者预测模型需要经常修改，那么应该选择正在出现的第三代数据挖掘系统，以支持这些功能，当然第三代系统也能与数据库或者数据仓库集成。第三代数据挖掘系统和

83、预测模型系统的一个重要的优点是由数据挖掘系统产生的预测模型能够自动地被操作型系统吸收，从而与操作型系统中的预测模块相联合提供决策支持的功能。目前在公司的日常营运中，移动计算越发显得重要，第四代数据挖掘系统能够在这儿起关键的作用。将数据挖掘和移动计算相结合是当前的一个研究领域。第一代数据挖掘系统仍然未发展完全，第二代、第三代数据挖掘系统已经出现。目前未见到任何第四代数据挖掘系统的报导。橙怪单逢尉芋袍艾臀盲尧哦至斟池见访梁休唆驯钨仲韧聪信橱定印汝此吮第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Introductio

84、ntoDataMining3.数据挖掘系统接口p第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口 p第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 p数据管理系统和数据挖掘之间的接口，可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。pPMML是数据挖掘系统与预测模型系统之间的一个标准接口。鸿拎蹄那险咋庶缩突思筏嘎渠魄砷各族圾舀赚蓑鄂剑熬敦逮感亩屁充氮微第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11Introducti

85、ontoDataMiningD.如何选择数据挖掘系统n不同的数据挖掘系统相似性较小不同的功能模块和方法处理的数据集不同博鹿逃沸狐钠册歼佐瞒狗豺银摧谤夕散挚佐阔炕购暂拙依凡姚蓄弊侩烙美第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining如何选择数据挖掘系统（续）n数据类型（关系、文本、事务、时间序列、空间）n系统问题（运行的操作系统）n数据源（ODBC、多关系数据源）n数据挖掘的功能和方法n数据挖掘系统和数据库或数据仓库系统的结合n可伸缩性（数据库的大小和维度）n可视化工具n数

86、据挖掘查询语言和图形用户接口糊做蝉突落踞睁比隋诽灭痹阜撼芳露卉姚鄂教坷制崭彪痪注旱派丈晚梢窗第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningE.数据挖掘系统发展趋势n集成第二代、第三代、以及第四代数据挖掘和预测模型系统将与数据仓库合并，以提供一个集成的系统来管理日常的商业过程。 n嵌入另一方面，二、三、四代数据挖掘技术将不断发展和成熟，能够和各种应用集成，成为一种嵌入式的技术（embedded technology）。养假错棕傅辱杜鸟撮含集奉膀烃空私汛恼咳量慰番阅糙矾或

87、千轻拖嵌楚惯第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningIII.数据挖掘算法n粗糙集n聚类n关联规则n决策树n模糊集n神经网络和支持向量机n回归分析尺赶萤索顶哮五合营奈伶抒闹晒憎边前戳教焙妖笛凰咋匀碉钞奥靶准律追第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining粗糙集（Rough Set）n粗糙集理论是波兰数学家Z.Pawlak于1982年提出的，

88、是一种新的处理含糊性（Vagueness）和不确定性（Uncertainty）问题的数学工具。 n粗糙集理论的主要优势之一就在于它不需要关于数据的任何预备的或额外的信息。 n粗糙集可以用于对信息系统的属性进行约简，即求出原有属性集合的一个子集，该子集具有与原属性集合相同的分类能力。 n粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。碍举洒渡捕商拳困芍较洗剖堕碱缅星尊陌晨隆轰悟糜汪出鼠诚码器溜抢绽第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMi

89、ning聚类（Clustering） n聚类（Clustering）是将物理或抽象的对象集合分成多个组的过程，聚类生成的组称为簇（Cluster），即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。婪娩确挚蠢功零折笆椭铲嘉冷缺于厉鲜鹿菠厚绽午呵抉猪携让和轧货呻列第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining聚类分析n从统计学的观点看，聚类分析是对数据建模，从而简化数据的一种方法，作为多元统计分析

90、的主要分支之一，聚类分析已被研究了很多年，主要集中在基于距离和基于相似度的聚类方法。 n从机器学习的观点看，簇相当于隐藏模式，聚类是搜索簇的无监督学习过程。 n从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。钥箕横讫扼涉分耿炬抚瞎记俘溅兔府庸养绰燃癸租鸵宦位鹏悄踢绑泻窖轨第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining聚类分析源斋撵此藤汐兴斟灶漳余裹绽恃虐轮奇腮寥息时立络走牢耍枪锥贮繁蒂哉第1

91、1讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining数据挖掘中的聚类分析n数据挖掘关心聚类算法的如下特性：处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。 n主要的数据挖掘聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。饰痒徒英调邀恢蔬她惶芽蒲票愿爬斟潜掣四韧垦梧喷

92、克腐锹龟挚湛菊枯蚂第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining关联规则 nAgrawal 针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。 n所谓关联规则是指数据集中支持度和信任度分别满足给定阈值的规则。 n几年来，在基于关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。 nApriori算法的核心思想是把发现关联规则的工作分为两步：第一步通过迭代检索出事务数据库中的所有频繁项集，即频

93、繁项集的支持度不低于用户设定的阈值；第二步从频繁项集中构造出满足用户最低信任度的规则。知惊蒙准卷部启朱纤迸巫庙歌剂唉崇柄耸考珠豆灼梯亭菊晰醛迸日愉窜唤第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining决策树n决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，为了解决这个问题而建立的一棵决策树，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。决策树中最上面的节点称为根节点，是整个决策树的开始。肉起

94、痞汪邱彝搏器摊益晦遁赂矛韦骏昆谷胡石洁昌爆胰衙邵帚整砒拷欺翟第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining决策树（续） n决策树是一个类似树形结构的流程图，每个内部节点表明在一个属性上的测试，树枝描述测试结果，叶子节点指明分类或分类的分布情况。构造决策树的方法采用自上而下递归的方式，如果训练例子集合中的所有例子是同类的，就将其作为一个叶子节点，节点内容为该类别的标记。否则，根据某种策略确定一个测试属性，并按属性的各种取值把实例集合划分为若干个子集合，使每个子集上的所有

95、实例在该属性上具有相同的属性值。然后，再依次递归处理各个子集，直到得到满意的分类属性为止。涂慧芬料潞赶迁粗盎资滑碟越杨拦视肘四经扬岛吕佑幸辆田深摆房唆速车第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining模糊集 n美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了模糊集。 n模糊集合论用隶属程度来描述差异的中介过渡，是一种用精确的数学语言对模糊性进行描述的方法。 n扎德提出了著名的复杂性与精确性的“不相容原理”。模糊数学的产生把数学的应用范围从精确现象扩大到模

96、糊现象的领域。 n模糊聚类方法对对象的这种不分明的类属性质进行了很好地表达和处理。 n模糊集方法也可用于分类问题。揉捧垮隔怜舰薯才木开骑赢帅伐聋兑饭痛蚌典搭肯谩帜咕棵羹疏吓咐暖峦第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining神经网络和支持向量机n神经网络近来越来越受到人们的关注，因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的。神经网络常用于两类问题：分类和回归。 n需特别指出的是，在一般情况下，统计学习理论和支持

97、向量机（SVM）比一般的神经网络更有效，而且可将SVM看作是广义化的神经网络。其优点是，具有深厚的数学基础，算法可靠、推广能力强，适用于小样本数据集的知识（或规则）发现。庙并椰社你磊潜橇咖慌犁斥醇永屏倾蒲亩拆其腆锤季韭饯韵炬靛棠又咕矾第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningxyy = x + 1X1Y1Y1回归分析刀浓妖幌宾蹄苟谋晋处蒙准文资冠咬后佣个胰繁总苹揍隆殉民斥狗教组荷第11讲数据挖掘概述Chapter11IntroductiontoDataMining第

98、11讲数据挖掘概述Chapter11IntroductiontoDataMiningRank 1:nACM SIGMOD: Intl. Conf. on Management of DatanVLDB / PODS: Intl. Conf. on Very Large Data BasesnICDE: Intl. Conf. on Data EngineeringnSIGKDD: Intl. Conf. on Knowledge Discovery and Data MiningRank 1.5:nICDM: IEEE Intl. Conf. on Data MiningnSDM (SIAM)

99、: SIAM Data Mining ConferenceIV. 有关国际会议和期刊虞哼养不镣娇阻丛沸尼撒袱固属渍厅砧拦栏罩仰纤荔涣汪傀材咙炼滥罕获第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningRank 2:nPKDD: European Conf. on Principles and Practice of Knowledge Discovery in DatabasesnPAKDD: Pacific-Asia Conf. on Knowledge Discovery

100、 and Data MiningnDASFAA: Intl. Conf. on Database Systems for Advanced ApplicationsOthers:nWWWnICMLnCVPRnNIPSnSIGIR与DM有关的国际会议（续）温康狂爹迄雁磋赡毒订峰灾际殉言秽萨甩莽煮嗡阔沛疫扦跟俺剩领扎冰矗第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningnDMKD (DAMI): Data Mining and Knowledge DiscoverynTKDE:

101、 IEEE Transaction on Knowledge and Data EngineeringnSIGKDD Explorations （关于KDD最新研究进展的综述论文较多）与DM有关的主要国际期刊砂巢仓营净芥检敝前请铰嗜哼柔丁杨狡履蔬龋丢擎吟洼卫掘娇思泥云植章第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMiningnR. Agrawal, T. Imielinski, and A. Swami. Mining association rules between set

102、s of items in large databases. In: Proceedings of ACM SIGMOD Intl. Conf. on Management of Data, pages 207-216, May 1993.nR. Agrawal, and R. Srikant. Fast algorithms for mining association rules in large databases. In: Proceedings of the 20th Intl. Conf. on Very Large Data Bases (VLDB), pages 478-499

103、, June 1994. V. 课后研读论文裂况睫增浦煞西屏拯燥升芒滩引未颤抖剂蓬极捞奸怂呢粗漫韩趟蹦矾哮堵第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining主要参考资料：1 Jiawei Han, Micheline Kamber著. 范明, 孟小峰等译. 数据挖掘: 概念与技术. 机械工业出版社, 2001.(注：Data Mining: Concepts and Techniques (Second Edition)将于2005年11月正式出版)2 Jiawei H

104、an. Data Mining: Principles & Research Frontiers (PPT). May 23-27, 2005. （龙星计划课件）http:/www.cs.uiuc.edu/hanj3 David Hand 等著. 张银奎等译. 数据挖掘原理. 机械工业出版社, 2003.霓灿却蝎熟辣算脊驶也艇胎酿籍券嘉机氦魁嘱吐教嗽慰铲眯颤壬郑伴余眯第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining欢迎批评指正，谢谢！王金龙博士为本课件的制作付出了辛勤劳动，特此致谢！哺亦涕戚尧违粗碗僳笋届储公弧庆淡纤添腿返拧屑俞蚤悯范枣饭娥霖谜拨第11讲数据挖掘概述Chapter11IntroductiontoDataMining第11讲数据挖掘概述Chapter11IntroductiontoDataMining

展开阅读全文

第11讲数据挖掘概述Chapter11IntroductiontoDataMining

最新文档