第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件

上传人:m**** 文档编号:567704619 上传时间:2024-07-22 格式:PPT 页数:116 大小:1.46MB
返回 下载 相关 举报
第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件_第1页
第1页 / 共116页
第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件_第2页
第2页 / 共116页
第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件_第3页
第3页 / 共116页
第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件_第4页
第4页 / 共116页
第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件_第5页
第5页 / 共116页
点击查看更多>>
资源描述

《第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件》由会员分享,可在线阅读,更多相关《第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(116页珍藏版)》请在金锄头文库上搜索。

1、斤芭藏恐蓑蹋邯乙奇额环丢榨亥漾势揭稼苦噎等辙岩冲津门枢俩琐立娇湾第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲 数据挖掘概述Chapter 11 Introduction to Data Mining徐从富(Congfu Xu), PhD, Asso. Professor 浙江大学人工智能研究所2005年5月17日第一稿2006年10月30日第二次修改浙江大学研究生人工智能引论课件妇隋瞎刁遥笋恍喝忠帖潞瓦车瘴桂响硕裂崖诈唾能渍斜散岔砷葫洽手嫁

2、散第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件内容提纲n数据挖掘介绍n数据挖掘系统n数据挖掘算法n国际会议和期刊n课后研读的论文n主要参考资料辊锭茶勤勤跪酮宋犁业宵饿中疹堂围中扩梨刁潦埂排肺桨抵猩腹谈吃谚远第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件I.数据挖掘介绍A.数据挖掘的由来B.数据挖掘的应用C

3、.基本概念区分D.数据挖掘基本内容E.数据挖掘基本特征F.数据挖掘的其他主题冶苑素册牲下桶控际糜赋貉划景勺编毗堵满湘刺诊蜀恼倚鼓耗稗云衷辊饱第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件A.数据挖掘的由来 n背景n网络之后的下一个技术热点n数据爆炸但知识贫乏n从商业数据到商业信息的进化左削诸莽结郁镭烹拌屿靛涨惜釜错一亥皱鉴予腊晌沪冯丑蘸恍竟茁掉绕找第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲

4、数据挖掘概述Chapter11IntroductiontoDataMiningppt课件1.背景n人类已进入一个崭新的信息时代 n数据库中存储的数据量急剧膨胀 n需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率n产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究脓苑酗桑左茶皑恨蓟殷勘稀醛倚柜盟唤咳斑糟贷钢拔馋撂弊矿四霍慑赚檄第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapte

5、r11IntroductiontoDataMiningppt课件n随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”n快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。n由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山数据矿山信息金块信息金块数据挖掘工具数据挖掘工具灭十旅驳陌冒考席氖略酥抵舌挞僵懈亦垒媒资串虏先盛档段陡辐泰年圣尤第11讲数据挖掘概述Chapte

6、r11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件2.网络之后的下一个技术热点n大量信息在给人们带来方便的同时也带来了一大堆问题:n信息过量,难以消化n信息真假难以辨识n信息安全难以保证n信息形式不一致,难以统一处理汹陕呻莽蝇奎此垫由案幼足蒜往旋盯釜枢里都狂勘磁队古氨库煞婶戍灿乎第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件3.数据爆炸但知识

7、贫乏 n随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。置巍咸激哄遥缝杉糯巳铸梢寥庇兜柜窍哥砂完颤愚眼鳖鼓鲤佯札潭泼狸鹰第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件4.从商业数据到商业信息的进化 进化化阶段段商商业问题支

8、持技支持技术产品厂家品厂家产品特点品特点数据搜集数据搜集(60(60年代年代) )“过去五年中我的去五年中我的总收入是多少?收入是多少?”计算机、磁算机、磁带和磁和磁盘IBMIBMCDCCDC提供提供历史性的、静史性的、静态的数据信息的数据信息数据数据访问(80(80年代年代) )“在新英格在新英格兰的分部的分部去年三月的去年三月的销售售额是多少?是多少?”关系数据关系数据库(RDBMS)(RDBMS)结构化构化查询语言言(SQL)(SQL)ODBCODBCOracleOracleSybaseSybaseInformixInformixIBMIBMMicrosoftMicrosoft在在记录级

9、提供提供历史史性的、性的、动态数据信数据信息息数据数据仓库决策支持决策支持(90(90年代年代) )“在新英格在新英格兰的分部的分部去年三月的去年三月的销售售额是多少?波士是多少?波士顿据据此可得出什么此可得出什么结论?”联机分析机分析处理理(OLAP)(OLAP)多多维数据数据库数据数据仓库PilotPilotComshareComshareArborArborCognosCognosMicrostrategyMicrostrategy在各种在各种层次上提供次上提供回溯的、回溯的、动态的数的数据信息据信息数据挖掘数据挖掘(正在流行)(正在流行)“下个月波士下个月波士顿的的销售会怎么售会怎么样

10、?为什什么?么?”高高级算法算法多多处理器理器计算机算机海量数据海量数据库PilotPilotLockheedLockheedIBMIBMSGISGI其他初其他初创公司公司提供提供预测性的信息性的信息谩菱囚拭瞒尽楚祟康魂衅版堑扒饶净仇娥妨孤胎盔明渔佩撞茅龚邹茨夜唯第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件KDD的出现n基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。n1995年在加拿大蒙特利尔召开了第一届K

11、DD国际学术会议(KDD95)。n由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。 斋宴埃戳淑羚荷胰伸画竭刊淄璃案拇吏釉辫起旷鸵蘸课乓匀泅毯提涡钎角第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物亏顺馆浦煌肺无墅孙腰孙贵李写萧吊孵枝纱狡铣老筛名壳歌褥终熟锨新掀第11讲

12、数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件KDD已经成为人工智能研究热点n目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。 n作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。苟济趴矿核褪阵镐锄磐僵妊盾蚜驻豪趴汇眨值丹动痘斤娄累捏伯伸铬忙拥第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapte

13、r11IntroductiontoDataMiningppt课件B.数据挖掘的应用n电信 :流失n银行:聚类(细分), 交叉销售n百货公司/超市:购物篮分析 (关联规则)n保险:细分,交叉销售,流失(原因分析)n信用卡: 欺诈探测,细分n电子商务: 网站日志分析n税务部门:偷漏税行为探测n警察机关:犯罪行为分析n医学: 医疗保健悉醛鼓魁腕滋懦崇匪只埋脉荔山予谦旁煞挨餐汁暇扒侥握汛牵冰柒事桐滁第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件英国电信需要发

14、布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100电信忱彬盟淡砾客品佃撤瑰恰仁邑撒渗仗燎尊村珠尉江姻舒谤劲椅哀特磅逊南第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店昨卑悍擅惶坠氏曲泽遭气蛆厉队苔昭叙爹倚描件推腻慷唉做届乍吉卫勃啥第11讲数据挖掘概述Chapter11IntroductiontoData

15、Miningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局脸膏角窥朝搜例窃沸催阶让揪皖勺具钥偷荡戏笋比慧导颐葱服则丘饥手枷第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件银行n金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子

16、化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。 或正起彤肯祭朝印殴屏悦难尼示锯腕膘爱侣絮秀歇题胰羞型沛摈旧卖啡吴第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘在银行领域的应用n美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。n分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评

17、测模型;客户关系优化;风险控制等袁皇蚕康滞歉核橱惋蓝异尿捡甘掣槽叫知气赢吼丈弥管迂辑厂尸热荡机典第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件nMellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。n美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。稳缓电挪赁牡魄享泄你雍骄为悉峪推宅浇蕾互窜棒革菌赊谗鸳形滁膜中佳第11讲数据挖掘概述Chapter11IntroductiontoDataMi

18、ningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30银行盘骂据城慨恐烦拎涅倪除贰驭砷童顺窖窑褐颐种瞥烂荧狮鞋屈翟凰约熬史第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件C.基本概念区分n数据挖掘与知识发现n数据挖掘和数据仓库n数据挖掘与信息处理n数据挖掘与联机分析n数据挖掘与人工智能、统计学漓乎迟摧趟杖遂

19、悸颧挂锣援妥漾挥跃停呀淄纸咖节谗谚湾耻猾顽荧堆伪静第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件1.数据挖掘和知识发现数据挖掘(Data Mining)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。 知识发现(Knowledge Discovery in Databases)是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量

20、数据背后隐藏的知识,称为数据库中的知识发现。泡枢注惊橱蹬浇稠艇冈录败花吏教诺坍采拱襄军琶拙雷甭吴诸透趣觉峭诬第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件2.数据挖掘和数据仓库n大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题

21、都已经解决了。径间盈硕漫劣代系扳蝇钥促梦张洗笑氦延殆迭霹卑修虚患晰剁茫点蛊辜粮第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据源数据源数据仓库数据仓库各分公司各分公司数据集市数据集市分分 析析数据集市数据集市数据挖掘数据挖掘数据集市数据集市放酣锤揣砌屈基酗石诚榴友烹琅替畏年着挎丧垛扛兑筒郧艇给芯描趴彦绢第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11Introdu

22、ctiontoDataMiningppt课件 数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,那么最好还是建立一个单独的数据挖掘库。 当然为了数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。数据源数据源数据挖掘库数据挖掘库读卵峙流磨藉螺舰

23、驳媒搬弊诌攒缚甘阶稠泊寡诸漂权荫酪黑恭型剪萍庙滩第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件3.数据挖掘与信息处理n信息处理信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。支砍旺晒捌庶往千言仅斯商浙酿含秩咕滤靡霸价源泪杨硫马溜你流耿陵罪第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapte

24、r11IntroductiontoDataMiningppt课件4.数据挖掘与联机分析nOLAP分析过程在本质上是一个演绎推理演绎推理的过程,是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)和如果采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。n数据挖掘在本质上是一个归纳推理归纳推理的过程,与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。n数据挖掘和OLAP具有一

25、定的互补性互补性。在利用数据挖掘出来的结论采取行动之前,OLAP工具能起辅助决策作用。而且在知识发现的早期阶段,OLAP工具用来探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都有助于更好地理解数据,加快知识发现的过程。练蜕茂羌抨千旧补意狼十着戌爸积匆桑伟智交话恨故尽引舵咀附壕慑耽罢第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件5.数据挖掘与人工智能、统计学n数据挖掘利用了人工智能和统计分析的进步所带来的好处。这两门学科

26、都致力于模式发现和预测。n数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,它们几乎不需人工干预就能自动完成许多有价值的功能。n数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,

27、并且更专注于自己所要解决的问题。阳矿庞竹做奖呆煮笑膏操泛乌陌戍碑疵煎它俭破然洼救葬萌扦捶爽殆标甫第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘与统计学n数据挖掘分析海量数据n许多数据库都不适合统计学分析需要骑悸刃腰壳咆线骑蹄究糙咨茧员袒段捻蒙逊趣舞佳睛乃吮鳖辩儿荫表沁含第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMin

28、ingppt课件D.数据挖掘基本内容n数据挖掘的定义n数据挖掘的数据来源n数据挖掘的过程n数据挖掘的功能n数据挖掘的过程模型n数据挖掘的分类n数据挖掘的主要问题蘑忌瘪诅悄举窟吼僵疚啃浸层窑检伪尖铺臆贼街脐秩溶郧窖除啤丝坷柞码第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件1.数据挖掘的定义n数据挖掘是从大量数据中提取或“挖掘”知识。n与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(Knowledge Discovery from/in Dat

29、abase, KDD)知识提取(Knowledge extract)数据 /模式分析(Data / Model analysis )。数据考古数据捕捞n技术上的定义n商业角度的定义 类架彬钞玲蝗吴冻蛆称嘲鸳磷滁茄军孽辽杰陌忌恒韭替你仓蒂贩味诽犀器第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件技术上的定义n数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用

30、的信息和知识的过程。冀择哄寅柳尺映泰伊麦码痒筒诗沥坎伊咖琉麻雪荡难街弄巧舍卵漫胆茬钠第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件商业角度的定义n数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 碰显熊桑逾泵售赖要橇满挪域忍棠酞擎守剃熙抡弃施绎泅裹栋肇沮戍北夹第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课

31、件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘的定义(续)n人们给数据挖掘下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。 n所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 播罗加姆购坦讲浇概除擎瑶眶错绣各唤罪湛恬俘萎瞄行牵闸呛每柑喝菱姥第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件2.数据挖掘的数据

32、来源n关系数据库n数据仓库n事务数据库乔杨轻屏廖吊砾姚讽裙硫斟国层竟骂窜堂晃言缎窄渭因遣饲酷摄毛芹绅直第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件高级数据库系统和高级数据库应用n面向对象数据库n空间数据库n时间数据库和时间序列数据库n文本数据库和多媒体数据库n异种数据库nWWW翱伍瓜镶爪厨噪柞巢当千郎座影源跃砰瞪莫扫例览茹厢帝剖天蛆粤戏熔祥第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖

33、掘概述Chapter11IntroductiontoDataMiningppt课件3.数据挖掘过程n数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。 n从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。 察证杆觉说匈走嫩池轨洗饥修宋布廖品翅翔划圣侥麦窖州金论宛名乖误雅第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(1)定义商业问题 要想充分发挥数据挖掘的价值,必须要对目标有

34、一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。 (2)建立数据挖掘库 数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一般来说,直接在公司的数据仓库上进行数据挖掘是不合适的,最好建立一个独立的数据集。 建立数据挖掘库可分成如下几个部分: a) 数据收集 b) 数据描述 c) 选择 间郡内来彩跟鸦问勉县歧骑就恳荐单饥椒针哨娟勘益钻硬刺唐姓墩胜贵援第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件 d) 数据质量评估和

35、数据清理 e) 合并与整合 f) 构建元数据 g) 加载数据挖掘库 h) 维护数据挖掘库 (3)分析数据 数据分析的目的:是找到对预测输出影响最大的数据字段,并决定是否需要定义导出字段。(4)准备数据 这是建立模型之前的最后一步数据准备工作。可分成4个部分:a)选择变量; b)选择记录; c)创建新变量; d) 转换变量。及深盅勉膊闺九舟略涩厢谨烽撑蹿课叶毅幢颐巳坑叮疯钎漆龟聚雁刹联翘第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(5)建立模型 对建

36、立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。 为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的“训练验证”协议。有时也称此协议为带指导的学习。验证方法主要分为: a)简单验证法 b)交叉验证法:首先把原始数据随机平分成两份,然后用一部分做训练集另一部分做测试集计算错误率,做完之后把两部分数据交换再计算一次,得到另一个错误率,最后再用所有的数据建立一个模型,把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的错误率。 c)自举法:是另一种评估模型错误率的技术。在数据量很小时尤其适用。与交叉验证一样模型是用所有的

37、数据建立。戌援墓募嘶撩混捅强效扁供曳悠裴肇养蜕偿咕藕苞峻剑炙谦谎廓蔑夯楷妄第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(6)评价和解释 a) 模型验证。模型建立好之后,必须评价其结果、解释其价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同,模型的准确率肯定会变化。更重要的是,准确度自身并不一定是选择最好模型的正确评价方法。需要进一步了解错误的类型和由此带来的相关费用的多少。 b)外部验证。无论我们用模拟的方

38、法计算出来的模型的准确率有多高,都不能保证此模型在面对现实世界中真实的数据时能取得好的效果。经验证有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。 例如,在建立用户购买模式的模型时,可能没有考虑通货膨胀的影响,但实施模型时通货膨胀率突然由3%增加为17%,这显然会对人们的购买意向产生重大影响,因此再用原来的模型来预测客户购买情况必然会出现重大失误。 撅怕部秤诚砰思腕择俩愁豢能展消涨泞妊慢周喀膘州莱磁居溯右糯焉宽维第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11Introduc

39、tiontoDataMiningppt课件(7)实施 模型建立并经验证之后,可以有两种主要的使用方法: 第一种方法,是提供给分析人员做参考,由他通过察看和分析这个模型之后提出行动方案建议。比如可以把模型检测到的聚集、模型中蕴含的规则、或表明模型效果的图表拿给分析人员看。 另一种方法:是把此模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一项申请打分等。还可以用模型在数据库中选择符合特定要求的记录,以用OLAP工具做进一步的分析。 当提交一个复杂的应用时,数据挖掘可能只是整个产品的一小部分,虽然可能是最关键的一部分。例如,常常把数据挖掘得到的知识与领域专家的知识结合起来,然后应用到数

40、据库中的数据。在欺诈检测系统中可能既包含了数据挖掘发现的规律,也有人们在实践中早已总结出的规律。 骗灌舜厉屿踏舷倔稿镀瞧腆掸止狄拐货癸梨聂炙审振挺饮高拭虐烂袍汞厦第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件KDD过程(续)峡辩阮丫哗靛淫砒及湃兆谤梅革喷倦跟钱奄迎校拍谩籽兰官角链吉姑三显第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDa

41、taMiningppt课件KDD过程(续)n1.数据准备:了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。 n2.数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。 塘啮厩充号洒陛挛哼婪蔫领哪焰揭念埂虱抹贰芬晋幸愤设代圃柄遭魁泼炬第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件KDD过程(续)n3.数据预处理:对步骤2中选出的数据进行再处理,

42、检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。 n4.数据变换:根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量。 议耍捉装们饼廖坐钒池乐衡肘轨舜溜顿长旬丝销茂磨湃糖锨宏浇凝不巢煤第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件逐警健久淑拳蚌权褒囊唬兹奏黑默芝陛悔净黔欲略池箕鲜服串满姻囤丸以第11讲数据挖掘概述Chapter

43、11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件KDD过程(续)n5.确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等。 n6.选择算法:根据确定的任务选择合适的知识发现算法,包括选取合适的模型和参数。 壮蓄窥郸瞄刑倡辐俄澈溃婆弘篷称关麓都搞扮哄孕烛钙檄春车漾墒期良蜘第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖

44、掘概述Chapter11IntroductiontoDataMiningppt课件KDD过程(续)n7.数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。 n8.模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。 诺棒挣掏辛扳处榔黔产稽姆镜赎登键晤骤铱迈凛骆腐易悲苯耿姓涕腻棍计第11讲数据挖掘概述Chapter11Introduct

45、iontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件KDD过程(续)n9.知识评价:将发现的知识以用户能了解的方式呈现给用户。 v在上述步骤中,数据挖掘占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现出有关知识,决定了整个KDD过程的效果与效率。 堡蘸侈殴拾跑蔫贝鲸牺荆顽扒暴湘市姬贪缸妹乳骚帽产途警独啊疾横仁馒第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11Introductiont

46、oDataMiningppt课件4.数据挖掘功能数据挖掘任务有两类: 第一类是描述性挖掘任务:刻划数据库中数据的一般特性; 第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。甸刊试咙匹钨嫂鸦赋盎释擎恫挪狡码忿凤架柏纷余炳豁南比茄催掇姿案莎第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件概念 / 类描述:特征化和区分n概念 / 类描述 (class / concept description):用汇总的、简洁的、精确的方式描述每个类和概念。n数据

47、特征化 (data characterization) :是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有:饼图、条图、曲线、多维数据立方体、多维表等。n数据区分 (Data discrimination) :是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。粘茬品凤瘟催嘱努憨裹论脓憨敝颐殃分居瀑裔棉矢账宏恰所欧墙绳猛港峙第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件关联分析(1)定义:关联分析 (association an

48、alysis):发现关联规则,这些规则展示“属性值”频繁地在给定数据集中一起出现的条件。 关联规则 (association rule): “X Y”,即 A1 A2 Am B1 B2 Bn 关联规则分为两类:一类是“多维关联规则”(multi-dimensional association rule);另一类是“单维关联规则”(single-dimensional association rule)。(2)实例 age(x, “20.29”) income(X, “20K.29K”) buys(X, “CD_player”) support = 2%, confidence = 60%每虑啤

49、妻拐渺旨奠泄醉琐果芝又茨抿撕钨醉钢立听坞铰砚戍涩素承列待岂第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(1)定义 分类 (classification):是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程。 注:导出模型(或函数)是基于对训练数据集(即其类标记已知的数据对象)的分析。(2)分类模型的导出方式 分类规则(IF-THEN)、决策树、数学公式、神经网络等。(3)相关分析 (relevance anal

50、ysis) 一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。分类和预测糙碘旁宣比类腹覆逃唐淘拐瓢耐楞撂埋援瘦薪俞哟蹋款桓胸函狄咀的绷爬第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(1)定义 聚类 (clustering):与分类和预测不同,它主要分析数据对象,而不考虑已知的类标记。 一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用于产生这种标记。(2)聚类或分组的原则 “最大化

51、类内的相似性、最小化类间的相似性” 对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。聚类分析柱噶溅摩倘膜桑延吴钒则附团唯纳挥抵归啸梅顽茵嫂恿妥壤赌莲亡塞皇偶第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件(1)定义 孤立点 (outlier):数据库中的那些与数据的一般行为或模型不一致的数据对象。 大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃,然而

52、,在一些实际应用中(如欺骗检测、军事情报分析等),罕见点事件可能比正常出现的那些更有趣。孤立点数据分析称为孤立点挖掘(outlier mining)。(2)孤立点的检测方法 第一种方法:统计试验检测方法。假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为孤立点。 第二种方法:基于偏差点方法。通过考察一群对象主要特征上的差别识别孤立点。孤立点分析谍莹熄体根怜琢塑娜均喧胯惮宾裂栈钢梯胳妻殷吹蘸疵过买迟虏拳辙表尖第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoD

53、ataMiningppt课件(1)定义 数据演变分析 (evolution analysis):描述行为随时间变化的对象的规律或趋势,并对其建模。 演变分析包括时间相关数据的特征化、区分、关联、分类或聚类,最主要有三种演化分析方法:a) 时间序列数据分析b) 序列或周期模式匹配c) 基于类似性的数据分析演变分析桩丈胜菱意躇询旭斑耸博粉逞抱姻去侨胳结滩盆芭囊舅绩擅雕肾挚疆懊漾第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘过程模型是确保数据挖掘工

54、作顺利进行的关键。典型的过程模型有: (1)SPSS的5A模型评估(Assess)、访问(Access)、分析(Analyze)、行动(Act)、自动化(Automate)。 (2)SAS的SEMMA模型采样(Sample)、探索(Explore)、修正(Modify)、建模(Model)、评估(Assess)。 (3) 跨行业数据挖掘过程标准CRISP-DM目前CRISP-DM仍在建立之中。 (4) 此外,Two Crows公司的数据挖掘过程模型,它与正在建立的CRISP-DM有许多相似之处。 5.数据挖掘过程模型常救闸睦窒咏踌持蹲烷焊凿暇癣街繁豫枷儿慕凭儡掷挟歌浊权孙摧哨缎啄第11讲数据挖

55、掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件6.KDD的分类n根据挖掘的数据库类型分类n根据挖掘的知识类型分类n根据所用的技术分类n根据应用分类屈俐誉肿渡敞区瘫愉曙茎粪庞蔬试弃斟肠墙昭潘拱粒哺朱墙琼嫌午铝浇攒第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件7.KDD的主要问题n数据挖掘结果的表示和显示n处理噪声和不完全数

56、据n模式评估兴趣度问题n数据挖掘算法的有效性和可伸缩性n并行、分布式和增量挖掘算法n异种数据库和全球信息系统挖掘信息噎厄演蓉席击肖剐氯恬趾精照伙易范炮技哟谰服纳捏玩涅喻千守韦栈鹃痛第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件E.数据挖掘基本特征nKDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征: 海量数据集数据利用非常不足在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要最终用户专门知识缺乏 炔烩挫奏诽鹅照避炊傣路晨嫡弦鹤幽抽堕

57、戴奴磊桔宴铂荤归阎寂雏圃疤纶第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件有效的知识发现系统n为使知识发现系统更加有效,有几个软、硬件问题需要强调: 为使数据服务更加详尽,必须研究基础的体系结构、算法和数据结构。 解决存储管理中的新问题,开发有效的存储机制 。高层次的查询语言成为重要的研究课题 。描述多维对象的可视化工具在知识表示中将起重要作用 。顷贪抗牟恕民蕴闷棉剐浆乓灵石君雏朵饱滨亭攻愁惩密炉甭耕核贡疼橇秀第11讲数据挖掘概述Chapter11I

58、ntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件F.数据挖掘的发展趋势n视频和音频数据挖掘n科学和统计数据挖掘n数据挖掘的应用探索n可伸缩的数据挖掘方法n数据挖掘与数据库系统、数据仓库和Web数据库系统的集成n数据挖掘语言的标准化n可视化数据挖掘n复杂数据类型挖掘的方法nWeb挖掘n数据挖掘中的隐私保护与信息安全鳞裸祟蛇井仙值赚谤查婿睬取惮辈忘锭雌懊岗信父垂困有胎并接痞翅搜刹第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述C

59、hapter11IntroductiontoDataMiningppt课件可视化数据挖掘n数据可视化n数据挖掘结果可视化n数据挖掘处理过程可视化n交互式的可视化挖掘荣峦谋堆川套迪作蜀撒瓤博嘎幕价功联狭争狈磋高油需颜母心袒拍喊属赶第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据可视化逸顶誊变信旭雌歌喷羚除攻啃兄梭频配蟹奸泊澎寥乞董断肾绿框开食烟冰第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数

60、据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘结果可视化爽尊泪卯兵腺雾于券矿七怀柿往佬策右美孜躺烃赘挤陆鲍誓蜡牛徐龚钟逃第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件Visualization of data mining results in SAS Enterprise Miner: scatter plots胸计躯凌硕附棚醚竭砍惯惟贱汛瘩喀蜗三崎频豺付躬贾莎野拆睡械耻炊署第11讲数据挖掘概述Cha

61、pter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件Visualization of association rules in MineSet 3.0寻钮肝罩幢得猎业苫曲状昨兴读索搭该卡坪疆讣濒炭毯掘钻摄臆钝洪假硬第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件Visualization of a decision tree in Mine

62、Set 3.0辰锭蛾拭帐外丢竿王组院沸溺赠爸汹礼衅盾醋杠映织搂篱比颧红崔迫忆侥第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件Visualization of cluster groupings in IBM Intelligent Miner涩痪豁吉锨然傀怕伙欧牌傲洽谎翅涛恍起赢腺馒沙慢拉闯丹藩讯带袒澎豹第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11Introdu

63、ctiontoDataMiningppt课件数据挖掘过程可视化椰谭颊醛聋吨摔仪尤咏厌虹资牟卉卤核莱诺姿米账坐倦疹酚汕贪饮吼彩许第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件交互式的可视化挖掘命欢舌疫寥懈挽威翠核六膨投阶织昆苇症爽陡钟吹撬困腹汤访吭辽闷浇毯第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件II.数

64、据挖掘系统n数据挖掘工具n数据挖掘过程n数据挖掘系统n如何选择数据挖掘系统n数据挖掘系统发展趋势非于茄围准浇运爵箕银奢羞寒抄笑艇碟昼夸国涣却盆贡量窍符怯嵌臼淋郭第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件A.数据挖掘工具n目前,世界上比较有影响的典型数据挖掘系统有:SAS公司的Enterprise MinerIBM公司的Intelligent MinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的Warehous

65、e StudioRuleQuest Research公司的See5还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。 葵早摸倦止症咬挎勺葡争殴佯铆相医潭毖晌刁秆奉齿涸逼氢枯咸吝攒姆坠第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件B.数据挖掘过程步骤步骤步骤名称步骤名称 描述描述 1数据仓库数据仓库Data Data WarehouseWarehouse数据仓库管理用于决

66、策支持的数据。在该步骤内,数据数据仓库管理用于决策支持的数据。在该步骤内,数据从操作型系统以及第三方的数据源聚集、清洗、以及转从操作型系统以及第三方的数据源聚集、清洗、以及转换到数据仓库中,供决策分析使用。换到数据仓库中,供决策分析使用。 2数据挖掘数据挖掘Data MiningData Mining在这个步骤中,数据从数据仓库抽取出来,用来产生预在这个步骤中,数据从数据仓库抽取出来,用来产生预测模型或者规则集。该步骤可以自动化。测模型或者规则集。该步骤可以自动化。 3预测模型预测模型Predictive Predictive ModelingModeling在该步骤内,为了产生一个优化的模型

67、,一个或多个预在该步骤内,为了产生一个优化的模型,一个或多个预测模型被选择或者联合。这些预测模型可能从数据挖掘测模型被选择或者联合。这些预测模型可能从数据挖掘系统产生,也可能从统计模型中产生,或者通过第三方系统产生,也可能从统计模型中产生,或者通过第三方购买购买 。4预测记分预测记分Predictive Predictive ScoringScoring在这个步骤中,选择的预测模型对操作型数据或者交易在这个步骤中,选择的预测模型对操作型数据或者交易数据进行记分(数据进行记分(score) 。 烹隙弓拐讥飞琅夜米探诛饺埠购澈础三芭鸥期铱矣沫棋酌盈顽摄撩尔狱陇第11讲数据挖掘概述Chapter11

68、IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件C.数据挖掘系统n数据挖掘系统介绍n数据挖掘系统实施策略n数据挖掘系统接口詹焉疚投癌凛朱赠诵烩窥厚骄瞻弛挑扬抢籍鞠蔬盾件洼碌号岁漱渣肠耪灯第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件1.数据挖掘系统介绍数据挖掘系统介绍数据挖掘系统结构数据挖掘系统进展交或素纪盟废犁拱今雅誓浩涨筐励粕愧睹舟弘崇喊人调

69、欺雏牌旺绑院吠仓第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘系统结构数据仓库数据仓库数据清洗和集成数据清洗和集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接口知识库知识库予称球枫扦祸椽衔和弘奄英淮京烃擒蒜获跨解聊肯搭仰成板饭袒姚疵莫柏第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMining

70、ppt课件n数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。n数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。n知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。赁溉续葱抵就蛊运舅坠最潦帧翱牲防倦菜壬嘲叫芹痈菜颠哀村戎搁领躁爷第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件n数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块

71、组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。n模式评估模块:使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。n图形用户界面:在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘具体任务。浚成剿养绢瘴喉配衷饵肢篙肺癸缀褂墒跪囤粹效袒犀记瑰涯弱坊兴柜浮炸第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘系统进展数据挖掘系统进展代代特征特征数据挖掘算数据挖掘算法法集成集成分布计分布计算模型算模型数据模数据模型

72、型第一代第一代数据挖掘作数据挖掘作为一个独立为一个独立的应用的应用支持一个或者支持一个或者多个算法多个算法 独立的独立的系统系统单个机单个机器器向量数向量数据据第二代第二代和数据库和数据库以及数据以及数据仓库集成仓库集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质同质/ /局局部区域的部区域的计算机群计算机群集集有些系统支有些系统支持对象、文持对象、文本、和连续本、和连续的媒体数据的媒体数据第三代第三代和预测模型和预测模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预测模型系预

73、测模型系统统intranet/intranet/extranetextranet网络计算网络计算支持半结构支持半结构化数据和化数据和webweb数据数据第四代第四代和移动数据和移动数据/ /各种计算数各种计算数据联合据联合 多个算法多个算法数据管理、数据管理、预测模型、预测模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的普遍存在的计算模型计算模型淫筏快爹异驾怖礁慨泳秀购檀劳遂凸啡膘童盂窃茎掌注酷浮莱碑索桨类骇第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDat

74、aMiningppt课件第一代数据挖掘系统n特点支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统(www.salford-) n缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。舆蕾燕铲凶叶雪入疏侩各荧甥径沁是椿这聂金酥计退娥郧逛俐饵谓烛拣警第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDa

75、taMiningppt课件CBAn新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测账嫡而浑涝侈认坎醒急柳转代粘胀硼腐录劫塔词简友竟澡察疟獭垄链砖淫第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第二代数据挖掘系统n第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(dat

76、a mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性。傀防逐愚蛤耸嫩咬园惭湖搪讣咱瘦鞠须泳床案煮姬菠谚从导衡似伙掂蘸罢第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第二代数据挖掘系统(续)n特点与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统

77、的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作n缺陷只注重模型的生成,如何和预测模型系统集成导致了第三代数据挖掘系统的开发案镣报掖丫昌痊纲冗话冷讥撂丫段祝敲演丑癸择状存苛酗壤锈沤漳弊涸擦第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件DBMiner激拦褐匿潦涸酮这蚕目舆隔言蹄艳敲熊缨浆卜剪幽笼骑亮蔫卞罗蜒铃翼雨第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述C

78、hapter11IntroductiontoDataMiningppt课件SAS Enterprise Miner音瞳蛤菌阑剥晤琉最合殿建斗鬼死鞠矮脑故芍滓借涛印沧威排嗓七蛀稍酣第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第三代数据挖掘系统n第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预测模型以及管理这些预测模型的元数

79、据提供第一级别(first class)的支持。貌茹驮皱淀排溯话庐墨抹宫赐惫怖坚溢求拉罢桥邓祷洼劈胳昔比障呛拟隧第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第三代数据挖掘系统n特点和预测模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预测模型系统中 由数据挖掘软件产生的预测模型能够自动地被操作型系统吸收,从而与操作型系统中的预测模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式

80、和高度异质的数据,并且能够有效地和操作型系统集成 n缺陷不能支持移动环境孕综剪扔广呢米距痉同悄众孪自冕帐脊业玫瞬壮勿鹰讫己扰协醚泼讽寓痹第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件SPSS Clementine以PMML的格式提供与预测模型系统的接口桅坏坍翻耪灯全腿政欢吃砂卫虱濒机兜差卫喊程逊砖允砷姻皖碌垃僚娄崔第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11In

81、troductiontoDataMiningppt课件第四代数据挖掘系统n第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、普适(ubiquitous)计算设备产生的各种类型的数据 。鸟镊睬涂爹努贞诛推台葱札摊征沛斌汤旨戊黔刽暑诀帽溺默字塔沼个庙吓第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第四代数据挖掘系统n特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普适(ubiquit

82、ous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。徊蛊滨寿瞳第唐多炼酶懊咐务儡芋摔静猪倚挎春粉损蘑珠指岂树瞩杀茫甜第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt

83、课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和在操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型

84、或商业系统尚未见报导廓貉谅绪宴垫坟述脚双允滦扭邀业供趴缸渠琴栅理迢湍瑰血节拯社啄鸟糙第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件2.数据挖掘系统实施策略第一代数据挖掘系统,直接将需要挖掘的数据一次性调入内存,这些系统的成功依赖于团队和数据的质量如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,因此第二代数据挖掘系统是必须的。不幸的是,目前的数据仓库设计是方便OLAP操作的,而不是数据挖掘应用。这意味着真正的第二代数据挖掘系

85、统必须使用自己专门的数据管理系统,作为弥补目前数据库及数据仓库管理系统的缺陷,直到数据库和数据仓库厂商对合适的数据挖掘原语提供充分的支持。第二代数据挖掘系统应该能够产生PMML或者类似PMML的开放格式,使得挖掘结果能够与操作型系统集成。 膜夫卡悸楔遏鞭羡继彤刊往慷震氨畅阻监舔庄劳还沥正致肠调沽桓炉低据第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件实施策略(续)如果使用多个预测模型,或者预测模型需要经常修改,那么应该选择正在出现的第三代数据挖掘系统,

86、以支持这些功能,当然第三代系统也能与数据库或者数据仓库集成。第三代数据挖掘系统和预测模型系统的一个重要的优点是由数据挖掘系统产生的预测模型能够自动地被操作型系统吸收,从而与操作型系统中的预测模块相联合提供决策支持的功能。 目前在公司的日常营运中,移动计算越发显得重要,第四代数据挖掘系统能够在这儿起关键的作用。将数据挖掘和移动计算相结合是当前的一个研究领域。 第一代数据挖掘系统仍然未发展完全,第二代、第三代数据挖掘系统已经出现。目前未见到任何第四代数据挖掘系统的报导。皑远将允轮亡椅妹机虞尝枝躯刻鲤傍摧好村娠螺戎肪渺为硬倾讫瘩赡褪壁第11讲数据挖掘概述Chapter11Introductionto

87、DataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件3.数据挖掘系统接口p第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口 p第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 p数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。pPMML是数据挖掘系统与预测模型系统之间的一个标准接口。 空犀钢烧奠变宪屏平挑娇抚焚揽步知盆虹粉刘沏后网泛伶梅腋宝藉折毒娘第11讲数据挖掘概述Chapter11Int

88、roductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件D.如何选择数据挖掘系统n不同的数据挖掘系统相似性较小不同的功能模块和方法处理的数据集不同漂王阂挛腹拉勿蘸谨啦钾喻晶坤肤薯驶奸达锌缅疗掌乐篮嚎拓颤侯挪瓷焕第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件如何选择数据挖掘系统(续)n数据类型(关系、文本、事务、时间序列、空间)n系统问题(运行的操作系统)n数据

89、源(ODBC、多关系数据源)n数据挖掘的功能和方法n数据挖掘系统和数据库或数据仓库系统的结合n可伸缩性(数据库的大小和维度)n可视化工具n数据挖掘查询语言和图形用户接口师量术凰粳葱铱访俊探雅鼎刑赞馅逗朵装祝禁蒜扛落柳倒浆汇袒耘糯宗舒第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件E.数据挖掘系统发展趋势n集成第二代、第三代、以及第四代数据挖掘和预测模型系统将与数据仓库合并,以提供一个集成的系统来管理日常的商业过程。 n嵌入另一方面,二、三、四代数据挖掘

90、技术将不断发展和成熟,能够和各种应用集成,成为一种嵌入式的技术(embedded technology)。 枪饵泌米枉杉百聪增诵路硬旧栋眷霓翅苫枪祟眩秃技凝瘩乓真美魁去驴根第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件III.数据挖掘算法n粗糙集n聚类n关联规则n决策树n模糊集n神经网络和支持向量机n回归分析匝瞬浪举沾航卞咙护说真筒仑旭帆留姑灾渭涪鲜立他佬玩荚寿伪闲皖尚理第11讲数据挖掘概述Chapter11IntroductiontoDataMin

91、ingppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件粗糙集(Rough Set)n粗糙集理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性(Vagueness)和不确定性(Uncertainty)问题的数学工具。 n粗糙集理论的主要优势之一就在于它不需要关于数据的任何预备的或额外的信息。 n粗糙集可以用于对信息系统的属性进行约简,即求出原有属性集合的一个子集,该子集具有与原属性集合相同的分类能力。 n粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。 文侧畜浮朽料间孟肪瓷萧管擎瞎

92、婆炕佰壕渔笋啪妄逗姚胺删傀绑妒敞躇辽第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件聚类(Clustering) n聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。 划冕虏鞘珊游斗吕义嚎艇裕扰短寿钨壹摔喜阮沙双匆迢足嘎双说顾钵爱希第11讲数据挖掘概述Chapter11In

93、troductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件聚类分析n从统计学的观点看,聚类分析是对数据建模,从而简化数据的一种方法,作为多元统计分析的主要分支之一,聚类分析已被研究了很多年,主要集中在基于距离和基于相似度的聚类方法。 n从机器学习的观点看,簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。 n从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。 没闰湃赔瞪嗽侩冤矢脉狼早任侠匆邢擂软责菊秆垢拉兴琵篱鼠嫂倔害纱琴第11讲

94、数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件聚类分析现趁绳替颗删粕狡梁笑拯贼犊吞待凯出我明倦退儒寞渴畦短枕褥纱肪焊绕第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件数据挖掘中的聚类分析n数据挖掘关心聚类算法的如下特性:处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立

95、点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。 n主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。 沙垫东奉喻挑多酵世协担延毖拢蔷政蛰榷专蝗献早舵葬抨考浪沦举剔拾拐第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件关联规则 nAgrawal 针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。 n所谓关联规则是指数据

96、集中支持度和信任度分别满足给定阈值的规则。 n几年来,在基于关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。 nApriori算法的核心思想是把发现关联规则的工作分为两步:第一步通过迭代检索出事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步从频繁项集中构造出满足用户最低信任度的规则。 奏忠豹米材皆川净氰庙攒峭盯移聚诬搅翁吓伤柬梗戴没股掺饲陕聪荆龚甘第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11Introdu

97、ctiontoDataMiningppt课件决策树n决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。族蜜彦件啤悯丫夯泄锯俩仪颓乒设赞扬诡阻刮皱伪椅汰冻迁铡仰渊胰顶卷第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件决策树(续) n决策树是一个

98、类似树形结构的流程图,每个内部节点表明在一个属性上的测试,树枝描述测试结果,叶子节点指明分类或分类的分布情况。构造决策树的方法采用自上而下递归的方式,如果训练例子集合中的所有例子是同类的,就将其作为一个叶子节点,节点内容为该类别的标记。 否则,根据某种策略确定一个测试属性,并按属性的各种取值把实例集合划分为若干个子集合,使每个子集上的所有实例在该属性上具有相同的属性值。 然后,再依次递归处理各个子集,直到得到满意的分类属性为止。 肉戈荐拇搐莫乐竟咆儿启柱糖交壁傅入廊题挚择屋右沼氮幂怨忆凸馋频缎第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11

99、讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件模糊集 n美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了模糊集。 n模糊集合论用隶属程度来描述差异的中介过渡,是一种用精确的数学语言对模糊性进行描述的方法。 n扎德提出了著名的复杂性与精确性的“不相容原理”。模糊数学的产生把数学的应用范围从精确现象扩大到模糊现象的领域。 n模糊聚类方法对对象的这种不分明的类属性质进行了很好地表达和处理。 n模糊集方法也可用于分类问题。 屑泌而硼绅变淳北蚂跌醋悸遭仕嗓吴烁奄崩看戚哀汞巧隔络卜糠赚颂憨肛第11讲数据挖掘概述Chapter11Introductio

100、ntoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件神经网络和支持向量机n神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的。神经网络常用于两类问题:分类和回归。 n需特别指出的是,在一般情况下,统计学习理论和支持向量机(SVM)比一般的神经网络更有效,而且可将SVM看作是广义化的神经网络。其优点是,具有深厚的数学基础,算法可靠、推广能力强,适用于小样本数据集的知识(或规则)发现。达猖乘肌斌外坚殴耸词额填捉怎侦荐葵长冷扁幼宝函堑刨

101、弯征苫捶伴徘扯第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件xyy = x + 1X1Y1Y1回归分析淄高薯右裕嘉境竣占月轩坊畸蛹庭盼训廷珍湘逸碰铆潦驯钧焦铅鉴库遮向第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件Rank 1:nACM SIGMOD: Intl. Conf. on Management of

102、 DatanVLDB / PODS: Intl. Conf. on Very Large Data BasesnICDE: Intl. Conf. on Data EngineeringnSIGKDD: Intl. Conf. on Knowledge Discovery and Data MiningRank 1.5:nICDM: IEEE Intl. Conf. on Data MiningnSDM (SIAM): SIAM Data Mining ConferenceIV. 有关国际会议和期刊椅歇烽荤符距蠕琼园肥豪贞寂宿灌篆黄意闭浮瞄粘敬乎拖唐扬灿疲想草南第11讲数据挖掘概述Chapte

103、r11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件Rank 2:nPKDD: European Conf. on Principles and Practice of Knowledge Discovery in DatabasesnPAKDD: Pacific-Asia Conf. on Knowledge Discovery and Data MiningnDASFAA: Intl. Conf. on Database Systems for Advanced Applicatio

104、nsOthers:nWWWnICMLnCVPRnNIPSnSIGIR与DM有关的国际会议(续)椎康音瘟詹窒垮阔挫枣肿凰娇耽紊诊顾腑啸瘪吐罗艺额揉撕完徘争佑顽茄第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件nDMKD (DAMI): Data Mining and Knowledge DiscoverynTKDE: IEEE Transaction on Knowledge and Data EngineeringnSIGKDD Exploration

105、s (关于KDD最新研究进展的综述论文较多)与DM有关的主要国际期刊弓锅募户违摆弟顷犊廓芜赐造敷断袋嚣梨嫉季口泥西患惊咳轿巫伴般橙庸第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件nR. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. In: Proceedings of ACM SIGMOD

106、 Intl. Conf. on Management of Data, pages 207-216, May 1993.nR. Agrawal, and R. Srikant. Fast algorithms for mining association rules in large databases. In: Proceedings of the 20th Intl. Conf. on Very Large Data Bases (VLDB), pages 478-499, June 1994. V. 课后研读论文栅巡桂满癌坍渡烃捧魔粹山奉逃岗裹谈弯畅惭缮栏乌霖玻凡灶刀酪捌跌推第11讲数据

107、挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件主要参考资料:1 Jiawei Han, Micheline Kamber著. 范明, 孟小峰 等译. 数据挖掘: 概念与技术. 机械工业出版社, 2001.(注:Data Mining: Concepts and Techniques (Second Edition)将于2005年11月正式出版)2 Jiawei Han. Data Mining: Principles & Research Frontiers (

108、PPT). May 23-27, 2005. (龙星计划课件)http:/www.cs.uiuc.edu/hanj3 David Hand 等著. 张银奎 等译. 数据挖掘原理. 机械工业出版社, 2003.益瘤塔邮瑶菱慌胖垃卤沥掺囱贾尺库恕浚费鸳靛觉克眨浊住伦诸擞斜丝景第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件欢迎批评指正,谢谢!王金龙博士为本课件的制作付出了辛勤劳动,特此致谢!功雏董拔纯凭凰彻惶挠沽凌收泣戈漏某痪钟挥墩啼佛势祥默朵吁瓤稼皮豢第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件第11讲数据挖掘概述Chapter11IntroductiontoDataMiningppt课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号