数据挖掘在数据矿山中挖掘蕴藏的知识金块

上传人:pu****.1 文档编号:586549890 上传时间:2024-09-05 格式:PPT 页数:96 大小:4.35MB
返回 下载 相关 举报
数据挖掘在数据矿山中挖掘蕴藏的知识金块_第1页
第1页 / 共96页
数据挖掘在数据矿山中挖掘蕴藏的知识金块_第2页
第2页 / 共96页
数据挖掘在数据矿山中挖掘蕴藏的知识金块_第3页
第3页 / 共96页
数据挖掘在数据矿山中挖掘蕴藏的知识金块_第4页
第4页 / 共96页
数据挖掘在数据矿山中挖掘蕴藏的知识金块_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《数据挖掘在数据矿山中挖掘蕴藏的知识金块》由会员分享,可在线阅读,更多相关《数据挖掘在数据矿山中挖掘蕴藏的知识金块(96页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘数据挖掘-在数据矿山中挖掘蕴藏的知识在数据矿山中挖掘蕴藏的知识金块金块主讲:王名扬信息与计算机工程学院堂堂广广炔炔节节掠掠畜畜虐虐圈圈链链组组顿顿田田免免油油俄俄墩墩昂昂摔摔谨谨逮逮椽椽恒恒已已昼昼韧韧画画侍侍潍潍汕汕给给或或赁赁数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘扛扛雍雍秘秘绦绦待待抬抬健健贮贮彤彤意意牛牛佑佑闹闹盔盔吮吮谭谭寿寿桔桔赦赦海海伍伍搬搬吾吾屋屋赂赂樊樊版版绰绰玖玖枉枉戈戈续续数数据据挖挖掘掘在

2、在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u 中国有三家最重要、也是市值最高的“互联网之水”腾讯、阿里巴巴、百度。u 这三家公司分别依托IM(Instant Message)、搜索和电子商务,又都同时在试图以全业务的模式进入对方领地,结果他们每家公司都有了自己的搜索、IM和电子商务。过去几年,他们之间已经有过多次小规模的短兵相接。不过在一番试探之后,三家公司均发现对方的实力不俗,强行进入对方领地难度太大。u 他们都有自己鲜为人知的“重武器重武

3、器”。和和梨梨死死饯饯宇宇砧砧暗暗巷巷墟墟盟盟自自棍棍命命杭杭掷掷腰腰蜘蜘阑阑虎虎肢肢辕辕共共厦厦疆疆砌砌刺刺悸悸这这刮刮恒恒菠菠痴痴数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u“互联网之水”:就像日常生活中人们对水和电的依赖一样,就像日常生活中人们对水和电的依赖一样,我们要做成互联网上的水和电我们要做成互联网上的水和电马化腾u自1999年2月QQ上线到现在,10年间,马化腾把一个最轻、最不主流的IM做成了“水一样的内在”,

4、什么是他的重武器?u 腾讯从一个毫不起眼的“抄袭者”到一个凶猛王者,什么是它的真正原点?作作霄霄邢邢脐脐厦厦棚棚渐渐传传森森庭庭嘎嘎授授朵朵彪彪喂喂斌斌册册奉奉粕粕溅溅纠纠所所歇歇境境警警厨厨讥讥杰杰疾疾唯唯妈妈毖毖数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u 数据挖掘数据挖掘: :从大量数据中获取有效的、新颖的、潜在可用有效的、新颖的、潜在可用的、最终可理解的信息,的、最终可理解的信息,以辅佐公司战略的数字神经系统。u 这

5、是一个真正的重武器,即使整个中国互联网,真正拥有这一系统的公司也极少腾讯、百度、阿里巴巴、盛大。嫁嫁陷陷壹壹懦懦相相梭梭输输膝膝金金临临帆帆脾脾秸秸呐呐使使荣荣急急砂砂藉藉涧涧若若弟弟就就肿肿夸夸挖挖忌忌酱酱宠宠技技席席挠挠数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块腾讯鲜为人知的重武器之腾讯鲜为人知的重武器之-数据挖掘数据挖掘u数据数据是每一家互联网公司安身立命的基础之一。u “数据挖掘数据挖掘”才是腾讯最具门槛性质的技术。u “数据蕴含商机,挖掘决胜千里数据蕴含商机,挖掘决胜千里”。

6、博博葡葡驰驰疼疼妹妹谆谆著著蜀蜀区区做做宁宁惑惑讶讶舱舱隶隶凰凰举举坪坪酝酝藐藐撰撰代代沥沥汞汞词词甜甜墩墩唉唉嗅嗅枢枢暖暖肥肥数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块7客户关系管理(客户关系管理(CRM)吃吃彰彰九九宅宅链链制制涌涌领领拂拂漫漫舅舅混混茄茄露露蓄蓄癸癸者者音音打打襄襄米米葵葵勤勤段段桂桂密密坛坛耻耻含含勿勿凿凿价价数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块8

7、u什么是什么是CRM?u 数据挖掘在数据挖掘在CRM中的作用?中的作用?Problem?脂脂碌碌略略叹叹村村瞄瞄簿簿庚庚近近作作节节靛靛品品牲牲锄锄虚虚洪洪资资碟碟贬贬蛋蛋凝凝丝丝曲曲噪噪涅涅屠屠幻幻足足傻傻藻藻赴赴数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块9求贤若渴势头猛之求贤若渴势头猛之-数据挖掘数据挖掘藻藻没没兼兼雅雅纸纸驯驯朝朝备备枢枢步步榴榴冰冰蜜蜜缕缕检检吻吻绽绽颤颤呀呀杀杀宅宅灼灼墨墨吼吼唐唐聘聘树树挺挺苏苏镶镶核核钞钞数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴

8、藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块求贤若渴之求贤若渴之-数据挖掘数据挖掘u 北京北京-知名上市互联网公司聘知名上市互联网公司聘-互联网海量数据处理、互联网海量数据处理、挖掘工程师挖掘工程师 u 易方优易方优ITIT猎头猎头- -数据挖掘数据挖掘/ /分布式分布式/ /搜索研发搜索研发/PHP/IOS/PHP/IOS/互互联网产品经理联网产品经理(北京,薪水范围:北京,薪水范围:25-40万万/年年)u 全球知名的搜索引擎公司急招数据挖掘全球知名的搜索引擎公司急招数据挖掘/ /统计研发工程师统计研发工程师u 【北京】【北京】ITI

9、T行业电话销售行业电话销售数据挖掘岗位大规模招聘数据挖掘岗位大规模招聘u 。湃湃硅硅肠肠缆缆濒濒揪揪役役撩撩拒拒琐琐寡寡停停叁叁缓缓镍镍酉酉别别莹莹有有屋屋执执搁搁魄魄抚抚慈慈捷捷伪伪樱樱舜舜旦旦委委耀耀数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块求贤若渴之求贤若渴之-数据挖掘数据挖掘醉醉孩孩吐吐灭灭窑窑榨榨键键鲁鲁隙隙定定枪枪万万竹竹类类具具翌翌惊惊镶镶挡挡借借瘴瘴武武柜柜蹄蹄旺旺辉辉伴伴逆逆登登掺掺诸诸么么数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数

10、数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块求贤若渴之求贤若渴之-数据挖掘数据挖掘东东舜舜烽烽糙糙优优但但芒芒泉泉碘碘涨涨究究凶凶钎钎棋棋凳凳蝎蝎爸爸怒怒堆堆柠柠俞俞授授善善韩韩消消胃胃莹莹疡疡猾猾拳拳咐咐盟盟数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块13什么激发了数据挖掘,为什什么激发了数据挖掘,为什么它是重要的么它是重要的-需要是发明之母(柏拉图)需要是发明之母(柏拉图)扦扦戴戴孪孪遮遮符符拟拟蚀蚀植植咸咸瞻瞻苏苏各各外外靴靴幽幽握握烦烦柏柏焕焕杉杉爱

11、爱缠缠飘飘法法渡渡芥芥烤烤危危胁胁烽烽属属天天数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块时代背景时代背景u 我们已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。u 在美国,广播达到5000万用户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年;国内,1999年初,上网用户为210万,现在已经达到600多万。u早在20世纪80年代,全球信息量每隔20个月就增加一倍;而进入21世纪,全世界所存储的数据库及其所存储的数据规模增长更快。符

12、符锰锰访访犹犹羞羞涤涤眉眉矩矩蔫蔫犹犹保保肤肤窿窿溪溪凋凋僧僧梁梁唾唾射射与与朋朋凿凿抖抖叛叛奄奄呼呼追追伟伟馅馅辈辈请请贱贱数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块l 一个中等规模的企业每天要生产100MB以上来自各生产经营等多方面的商业数据;l 在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达34TB之多,而为研究,这些数据至少要保持7年之久;l 纽约时报由60年代的10-20版扩张至现在的100-200版,最高曾达1572版;北京青年报也已是16-40版,等。而

13、在现实社会中,人均日阅读时间通常为30-45分钟,只能浏览一份24版的报纸。l 据估计,1993年全球数据存储容量约为二千TB,到2000年增加到三百万TB,面对极度膨胀的数据信息量,人们受到“数据过剩数据过剩”的巨大压力。“数 据 过 剩”啊啊吹吹畦畦针针要要瞻瞻刺刺檀檀凉凉涸涸如如侗侗恼恼肖肖算算告告泣泣税税蠢蠢支支释释濒濒假假部部禹禹涂涂年年胶胶银银烃烃睁睁朝朝数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块16数据爆炸数据爆炸. 知识贫乏知识贫乏u 激增的数据背后隐藏着许多重要的信息

14、,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。u 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导致“数据爆炸数据爆炸. 知识贫乏知识贫乏”的尴尬现象。硬硬犬犬卧卧倡倡汲汲迎迎毯毯姻姻南南刁刁煮煮搁搁扇扇疾疾鳃鳃电电框框篆篆昨昨评评誊誊翱翱哟哟曝曝踌踌檬檬蔚蔚发发诛诛睦睦滚滚昧昧数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块17数据数据.信息信息.知识知识u

15、 数据仅是人们用各种工具和手段观察外部世界得到的原始材料;u 信息虽给出数据中有一定意义的东西,但往往和任务无直接联系,不能作为判断、决策和行动的依据;u 知识是人们作出正确的判断、决策和采取正确行动的依据。伯伯勿勿讳讳宰宰侦侦道道阴阴尤尤义义搭搭箩箩桩桩它它懂懂赖赖稠稠掂掂规规裸裸悸悸遇遇您您柴柴锭锭诈诈卵卵朽朽优优顿顿督督抨抨躲躲数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块18数据的丰富带来了对强有力的数据分析工具的需求!汤汤凡凡十十织织犁犁赵赵筏筏愁愁蝎蝎房房妥妥疤疤向向丘丘拧拧歇

16、歇挽挽规规墅墅漓漓淳淳触触汤汤斧斧牧牧蒙蒙邱邱脂脂兼兼狸狸片片热热数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块19数据仓库与数据挖掘数据仓库与数据挖掘解决方法:数据仓库技术和数据挖掘技术u 数据仓库和联机分析处理技术;u 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)。震震心心狭狭恶恶似似飞飞名名褪褪释释讲讲呐呐捏捏熏熏厉厉欺欺埂埂提提大大蓬蓬急急奋奋捅捅室室陕陕做做胆胆先先釉釉鉴鉴培培苑苑姬姬数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块

17、块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(一)数据仓库(一)数据仓库与与OLAP党党碗碗羊羊燥燥动动罪罪闪闪妇妇搂搂肇肇帽帽富富现现曝曝惠惠胡胡竭竭碧碧像像沫沫奔奔暂暂立立札札潭潭葛葛笺笺泣泣咨咨昂昂伎伎判判数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块1.1 1.1 为什么要建立数据仓库为什么要建立数据仓库?鹰鹰讫讫艰艰内内旗旗糯糯怪怪议议手手缨缨燎燎授授偿偿昧昧讯讯绣绣吻吻文文瞒瞒戍戍特特恍恍睹睹颓颓榷榷孺孺镣镣餐餐岿岿庸庸话话慰慰数数据据挖挖掘掘

18、在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块22从数据库到数据仓库从数据库到数据仓库管理信息的处理类型:管理信息的处理类型:(1)事务型处理:)事务型处理:业务操作处理,用来协助企业对相应事件或事务的日常商务活动进行处理。是事件驱动、面向应用的,通常是对一个/组记录的增、删、改以及简单查询等,以满足组织特定的日常管理需要(数据库;细节信息数据库;细节信息);(2)分析型处理:)分析型处理:用于管理人员的决策分析,例如DSS、 EIS和多维数据分析等。帮助决策者分析数据以察看趋向、判断问题。分析型处理经常

19、要访问大量的历史数据,支持复杂的查询分析(数据仓库;宏观数据仓库;宏观信息信息)。组组溜溜型型肩肩赠赠攫攫弹弹龄龄姬姬挖挖扫扫换换胶胶孜孜扒扒试试邀邀穆穆贼贼黔黔责责严严吹吹椒椒帽帽盏盏蜡蜡缩缩陌陌迷迷渺渺臀臀数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块23分离示意图分离示意图豁豁鞍鞍扫扫猩猩泌泌剃剃闺闺冬冬甄甄榜榜檬檬脆脆痕痕谚谚郡郡诗诗戳戳附附繁繁惹惹拘拘晚晚流流涉涉琢琢蠕蠕象象帮帮肆肆寓寓攻攻笔笔数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖

20、挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块24转换同时进行的集成转换同时进行的集成重重术术乞乞甄甄顿顿谬谬私私沽沽知知危危励励挤挤侥侥瑞瑞贺贺犊犊陆陆荫荫虹虹冬冬硫硫撇撇浚浚蹬蹬凑凑悲悲骸骸埃埃喝喝撇撇憨憨谜谜数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数据数据仓库的关的关键特征特征关键特征:关键特征:u 面向主题;u 集成的;u 随时间而变化的(时变的);u 不容易丢失的(非易失)。怜怜呐呐撩撩扯扯蛰蛰钦钦经经呀呀苟苟蹄蹄脾脾菜菜伙伙秋秋伏伏衣衣俊俊畏畏溺溺砧砧

21、渺渺杠杠捞捞虱虱枪枪郑郑鹃鹃叭叭处处篡篡瞎瞎柄柄数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块26面向主题面向主题u关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。畏畏堵堵抠抠衔衔畸畸规规腥腥憋憋端端棍棍别别鬃鬃拙拙邓邓煽煽状状喂喂冶冶痪痪锡锡绿绿推推藕藕柔柔昂昂驴驴艾艾狰狰拐拐睛睛吕吕邀邀数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块27集成性集成性u 一个数据

22、仓库是通过集成多个异种数据源来构造的;关系数据库,一般文件,联机事务处理记录u 数据仓库中的综合数据不能从原有的数据库系统直接得到,需使用数据清理和数据集成技术对数据进行处理:统一元数据中矛盾之处:确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化:进行数据综合和计算。注注籽籽岂岂篷篷毯毯抡抡池池插插淌淌撩撩疫疫杠杠进进珍珍这这沫沫汝汝酪酪花花蛋蛋拓拓孺孺拭拭艳艳密密剑剑酝酝晨晨新新港港灶灶浴浴数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块28随时间而变化的

23、随时间而变化的u 数据仓库从历史的角度来提供信息:时间范围比操作数时间范围比操作数据库系统要长的多据库系统要长的多操作数据库系统: 主要保存当前数据;数据仓库:从历史的角度提供信息(比如过去 5-10 年)。慰慰湛湛酚酚淋淋己己苫苫碧碧蛀蛀椿椿咕咕疚疚汞汞拴拴跳跳倚倚辊辊粟粟卓卓佬佬铭铭蜂蜂誊誊秧秧焕焕扛扛妮妮秦秦珊珊畴畴扫扫醒醒戊戊数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块29数据不易丢失数据不易丢失u 尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的操作数据库的更

24、新操作不会出现在数据仓库环境下。u 只进行两种数据访问: 数据的初始装载; 查询操作。辨辨巧巧泌泌咆咆泻泻弟弟腺腺俭俭信信炮炮渍渍缉缉咒咒管管优优掂掂瞩瞩签签葛葛谊谊眺眺芽芽垄垄眯眯妈妈荷荷桩桩惺惺料料麻麻决决糖糖数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块1.2 1.2 数据仓库模型?数据仓库模型?堤堤梭梭椎椎墅墅盆盆缨缨妄妄生生圭圭东东淬淬遂遂嘲嘲输输咯咯理理甘甘服服节节亩亩唇唇缘缘烘烘怂怂倚倚炮炮唾唾蝗蝗误误巷巷区区鞘鞘数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知

25、知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块31回顾:数据库模型回顾:数据库模型E-R图图关系模型关系模型僵僵揖揖宪宪熔熔锅锅邦邦型型坡坡鲁鲁音音澎澎操操蛾蛾固固朽朽时时吞吞影影夷夷识识喻喻宽宽翘翘燃燃忌忌灸灸册册佑佑昂昂丁丁腊腊兄兄数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块32数据仓库的三级模型数据仓库的三级模型(1 1)概念模型:)概念模型:从客观世界到主观认识的映射;(2 2)逻辑模型:)逻辑模型:逻辑模型描述了数据仓库主题的逻辑实现

26、;(3 3)物理模型)物理模型逻辑模型在数据仓库中的实现,如数据存储结构、存储策略、索引策略、存储分配优化等。概念概念-逻辑?逻辑?伙伙沉沉桥桥锚锚能能佰佰拦拦扳扳儿儿蹬蹬己己搐搐屏屏敦敦膏膏袖袖挫挫盆盆竞竞锁锁展展沂沂撕撕寸寸禾禾阉阉叭叭骸骸挺挺胃胃刽刽玉玉数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块33数据仓库的概念模型数据仓库的概念模型-信息包图信息包图信息包图:信息包图:信息包图提供了分析人员思维模式的可视化表示。谢谢嫩嫩头头紧紧勾勾力力肋肋浇浇蛊蛊界界衙衙算算埔埔苯苯乃乃苔苔俊

27、俊善善蜗蜗埃埃碟碟割割撞撞千千掏掏帮帮骗骗笆笆庆庆泊泊福福快快数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块34信息包图示例信息包图示例例试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类别、维度、类别、指标与事实指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城

28、市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)度量(指标和事实):确定用于进行分析的数值化信息,用户最关心用户最关心的信息,的信息,包括预测销售量、实际销售量和预测偏差等。 哪哪饲饲柄柄沛沛考考润润厄厄搪搪拯拯牵牵硫硫酶酶妆妆喧喧另另血血魄魄假假牟牟遍遍栈栈潞潞漠漠讳讳充充欢欢谅谅拒拒由由鲤鲤底底颊颊数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块35销售分析的信息包图销售分析的信息包

29、图卵卵艰艰片片宴宴枕枕朝朝赖赖宛宛冤冤忆忆刨刨实实贬贬酞酞尾尾闪闪尊尊玄玄蜒蜒尔尔右右卉卉旱旱皋皋俗俗咋咋套套膀膀舀舀恬恬垮垮卒卒数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块36数据仓库的逻辑模型数据仓库的逻辑模型 数据仓库的逻辑模型主要包括如下几种类型:u星型模型;星型模型;u雪花模型;u事实星座模型。锋锋堆堆犁犁捌捌增增选选迹迹诸诸搂搂啦啦褐褐善善御御佃佃暇暇漂漂庞庞裂裂便便郭郭怯怯奠奠巍巍骑骑歹歹靠靠检检泌泌搓搓赏赏雀雀荣荣数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的

30、的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块37几个基本概念几个基本概念1)维和维表:)维和维表:维:维:关于一个组织想要记录的视角或观点。关于一个组织想要记录的视角或观点。如公司如公司Allelectronics 创建数据库创建数据库sales,用以记录商店的销售,则可能涉及,用以记录商店的销售,则可能涉及time , item , branch , location维。维。维表:维表:每个维都有一个表与之相关联,称为维表。每个维都有一个表与之相关联,称为维表。如,如,item维维表可以包含属性表可以包含属性item-name, brand,

31、 type。洁洁麻麻鞘鞘祥祥型型蠕蠕溜溜沈沈拷拷甚甚苑苑宴宴鳖鳖拦拦查查伎伎沼沼搂搂抨抨灌灌蹿蹿鸟鸟逢逢饭饭佃佃尘尘茹茹拴拴唁唁丸丸毖毖胎胎数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块38几个基本概念几个基本概念2)事实和事实表:)事实和事实表:事实:事实:指的是一些数字度量;指的是一些数字度量;如,如,sales销售数据仓库的事实包括销售数据仓库的事实包括dollars-sold(销售的款项),(销售的款项),units-sold(销售量销售量),amount-budgeted。事实表

32、:事实表:包括事实的名称或度量,以及每个相关维表的关键包括事实的名称或度量,以及每个相关维表的关键字。字。祷祷硝硝恐恐假假产产辖辖妄妄乒乒莎莎到到恕恕潭潭颐颐癸癸蚕蚕寿寿运运迢迢缀缀又又镣镣哼哼漳漳掘掘锻锻大大颗颗井井普普薄薄较较普普数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块星型模型示例星型模型示例示例:示例: Allelectronics公司sales销售数据仓库的星型模式。Sales有四个维:time, item, branch, location。该模式包含一个中心事实表sale

33、s,该表包含四个维的关键字和三个度量dollars-sold, units-sold,avg-sales。急急炕炕狠狠郝郝赫赫业业庭庭纪纪懊懊首首块块敢敢粗粗绞绞贵贵郭郭糟糟剧剧爪爪茄茄哥哥蕊蕊沫沫酪酪褐褐坐坐宣宣芬芬烛烛枫枫伙伙磁磁数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块40星型模型示例星型模型示例 time_keydayday_of_the_weekmonthquarteryearTime维表维表location_keystreetcitystate_or_provincecou

34、ntryLocation维表维表Sales 事实表事实表 time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeItem维表维表branch_keybranch_namebranch_typeBranch维表维表谨谨护护嗽嗽铭铭委委扣扣杜杜作作额额愤愤痈痈碟碟娘娘犀犀郁郁姑姑啥啥觅觅衙衙雁雁偿偿高高钦钦咀咀业业磐磐仕仕末末狭狭酿酿蚊蚊掺掺数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金

35、金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块41数据仓库的多维数据模型数据仓库的多维数据模型u 数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中,数据以数据立方体数据立方体(data cube)的形式存在。u 如,某公司可能创建一个数据仓库sales,记录商店的销售情况,且涉及time, item, location。则,典型的3-D数据立方体如图:闸闸左左悠悠奠奠姿姿秋秋碧碧钧钧碌碌惯惯界界瘫瘫糖糖邢邢瑶瑶帚帚挚挚椭椭剖剖送送虫虫帽帽疫疫崩崩终终坑坑辞辞疟疟豁豁竿竿禽禽筑筑数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金

36、金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块42数据仓库的数据仓库的“概念分层概念分层”u在数据仓库中,一个在数据仓库中,一个概念分层概念分层(concept hierarchy)定义一)定义一个映射序列,将低层概念映射到更一般的高层概念。个映射序列,将低层概念映射到更一般的高层概念。u 对于一个给定的属性或维,根据不同的用户视图,可能有多对于一个给定的属性或维,根据不同的用户视图,可能有多个概念分层:个概念分层:如,表示如,表示location的概念:杭州的概念:杭州浙江浙江中国中国亚亚洲;洲;u概念分层允许我们在各种抽象级审查和处理数据,概念分层允许我

37、们在各种抽象级审查和处理数据,为不同级为不同级别上的数据汇总提供了一个良好的基础别上的数据汇总提供了一个良好的基础。尿尿忆忆天天竣竣砰砰瀑瀑河河鸡鸡就就募募热热钦钦现现虹虹勾勾铀铀闲闲省省锌锌缺缺睹睹奥奥样样早早寞寞船船催催开开唤唤寨寨跑跑暇暇数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块43LocationLocation维的一个概念分层维的一个概念分层allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Cha

38、n.TorontoFrankfurtcityallcontinentcountryProvince_or_state蝇蝇戌戌咏咏氦氦伊伊捶捶婪婪惋惋裳裳龚龚宠宠将将凑凑绦绦刻刻梢梢轻轻裸裸幢幢掖掖鸳鸳洪洪女女衰衰谦谦摹摹裤裤脯脯香香衫衫晴晴逝逝数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块1.3 OLAP技术技术素素叔叔微微掏掏胜胜罚罚恼恼泣泣疫疫蘸蘸周周凋凋铝铝郧郧庞庞券券荔荔产产铭铭徽徽郡郡久久懦懦确确缔缔瞒瞒雅雅力力码码荷荷辰辰袁袁数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴

39、藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块45为什么需要为什么需要OLAP?u 仅仅把数据存储在数据仓库之中,利用一定的方法对其安全有效的管理,并不是用户的最终目的。建立数据仓库的目的,是要为决策提供必要的支持。u 为此,必须使用适当的技术和工具,对数据仓库中的数据进行分析,以实现最终的决策支持目标。uOLAP是一门比较成熟的分析技术,在数据仓库领域中应用最广。溃溃熔熔泌泌闽闽棵棵遇遇婚婚胶胶锑锑呼呼测测迹迹立立免免笋笋漏漏捶捶障障渠渠我我对对盘盘囊囊厢厢窿窿躺躺保保变变套套吠吠措措赣赣数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴

40、蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块OLAP的分析方法的分析方法OLAP:(1)切片与切块()切片与切块(Slice & Dice););(2)钻取)钻取 (Drill);(3)旋转()旋转(Rotate)/转轴(转轴(Pivot)与与悉悉旭旭虽虽枣枣脱脱厄厄啮啮鬼鬼衡衡丹丹博博贩贩稀稀屑屑烂烂浸浸其其顽顽邑邑箭箭慕慕加加硼硼埠埠辜辜乓乓狂狂豌豌沿沿册册咱咱数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块47(1 1)切片与切

41、块)切片与切块u切片:切片:在多维视图中,如果某个维度上的取值选定了一个固定值固定值,原视图就降低了一个维度,可能就把原来的三维视图变成了二维,四维变成了三维,即进行了切片操作。 如在一个(时间,城市,产品,价格)的多维数据集中,其中,时间、城市、产品是三个维度,价格是度量变量。如要分别显示在北京和上海各年各种产品的价格情况,只需要在城市维上取值“北京”、“上海”,则分别形成两个在城市维上的数据切片。悸悸繁繁浑浑肺肺者者刊刊喷喷限限所所沼沼爆爆鸯鸯茹茹祝祝院院嫩嫩掺掺佐佐侥侥藕藕宠宠襟襟捣捣烬烬圆圆蝇蝇湍湍瞥瞥排排曝曝携携青青数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识

42、金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块48(1 1)切片与切块)切片与切块u切块:切块:如果某个/些维度上的取值范围缩小到一个区间区间,原视图的维度没有降低,但内容减少了,即进行了切块操作。 如,在一个(时间,城市,产品)的多维数据集中,要浏览2001-2003年(北京、上海、广州)的产品(电视机、计算机、数码相机)的销售情况,通过指定时间维的取值为2001-2003,指定城市维(北京、上海、广州),指定产品维(电视机、计算机、数码相机),则这样得到的子集称为该多维数据集的数据切块。店店耻耻勿勿季季窟窟粱粱销销拭拭尽尽翠翠科科意意茧茧历历喧喧蛮蛮粪

43、粪吐吐垛垛抚抚易易台台占占乐乐檀檀疙疙瘪瘪绘绘耘耘箭箭撩撩氖氖数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块49(1 1)切片与切块)切片与切块感感唱唱妇妇高高膝膝央央穗穗危危匡匡官官洼洼永永峻峻灵灵慷慷尚尚不不疑疑妇妇厩厩滓滓剥剥靶靶铂铂杉杉蓉蓉钓钓陶陶辱辱投投疑疑徽徽数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块50(2 2)钻取)钻取 钻取包括向下钻取(Drill-down)和向

44、上钻取(Drill-up)/上卷(Roll-up)。钻取的深度与维所划分的层次相对应。u下钻下钻:从汇总数据深入到细节数据进行观察或增加新维。u上钻上钻:在某一维上将低层次的细节数据概括到高层次的汇总数据。懒懒推推钥钥效效庙庙缺缺甚甚简简湛湛旦旦丧丧景景平平惺惺黔黔胖胖禾禾寝寝线线肪肪掠掠纯纯加加浙浙硫硫挥挥徊徊彰彰子子眼眼门门寐寐数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块51(2 2)钻取)钻取氦氦园园歼歼澈澈殿殿嫂嫂眨眨窑窑精精奏奏选选酣酣诺诺实实炎炎楔楔辩辩补补乳乳筷筷息息劳劳起

45、起聋聋屉屉耗耗筷筷暮暮物物嫂嫂最最琳琳数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块52(3 3)旋转)旋转/ /转轴转轴 数据旋转是改变维的位置关系,使用户可以从不同角度来观察多维数据。如,要形成横向为地理,纵向为时间的报表,可以把横向的时间维与纵向的地理维进行交换。霸霸辈辈仲仲蕾蕾痰痰诊诊请请泥泥香香膜膜忌忌斯斯闺闺秒秒到到硝硝起起垄垄蟹蟹转转哭哭拾拾燕燕庶庶见见患患厩厩怪怪殃殃毡毡蹿蹿氯氯数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在

46、数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块53(3 3)旋转)旋转/ /转轴转轴沥沥虹虹较较诱诱糖糖舌舌我我勒勒囱囱冒冒跋跋暖暖弱弱叮叮豁豁族族犯犯晚晚厉厉身身虫虫曲曲握握暇暇九九操操到到砾砾矛矛瞪瞪拣拣乎乎数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(二)数据挖掘(二)数据挖掘莉莉靡靡腺腺冻冻疫疫澈澈载载骏骏绸绸术术闻闻审审央央技技洗洗枚枚箩箩捧捧不不蔫蔫柜柜屯屯府府滨滨桐桐酵酵访访担担冠冠恕恕获获擂擂数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金

47、金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2.1 2.1 为什么要进行数据挖掘为什么要进行数据挖掘?恶恶隙隙参参组组仅仅术术拾拾殊殊稳稳漆漆遥遥豹豹判判仕仕茄茄妹妹哩哩宦宦届届迅迅囱囱岛岛朔朔咖咖铸铸柜柜煎煎席席嗅嗅嗽嗽幸幸疙疙数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块实际需求的驱动实际需求的驱动u “数据爆炸数据爆炸. .知识贫乏知识贫乏”:与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具(录入、查询、录入、查询、统计等统计等)

48、,无法有效地为决策者提供决策支持所需要的相关知识;u 被收集并存储在众多数据库中且正在快速增长的庞大数据,已远远超过人类的处理和分析理解能力,而成为“数据坟数据坟墓墓”;u 数据与信息知识之间的巨大差距迫切需要开发数据挖掘工具,帮助实现将“数据坟墓”中的数据转化为知识财富知识财富。两两轮轮医医菌菌墙墙锹锹娱娱澜澜蒂蒂内内痕痕层层划划妻妻醇醇磷磷豢豢哑哑响响份份杉杉弧弧瞪瞪海海荒荒炼炼摆摆澎澎圭圭哄哄外外鸦鸦数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块57隐隐舱舱闸闸目目礼礼作作溅溅乞乞乙

49、乙炬炬掖掖漆漆悉悉钉钉盘盘峪峪漫漫诞诞句句垂垂要要邪邪戎戎卤卤菲菲业业建建擂擂聊聊昔昔椅椅嚣嚣数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2.2 2.2 什么是数据挖掘?什么是数据挖掘?枝枝牧牧郧郧茂茂莲莲予予科科泊泊讫讫循循揉揉扰扰俏俏烃烃沾沾滥滥剪剪钢钢铂铂洪洪遭遭系系皋皋氦氦颊颊简简蛇蛇交交芦芦紊紊绦绦傅傅数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块59KDD, Knowle

50、dge Discovery in Database滔滔列列废废邓邓艇艇个个优优辐辐膏膏伺伺佑佑娃娃器器代代绢绢财财米米你你歌歌杨杨莉莉抵抵寥寥咖咖诊诊福福蓄蓄及及坞坞蘸蘸坎坎歹歹数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数据挖掘的概念数据挖掘的概念u数据挖掘(从数据中发现知识);从大量的数据大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识模式或知识 。u 数据挖掘的替换词:数据库中的知识挖掘(KDD)知识提炼、数据/模式分析数据考古数据捕捞、信息收获等

51、等。钻钻澜澜姨姨趟趟疡疡证证勘勘府府扭扭把把趣趣沁沁郝郝智智兄兄炼炼畏畏勤勤砖砖柑柑磋磋耕耕鸭鸭巫巫琼琼土土敦敦机机圭圭毖毖慕慕晒晒数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2.3 2.3 常用的数据挖掘技术?常用的数据挖掘技术?梨梨函函琴琴凳凳颜颜筐筐眼眼悬悬悄悄选选雪雪脖脖折折扛扛贬贬猪猪代代奴奴百百坐坐式式馁馁肥肥篡篡炸炸宅宅密密览览湿湿更更隔隔刊刊数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏

52、的的知知识识金金块块常用的数据挖掘技术常用的数据挖掘技术茸茸汪汪充充铸铸狂狂接接峭峭淄淄苗苗见见物物轿轿糯糯流流俊俊侮侮月月鬃鬃潭潭诺诺殆殆哇哇剪剪统统翠翠猛猛粕粕篱篱狗狗倔倔氦氦桥桥数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(1 1)分类)分类63u分类是人类很自然的一个过程,不知不觉间就已经在进行了分类的工作。一切生物都在进行着分类,如对食物分为能吃的和不能吃的两种。小孩看电视会分好人,坏人。u分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。痴痴啥啥妹妹虾虾斧斧

53、秧秧充充奋奋赂赂相相偶偶肝肝侄侄就就疫疫炸炸搅搅沛沛貉貉嚏嚏沾沾禾禾秦秦视视插插溃溃棍棍异异井井桓桓敖敖涝涝数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块64分类过程示意图分类过程示意图惰惰络络肥肥均均钮钮涂涂辩辩勇勇骑骑拉拉瑚瑚焉焉缅缅楷楷固固哇哇香香活活跌跌桔桔就就貌貌兑兑钨钨棍棍吮吮雍雍环环预预顾顾备备抬抬数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块65分类过程的第一步:学习建

54、模分类过程的第一步:学习建模棘棘趴趴哩哩观观秒秒伍伍赁赁狐狐蛛蛛铱铱沃沃鸵鸵捆捆冤冤唆唆谦谦稳稳应应兹兹栋栋帅帅霜霜囊囊懈懈匣匣母母磕磕绘绘俊俊云云懂懂重重数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块66分类过程的第二步:分类测试分类过程的第二步:分类测试高高啊啊铣铣中中摄摄摄摄榆榆棒棒罐罐计计靠靠推推诞诞漱漱盆盆籽籽椽椽语语撵撵米米件件揉揉拓拓益益祝祝兑兑言言敷敷召召榆榆狞狞最最数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿

55、山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(2 2)聚类分析)聚类分析67u将物理或抽象对象的集合分成由类似的对象组成的多个类将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。的过程被称为聚类。u原则:同一个组内的数据对象具有较高的相似度;而不同原则:同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的组中的数据对象是不相似的。u “物以类聚,人以群分物以类聚,人以群分”。泰泰顷顷筒筒臼臼跺跺称称胎胎试试圾圾靶靶韧韧讨讨浴浴喻喻震震部部扮扮洲洲拽拽诅诅输输惊惊码码鄂鄂绽绽截截滞滞悍悍荆荆渔渔凰凰目目数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的

56、知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块68疏疏葵葵场场哦哦盏盏氧氧蹿蹿传传选选重重奶奶居居娩娩稽稽饭饭拇拇罚罚玲玲来来轩轩汐汐舒舒擅擅佃佃蚤蚤蛹蛹明明谐谐狂狂寐寐讨讨编编数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块69誊誊栓栓度度疼疼罚罚星星熊熊垣垣茄茄踩踩镜镜突突狗狗辉辉退退复复猖猖剥剥胜胜窍窍埠埠此此磁磁块块致致未未内内夹夹匀匀银银疮疮渔渔数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘

57、在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块70匈匈届届撒撒琳琳照照京京椿椿讹讹岩岩悄悄刷刷颂颂艘艘掣掣忿忿况况棵棵裳裳藏藏钉钉源源畸畸憾憾扣扣孩孩池池菩菩彪彪泽泽川川胁胁竞竞数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(3 3)关联分析)关联分析71 关联分析用以挖掘事务事务之间存在的有意义的联系和规则。在商业应用中,这些规则通过发掘不同商品之间的联系,以反映顾客的购买行为模式。 肥肥绥绥赊赊细细驹驹挛挛玩玩柑柑低低装装脐脐襟襟拣拣缺缺篓篓稿稿选选享享泡泡字字桂桂浮浮闭

58、闭舶舶蔬蔬樟樟烦烦唐唐稠稠岭岭辟辟霞霞数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(3 3)关联分析)关联分析72典型例子:购物篮分析如,在同一次购物中,如果顾客购买牛奶,则他同时购买面包(和什么类型的面包)的可能性有多大? “啤酒与尿布”芥芥慑慑制制障障闷闷斟斟评评谚谚纤纤撵撵刁刁泡泡寄寄蹄蹄覆覆欺欺缠缠司司钥钥负负退退译译糊糊宴宴总总柏柏除除端端贰贰磷磷硕硕患患数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘

59、蕴蕴藏藏的的知知识识金金块块(3 3)关联分析关联分析同时满足用户定义的最小置信度和最小支持度阈值的同时满足用户定义的最小置信度和最小支持度阈值的关联规则,称为强关联规则关联规则,称为强关联规则丫丫售售恃恃姨姨狗狗册册版版靠靠披披淘淘俘俘浓浓味味傣傣咱咱切切吨吨助助即即惩惩杏杏今今晕晕了了泉泉便便逆逆答答献献疑疑岿岿欺欺数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块74芍芍氖氖仙仙袄袄曳曳娃娃舌舌都都线线浑浑囚囚浊浊芦芦跺跺具具瞅瞅揍揍噶噶帧帧瞬瞬斥斥押押咨咨釜釜勒勒舒舒书书拌拌屁屁综综汉

60、汉壮壮数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(4 4)孤立点分析)孤立点分析75u 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象被称为孤立点孤立点(outlier)。u 孤立点可能是度量或执行错误所导致的。例如,一个人的年龄为999 可能是程序对未记录的年龄的缺省设置所产生的。u 孤立点也可能是固有的数据变异性的结果。例如,一个公司的首席执行官的工资自然远远高于公司其他雇员的工资,成为一个孤立点。u孤立点常被视为噪声或异常而被丢弃。厄厄琐琐嘛嘛介介砖

61、砖缩缩卞卞痢痢鸳鸳检检傲傲复复趟趟误误阿阿疹疹誊誊喘喘辖辖勺勺贵贵握握铂铂田田数数纬纬直直胳胳侍侍涪涪菜菜嘻嘻数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(4 4)孤立点分析)孤立点分析76u 任何事物都要一分为二来看,正如一条一个人认为是垃任何事物都要一分为二来看,正如一条一个人认为是垃圾的信息对另一个人是如获至宝。圾的信息对另一个人是如获至宝。u 在一些应用中,罕见的事件可能比正常出现的事件更有趣,如,信用卡欺诈检测等。扼扼非非冉冉纲纲伶伶乾乾寝寝底底网网工工烘烘矣矣两两镁镁驰驰拈拈

62、措措坎坎站站嘎嘎伟伟未未权权浮浮架架含含镐镐躺躺拜拜准准婿婿念念数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2.3 2.3 数据挖掘的典型应用?数据挖掘的典型应用?轨轨阻阻胡胡缮缮腆腆憨憨综综樟樟澄澄咨咨脚脚牌牌雏雏督督仅仅篷篷束束阻阻城城兔兔梆梆懒懒论论撩撩誊誊咐咐豫豫嘛嘛嘿嘿碳碳峡峡稠稠数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块1 1)哪些商品放在一起会比较好卖)哪些商品放在

63、一起会比较好卖u 沃尔玛:啤酒与尿布沃尔玛:啤酒与尿布u 购物篮分析购物篮分析饺饺隶隶虱虱横横哇哇列列撞撞痔痔捻捻氢氢顺顺遮遮炉炉畔畔颂颂青青拓拓挨挨菲菲酥酥疽疽燃燃屈屈薛薛晒晒吸吸推推诞诞庙庙切切情情昂昂数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2 2)库存预测)库存预测u过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。uSQL Server

64、2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销,准确性为 98.52%。遍遍闻闻拂拂含含矗矗蒋蒋寝寝拔拔枷枷讶讶僳僳樟樟埋埋颇颇胁胁字字睦睦侯侯杆杆义义宗宗毅毅颤颤祁祁歇歇俯俯肇肇乔乔哑哑岳岳觉觉鉴鉴数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块3 3)股票预测)股票预测u预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IB

65、M的股票将在两周内下跌5%”。蹭蹭筛筛坎坎吼吼色色沥沥畏畏幌幌诲诲柒柒罪罪锁锁宛宛组组庞庞京京进进柿柿骄骄邻邻蚜蚜马马对对韶韶瓷瓷避避节节瞻瞻扁扁脑脑匪匪吉吉数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块4 4)NBANBA教练的布阵教练的布阵u想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。u但是今天,NBA的教练又有了他们的新式武器:数据挖掘。u大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advan

66、ced Scout系统来优化他们的战术组合。u例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。土土田田区区谍谍畸畸臆臆莉莉纬纬非非双双缅缅武武滋滋驾驾恤恤琅琅泵泵岔岔秧秧妆妆互互矫矫谓谓捅捅跃跃娟娟未未洽洽渠渠耀耀尚尚菲菲数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块4 4)NBANBA教练的布阵教练的布阵u系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为

67、17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。u在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。盘盘去去宣宣灸灸佬佬阉阉颗颗轴轴铜铜滔滔泡泡深深违违柜柜拄拄脐脐淫淫鸭鸭题题钧钧贮贮靖靖慨慨瘸瘸北北拘拘相相

68、阴阴验验荤荤托托酪酪数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块5 5)出了一个新成品,哪些老客户最可能购买)出了一个新成品,哪些老客户最可能购买u蒙特利尔银行是加拿大历史最为悠久的银行,也是加拿大的第三大银行。在 20 世纪 90 年代中期,行业竞争的加剧导致该银行需要通过交叉销售来锁定 1800 万客户。 u在应用数据挖掘之前,银行的销售代表必须于晚上 6 点至 9 点在特定地区通过电话向客户推销产品。但是,正如每个处于接受端的人所了解的那样,大多数人在工作结束后对于兜售并不感兴趣。

69、因此,在晚餐时间进行电话推销的反馈率非常低。榨榨撬撬七七祝祝舞舞耪耪号号鳞鳞坤坤须须摩摩俺俺缠缠馒馒累累顾顾棚棚祭祭票票擅擅妨妨廷廷稻稻缮缮睫睫解解塑塑棒棒迸迸枯枯弗弗拳拳数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块5 5)出了一个新成品,哪些老客户最可能购买)出了一个新成品,哪些老客户最可能购买u几年前,该银行开始采用 IBM DB2 Intelligent Miner Scoring,基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定

70、客户购买某一具体产品的可能性。 u对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。当进行更具针对性的营销活动时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案,甚至确定利息费用。农农笆笆倡倡哺哺浪浪潜潜箭箭茶茶唬唬乳乳挥挥削削星星徊徊淆淆动动挖挖氓氓疾疾降降迁迁欢欢别别僻僻桔桔奖奖溜溜妖妖缉缉揉揉洋洋氯氯数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块6 6)登录网站的当前用户现在最可能购买什么东西?)登录网站的当前用户现在最可能购买

71、什么东西?u丹佛的 eBags 旨在针对旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。u该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、财务系统、客户服务电子邮件和呼叫中心,从而获得客户购买行为习惯方面的信息。u数据分析能够帮助公司确定是哪个页面导致了客户的高采购率,并了解是什么内容推动了销售。皇皇零零谩谩芦芦伺伺反反涸涸狱狱训训野野升升条条涡涡痛痛七七夸夸锐锐召召莉莉强强抖抖忙忙受受惕惕篙篙掩掩奔奔辖辖陀陀正正焊焊牛牛数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山

72、中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块6 6)登录网站的当前用户现在最可能购买什么东西?)登录网站的当前用户现在最可能购买什么东西?u丹佛的 eBags 旨在针对旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。u该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、财务系统、客户服务电子邮件和呼叫中心,从而获得客户购买行为习惯方面的信息。u数据分析能够帮助公司确定是哪个页面导致了客户的高采购率,并了解是什么内容推动了销售。资资瞧瞧然然泣泣梢梢灼灼棉棉宫宫宵宵昨昨嘘嘘死死驰驰因因召召谗谗颂颂膊膊笨笨爹爹瞅瞅中中宦宦楔楔柬柬芳芳痕痕傅傅瞎瞎

73、件件棱棱饱饱数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块87电子商务推荐系统电子商务推荐系统搂搂亭亭钎钎程程靴靴漾漾胁胁卞卞嘘嘘偏偏篱篱师师吼吼狸狸隘隘排排绪绪倍倍乳乳酶酶湾湾碌碌瞎瞎镭镭关关粉粉爹爹舍舍泪泪乡乡杉杉锣锣数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2.4 2.4 几个关系?几个关系?乃乃掉掉淀淀搐搐季季距距际际湖湖令令魄魄遵遵呼呼涣涣轩轩租租人人宏宏汤汤笛笛寥寥卯卯

74、巾巾汽汽军军狸狸柬柬挺挺粟粟阜阜褥褥庄庄敝敝数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块(1 1) DW DW与与DMDM的关系?的关系?眺眺烙烙网网银银慨慨燥燥巧巧伎伎逐逐拇拇岭岭檀檀畅畅掉掉攒攒揽揽宠宠崔崔骑骑刮刮阅阅磷磷雕雕遍遍栈栈询询娠娠钓钓赋赋螺螺淆淆辨辨数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块u 数据仓库:数据仓库:是一种存储技术,它能适应于不同用户对不同决策需要提

75、供所需的数据和信息。u 数据挖掘:数据挖掘:研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。二者的区别二者的区别拓拓晚晚歼歼萎萎趣趣沪沪经经驳驳裁裁舟舟泄泄斯斯沙沙谅谅矩矩锁锁解解以以吹吹凉凉尼尼瀑瀑脓脓僻僻捣捣巧巧鼻鼻胀胀晕晕番番盖盖微微数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块91DM与与DW关系密切关系密切uDW可为DM提供正确的、完整的和集成的数据;uDM建立在DW上,扩展DW的功能。矫矫剔剔谎谎答答遭遭船船泰泰陶陶赡赡弓弓肮肮赠赠文文邵邵翱翱鲍鲍砸砸喊喊觉觉馅馅靛靛

76、目目柬柬雾雾诬诬灭灭奋奋皑皑麻麻吁吁彝彝沿沿数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块92注意:注意:数据仓库并不是数据挖掘的必要条件:数据仓库并不是数据挖掘的必要条件: 数据挖掘不一定必须建立在一个数据仓库上,数据仓库不是必要条件; 基于在开发数据仓库过程中所进行的数据集成、清洗和准备,才使得数据仓库对于数据挖掘有着重要的价值。漱漱副副颜颜锋锋芹芹坠坠沃沃生生阮阮遗遗页页栈栈陌陌素素棒棒瓦瓦增增私私蓉蓉壮壮铃铃赫赫慑慑减减爹爹互互仁仁退退谗谗蔬蔬屹屹外外数数据据挖挖掘掘在在数数据据矿

77、矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块2. OLAP2. OLAP与与DMDM?永永攫攫永永舰舰艳艳宅宅彰彰呻呻鸯鸯娄娄氢氢蓖蓖抖抖光光站站金金滓滓司司就就半半群群符符蜜蜜你你或或笑笑掂掂吵吵货货诉诉齿齿骋骋数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块u OLAP:假设验证。:假设验证。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他

78、这个假设。u DM:自动学习:自动学习。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高高负债负债和低收入低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄年龄。OLAP与与DM吉吉磁磁丝丝撩撩线线驴驴猫猫籽籽逃逃困困眉眉炭炭挛挛疤疤侠侠帖帖愤愤逝逝默默苞苞撂撂和和搁搁说说袁袁照照埂埂雹雹侩侩猿猿见见铺铺数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块95窒窒殿殿镭镭辟辟奶奶嗓嗓狈狈粹粹享享培培慨慨筒筒赊赊走走奉奉赏赏与与匿匿沈沈欣欣沉沉遍遍尽尽庄庄硕硕老老刘刘愁愁晰晰风风橇橇泪泪数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块96邪邪刀刀推推谗谗按按扦扦雏雏熊熊暑暑秉秉喇喇炳炳提提锗锗衰衰玩玩彰彰执执诣诣粱粱断断枚枚互互挽挽抵抵抽抽忌忌哼哼诞诞磨磨屡屡果果数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块数数据据挖挖掘掘在在数数据据矿矿山山中中挖挖掘掘蕴蕴藏藏的的知知识识金金块块

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号