第6章现代数据挖掘技术与发展ppt课件

上传人:枫** 文档编号:569341315 上传时间:2024-07-28 格式:PPT 页数:41 大小:347.50KB
返回 下载 相关 举报
第6章现代数据挖掘技术与发展ppt课件_第1页
第1页 / 共41页
第6章现代数据挖掘技术与发展ppt课件_第2页
第2页 / 共41页
第6章现代数据挖掘技术与发展ppt课件_第3页
第3页 / 共41页
第6章现代数据挖掘技术与发展ppt课件_第4页
第4页 / 共41页
第6章现代数据挖掘技术与发展ppt课件_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《第6章现代数据挖掘技术与发展ppt课件》由会员分享,可在线阅读,更多相关《第6章现代数据挖掘技术与发展ppt课件(41页珍藏版)》请在金锄头文库上搜索。

1、第第6 6章章现代数据挖掘技术与发展现代数据挖掘技术与发展本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。(2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。(3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。(4)经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。型忧捅腿菱蛛核沟彬椽羚侧烛蔫颖摔规毋卓吱娘农烽啥什银逾僻蓝买他藕第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件现代数据挖

2、掘技术与发展现代数据挖掘技术与发展6.1知识挖掘系统的体系结构知识挖掘系统的体系结构6.2现代挖掘技术及应用现代挖掘技术及应用6.3知识发现工具与应用知识发现工具与应用6.4数据挖掘技术的发展数据挖掘技术的发展练练 习习 蚌蒲艘光婴芹庚貌够炽奸涤丰艰营涝桓彻斧女织彬殆讶秃善翌侄微健柑须第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.16.1知识挖掘系统的体系结构知识挖掘系统的体系结构 6.1.1知识发现的定义知识发现的定义 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。知识发现可看成是一种有价值信息

3、的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.2 知识发现系统的结构知识发现系统的结构 知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。丧见佣肢旺伟秃粮阳臂隆释捡贸弦韵痉恭润畔灰树畴孟迁独敛桔狂胜烷降第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发

4、展ppt课件数据仓库知识库数 据库 接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构惫行甭甥居践炬垦峻茹矩舶咱髓肝窝飞禹座露敛拄遗很炉绥钝咽篙侨鼠误第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件1.1.知识发现系统管理器知识发现系统管理器 控制并管理整个知识发现过程控制并管理整个知识发现过程2.知识库和商业分析员知识库和商业分析员知知识识库库包包含含了了源源于于各各方方面面的的知知识识。商商业业分分析析员员要要按按一一种种有有效的方式指导关注信息的发现效的方式指导关注信息的发现。3.数据仓库的数据库接口数据仓库的数据

5、库接口知识发现系统的数据库接口可以直接与数据仓库通信。知识发现系统的数据库接口可以直接与数据仓库通信。 4.数据选择数据选择确定从数据仓库中需要抽取的数据及数据结构确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价发现评价有助于商业分析员筛选模式,选出那些关注性的信息有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用结果以备将来引用,

6、 ,并保持知识发现与管理人员的通信。并保持知识发现与管理人员的通信。 响枉易琶拍翰劝佳睛沪小咀撬壤郡普联处衫萧冉鸽竭绚建操氢查掳狡执窒第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.26.2现代挖掘技术及应用现代挖掘技术及应用 6.2.1 规则型现代挖掘技术及应用规则型现代挖掘技术及应用 1.关联规则的基本概念关联规则的基本概念buys(x,“computer”)=buys(x,“finacial_management_software”)age(“30.40”)income(“42000.50000”)=buys(x,“high_resolution_TV”)

7、布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age(“30.40”)=buys(x,“IBMcomputer”)(6.3)age(“30.40”)=buys(x,“computer”)(6.4)契纯猪作党争甭近魄娘丽惹驻盎犹绘牵忱彬子剐认搜仰艾醒视齿汇进箱尺第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件2.关联规则的应用目标关联规则的应用目标置信度或正确率可以定义为:置信度或正确率可以定义为: (6.5) (6.5)覆盖率可以定义为覆盖率可以定义为 “兴趣度兴趣度”为目标的关联规则为目标的关联规则秀脱卜遥磺列险锅茸准作宙崩任澳郧戒踪跃转袱急拐尊

8、涨夏高娘汀落膳磅第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件3.关联规则的算法关联规则的算法AprioriApriori算法算法 1 1找找出出所所有有支支持持度度大大于于最最小小支支持持度度的的项项集集,这这些些项项集集称称为为频频集集,包包含含k k个个项项的的频频集集称称为为k-k-项集。项集。2 2使用第使用第1 1步找到的频集产生所期望的规则。步找到的频集产生所期望的规则。AprioriApriori算法的第算法的第1 1步采用了递归方法,算法表示为步采用了递归方法,算法表示为L L1 1=large 1-itemsets;/=large 1-item

9、sets;/产生频繁产生频繁1 1项集项集L L1 1for (k=2;Lfor (k=2;Lk-1k-1;k+) do /;k+) do /循环产生频繁循环产生频繁2 2项集项集L L2 2直到某个直到某个r r使使L Lr r为空为空beginbegin C Ck k=apriori-gen(L=apriori-gen(Lk-1k-1);/);/产生产生k-k-项集的候选集项集的候选集 for all transactions t for all transactions tD doD do begin beginC Ct t=subset(C=subset(Ck k,t);/,t);/事

10、务事务t t中包含的候选集中包含的候选集for all candidates cfor all candidates cC Ct t do do c.count+; c.count+; end endL Lk k=c=cC Ck k|c.count|c.countminsupminsupendendAnswer=UAnswer=Uk kL Lk k猿尽弧葬历撒猾烫帆昏砷偿丈怖魔窝历俏娥绳脯淬毡颈尊袜量碍淳柴肿妨第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件第第2 2步步算算法法较较为为简简单单。如如果果只只考考虑虑规规则则的的右右边边只只有有一一项项的的情情况况,

11、给给定定一一个个频频集集Y=IY=I1 1,I,I2 2,I,I3 3,I,Ik k,k,k2,I2,Ij jI I,那那么么只只有有包包含含集集合合 I I1 1,I,I2 2,I,I3 3,I,Ik k 中中的的项项的的规规则则最最多多有有k k条条。这这种种规规则则形形如如I I1 1,I,I2 2,I,I3 3,I,Ii-1i-1,I,Ii+1i+1,I,Ik kI Ii i, ,。这这些规则置信度必须大于用户给定的最小置信度。些规则置信度必须大于用户给定的最小置信度。法牧姆悸没埔拭磋丑聚姜敞仗撅伍臂砧硼省淑悄矾挝络附熄拐皑叭昆姨卿第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖

12、掘技术与发展ppt课件数据库DC1L1事务标识项集项集支持度项集支持度A11,3,4扫描数据库D1212A22,3,523比较支持度23A31,2,3,53333A42,5415353由L1产生C2C2L2项集项集支持度项集支持度1,2扫描数据库D1,211,221,31,32比较支持度2,321,51,512,532,32,323,522,52,533,53,52项集扫描数据库D项集支持度2,3,52,3,52由L2产生C3L3郭泅压厂纲丙曾妓佰商做颗问压勤蝇贤灶哉赠搞榆磨法贷狈熏突撇镀李仑第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件4.关联规则的应用关联规则

13、的应用前件和后件规则中的正确率和覆盖率规划覆盖率和正确率的平衡前件后件正确率覆盖率百吉饼奶油干酪80%5%百吉饼橙汁40%3%百吉饼咖啡40%2%百吉饼鸡蛋25%2%面包牛奶35%30%黄油牛奶65%20%鸡蛋牛奶35%15%奶酪牛奶40%8%规划覆盖率正确率低正确率高覆盖率高规划很少是正确的,但可以使用规划多数情况下是正确的,而且可以经常使用覆盖率低规划很少是正确的,一般不被使用规划多数情况下是正确的,但很少被使用盲锭曝敖若躇呻猛戒咆扔粪府遇压嘛叭舜亏剂客峡浦幅宁诀焉机严疑霜铝第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.2 神经网络型现代挖掘技术神经网

14、络型现代挖掘技术 1.神经网络及其学习方法神经网络及其学习方法神神经网网络的工作的工作过程主要分两个程主要分两个阶段:学段:学习阶段和工作段和工作阶段。段。学学习方方式式则有有三三种种:有有教教师(监督督)学学习、无无教教师(监督督)学学习和和强强化学化学习。 眺渡跋潘歪够宠毅洪遁妻秽污轰佬牌够再溢糙蕾漠邮鸽际递暑哀上伺疙钡第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.2 神经网络型现代挖掘技术神经网络型现代挖掘技术 2.基于神经网络的数据挖掘基于神经网络的数据挖掘(1 1)基于自组织神经网络的数据挖掘技术)基于自组织神经网络的数据挖掘技术一一种种无无教教

15、师学学习过程程 、可可以以提提取取一一组数数据据中中的的重重要要特特征征或或某某种内在知种内在知识 (2 2)模糊神经网络类型数据挖掘技术)模糊神经网络类型数据挖掘技术模模糊糊BPBP网网络、模模糊糊KohonenKohonen聚聚类网网络、模模糊糊推推理理网网络、模模糊糊ARTART模型等模型等 模模糊糊BPBP网网络中中,样本本的的希希望望输出出值改改为样本本相相对各各类的的希希望望隶隶属度属度 输出出表表达达方方面面实现了了模模糊糊化化,而而且且将将样本本的的隶隶属属度度引引入入了了权系系数的修正数的修正规则中,使中,使权系数的修正系数的修正规则也也实现了模糊化。了模糊化。 娥彪押蜒淘更

16、诞辖劳利觉糖吼帜侧抠萍驻狼芝融窄去瘴棠宙扩压篡毗惶沥第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.2 神经网络型现代挖掘技术神经网络型现代挖掘技术 3.后向传播模型(后向传播模型(BP,Back Propagation)及其算法)及其算法具体过程如下:具体过程如下:选定选定p p个样本;个样本;权值初始化(随机生成);权值初始化(随机生成);依次输入样本;依次输入样本;依次计算各层的输出;依次计算各层的输出;求各层的反传误差;求各层的反传误差;按权值调整公式修正各权值和阀值;按权值调整公式修正各权值和阀值;按新权值计算各层的输出,直到误差小于事先设定阀值;

17、按新权值计算各层的输出,直到误差小于事先设定阀值;变换函数可以采用这样几种:变换函数可以采用这样几种:阶阶跃跃函函数数、SS型型函函数数、比比例例函函数数、符符号号函函数数、饱和和函数函数 、双曲函数双曲函数 第鲤佃英帕捐重写晕殊剔吠铃噪愈萎扼座扫靳铭抚桐灰锌岔乡较历廊勋抵第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.2 神经网络型现代挖掘技术神经网络型现代挖掘技术 4.神经网络的应用神经网络的应用47岁收入6500元节点借贷拖欠?连接0.470.650.39Weight=0.7Weight=0.1年龄收入0.47(0.7)+0.65(0.1)0.39谴签

18、软丘靛哥连土僚终御救盼漆树疵休乱么浴投失抛布甫咨底溯冶努刽范第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 1.遗传算法的基本原理遗传算法的基本原理达达尔尔文文的的“适适者者生生存存”理理论论、继继承承的的信信息息由由基基因因携携带带 、多多个个基基因因组组成成了了染染色色体体 、基基因因座座、等等位位基基因因 、基基因因型型和和表表现现型型 染色体对应的是一系列符号序列,通常用染色体对应的是一系列符号序列,通常用0 0、1 1的位串表示的位串表示进进行行生生物物的的遗遗传传进进化化。在在这这一一过过程程中中

19、包包括括三三种种演演化化操操作作:在在父父代代基基因因群群中中的的双双亲亲选选择择操操作作、两两个个父父代代双双亲亲产产生生子子代代基基因因的交叉操作和在子代基因群体中的变异操作。的交叉操作和在子代基因群体中的变异操作。 两两种种数数据据转转换换:从从表表现现型型到到基基因因型型的的转转换换,另另一一种种是是从从基基因因型型到表现型的转换到表现型的转换遗传算法实质上是一种繁衍、检测和评价的迭代算法遗传算法实质上是一种繁衍、检测和评价的迭代算法 最最大大优优点点是是问问题题的的最最优优解解与与初初始始条条件件无无关关,而而且且搜搜索索最最优优解解的的能力极强能力极强 瑞侦蚀曳名羞患欲梁纶辙狗诸示

20、孰务笔拎筛伞告直危局蛔它乐稽肉绎旁氢第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 2.遗传算法的处理过程遗传算法的处理过程 (1 1)编码并生成祖先群体)编码并生成祖先群体要用遗传算法解决问题,首先要定义有待解决的问题:要用遗传算法解决问题,首先要定义有待解决的问题:F=f(a,b,c),FF=f(a,b,c),FR ,(a,b,c)R ,(a,b,c) F=f(a,b,c)F=f(a,b,c)是是 属属 于于 实实 数数 域域R R的的 一一 个个 实实 数数 , 也也 是是 每每 一一 组组 解解(a(

21、ai i,b,bi i,c,ci i) )的的适适应应度度的的度度量量,算算法法的的目目标标是是找找一一个个(a(ao o ,b,bo o ,c,co o) ),使使F=f(aF=f(ao o ,b,bo o ,c,co o) )取最大值。取最大值。(2 2)计算当前基因群体中所有个体的环境适合度)计算当前基因群体中所有个体的环境适合度(3 3)用适应函数评价每一个体对环境的适应度)用适应函数评价每一个体对环境的适应度(4 4)选择适应度好的生物个体进行复制)选择适应度好的生物个体进行复制(5 5)选择适应度好的生物个体进行复制交叉配对繁殖)选择适应度好的生物个体进行复制交叉配对繁殖(6 6)

22、新生代的变异操作)新生代的变异操作符蕊训汲赏来甩馒陋报踌廖锻产宽罗痘阻烙抬合晋锭徽棍可南瞧怒拭睹项第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 编码并生成祖先群体计算当前基因群体中所有个体的适合度是否满足最优解条件?选择群体中适应值高的个体进行复制交叉操作变异操作终止扮逼尺镊葵匈挛缉沸掏粒掂素换衣怎搜涨濒弥捞舱数栅凶遁煽魁饶滔糠玻第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 3.遗传算法的应用遗传算法的应用用四个染色体来

23、定义客户类型:用四个染色体来定义客户类型:基因基因1 1:客户的年龄下限:客户的年龄下限基因基因2 2:客户的年龄上限:客户的年龄上限基因基因3 3:客户的收入水平:客户的收入水平基基因因4 4:客客户户的的人人口口状状况况(人人口口状状况况可可以以分分成成:少少(1 1至至2 2人人)、一一般般(3 3至至4 4人)和多(人)和多(5 5人以上)三种状况)人以上)三种状况)客户ID年龄累计购买金额收入家庭人口性别10985461843中等4女18595490中等2男47382613628低5男749123618463高6女95623298463高3男8552632274中等2男5875352

24、1846低2女64957480中等3女769572721634高5男6583945842低1女摈赠坯步悲颤重扳史禄泛好碟限洱繁溃溺楚敏尿任喝埃劲旬伍验视胸慈单第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.3 遗传算法型现代挖掘技术遗传算法型现代挖掘技术 所所有有的的生生物物个个体体按按顺顺序序排排放放在在一一张张二二维维表表格格上上,使使每每个个生生物物体体的上、下、左、右都与其它生物体相邻接。的上、下、左、右都与其它生物体相邻接。 (1 1)竞争复制)竞争复制(2 2)杂交繁殖)杂交繁殖(3 3)异变处理)异变处理年龄下限年龄上限高收入中等收入低收入人口

25、少人口一般人口多客户群13864是是否否是是客户群22650是否是是否是客户群32040否是是是否否罪迄哺绒妥尉赎充臻化单累风秤扶惟椭哪学宅坎勘耙大联闪迭峪蛮慰定蔑第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.4 粗糙集型现代挖掘技术粗糙集型现代挖掘技术1粗糙集技术粗糙集技术2.粗糙集的应用粗糙集的应用表表中中的的970230970230、980304980304、990211990211客客户户的的“赞赞扬扬竞竞争争对对手手的的产产品品”属属性性是是相相似似的的;980304980304、990327990327客客户户的的“挑挑选选产产品品时时间间很很

26、长长”和和“客客户户流流失失”属属性性是是相相似似的的;970230970230、990211990211客客户户的的“赞赞扬扬竞竞争争对对手手的的产产品品”、“ “ 挑挑选选产产品品时时间间很很长长”和和“距距最最后后一一次次销销售售时时间间”属属性性是是相相似似的的;这这样样,围围绕绕“赞赞扬扬竞竞争争对对手手的的产产品品”属属性性就就可可以以产产生生两两个个初初等等集集合合:970230970230、980304980304、990211990211和和970102970102、980625980625、990327990327;而而“赞赞扬扬竞竞争争对对手手的的产产品品”和和“挑挑选选

27、产产品品时时间间很很长长”属属性性可可以以生生成成三三个个初初等等集集合:合:970102970102、980625980625、990327990327、970230970230、990211990211和和980304980304。 客户编号赞扬竞争对手的产品否挑选产品时间很长距最后一次销售时间客户流失否970102否是长是970230是否长是980304是是很长是980625否是正常否990211是否长否990327否是很长是朽迁讳殷携嘻啥蛇傻敞喝骤酥怎价志陶究眨清硅琵给环缉锁啄破填楞宣瞥第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.4 粗糙集型现代

28、挖掘技术粗糙集型现代挖掘技术因因为为客客户户970230970230已已经经流流失失,而而客客户户990211990211没没有有流流失失,由由于于属属性性“赞赞扬扬竞竞争争对对手手的的产产品品”、“ 挑挑选选产产品品时时间间很很长长”和和“距距最最后后一一次次销销售售时时间间”是是相相似似的的。因因此此,客客户户流流失失不不能能以以属属性性“赞赞扬扬竞竞争争对对手手的的产产品品”、“ 挑挑选选产产品品时时间间很很长长”和和“距最后一次销售时间距最后一次销售时间”作为特征进行描述。作为特征进行描述。而而970230970230、990211990211就就是是边边界界实实例例,即即它它们们不不

29、能能根根据据有有效效知知识识进进行行适适当当的的分分类类。余余下下的的客客户户970102970102、980304980304和和990327990327所所显显示示的的特特征征,可可以以将将他他们们确确定定为为已已经经流流失失的的客客户户。当当然然,也也不不能能排排除除970230970230和和990211990211已已经经流流失失,而而980625980625毫毫无无疑疑问问没没有流失。有流失。所所以以客客户户集集合合中中“流流失失”的的下下近近似似集集合合是是970102970102、980304980304、990327990327, 上上 近近 似似 集集 合合 是是 9701

30、02970102、 970230970230、 980304980304、990211990211、990327990327。同同样样,980625980625没没有有流流失失,但但是是不不能能排排除除970230970230和和990211990211流流失失。因因此此,客客户户“没没有有流流失失”概概念念的的下下近近似似是是980625980625,上上近近似是似是970230970230、980625980625、990211990211。匪憨医腾让研狱沛贿堑栅冀作痊弱院房乡什竣晶稼僻逆哼喇苛函蝶歹素板第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.5

31、 决策树型现代挖掘技术决策树型现代挖掘技术1决策树技术决策树技术ID3ID3,该该算算法法建建立立在在推推理理系系统统和和概概念念学学习习系系统统的的基基础础之之上上,基基本步骤是。本步骤是。(1 1)创创建建一一个个节节点点。如如果果样样本本都都在在同同一一类类,则则算算法法停停止止,把把该节点改成树叶节点,并用该类标记。该节点改成树叶节点,并用该类标记。(2 2)否否则则,选选择择一一个个能能够够最最好好的的将将训训练练集集分分类类的的属属性性,该该属属性作为该节点的测试属性。性作为该节点的测试属性。(3 3)对对测测试试属属性性中中的的每每一一个个值值,创创建建相相应应的的一一个个分分支

32、支,并并据据此划分样本。此划分样本。 (4 4)使使用用同同样样的的过过程程自自顶顶向向下下的的递递归归,直直到到满满足足下下面面的的三三个个条件中的一个时,就停止递归。条件中的一个时,就停止递归。(a)(a)给定节点的所有样本都属于同一类。给定节点的所有样本都属于同一类。(b)(b)没有剩余的属性可以用来进一步划分。没有剩余的属性可以用来进一步划分。(c)(c)继续划分得到的改进不明显。继续划分得到的改进不明显。伦颊冯勃恢洋豌枉买寅瞄羽齿茹惩疥沧饵矽仆墙翼哪寥覆令庭贯颂糜睹绊第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.5 决策树型现代挖掘技术决策树型现

33、代挖掘技术1决策树技术决策树技术信信息息增增益益被被定定义义为为原原始始分分割割的的熵熵与与划划分分以以后后各各分分割割的的熵熵累加得到的总熵之间的差。累加得到的总熵之间的差。信息增益是指划分前后进行正确预测所需的信息量之差。信息增益是指划分前后进行正确预测所需的信息量之差。选择具有最高信息增益的属性作为当前节点的测试属性。选择具有最高信息增益的属性作为当前节点的测试属性。一个给定的样本分类所需要的期望信息为一个给定的样本分类所需要的期望信息为由由A划分成子集的熵或期望信息是划分成子集的熵或期望信息是功挟崎堆寄颈渊姐赋悯毙雹酵患垄嫉互剖苹宜镑穆帅腺搓近蝇湘半楔抿布第6章现代数据挖掘技术与发展p

34、pt课件第6章现代数据挖掘技术与发展ppt课件6.2.5 决策树型现代挖掘技术决策树型现代挖掘技术1决策树技术决策树技术为为第第j个个子子集集的的权权,等等于于子子集集(A值值为为aj)中中的的样样本本数数除除以以S中中的的样样本本数数。对对于于给给定定的的子子集集Sj,I(s1j,s2j,smj)可用下式计算是Sj中的样本属于类Ci的概率由A划分的信息增益是Gain(A)=I(s1,s2,sm)-E(A)伯域啮跌激荧纵胶酸多丝奖侯黎码桩业辉扶车膳署惯卫掠侩四如袖轻媚乱第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.5 决策树型现代挖掘技术决策树型现代挖掘技

35、术2.决策树的应用决策树的应用年龄学生信誉等级会购买不会购买会购买会购买不会购买30314040否是一般良好蹭归筷酬曲苯氏召波圾啦挛扔吞计凸宅涎例锗沦锋骄辰晓绕秤打鸿恶臂虏第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.5 决策树型现代挖掘技术决策树型现代挖掘技术编号年龄学生信誉等级类别标号1=30是良好会购买240否一般会购买440否良好不会购买540否一般会购买63140是一般会购买740是一般会购买940否良好不会购买11=30否一般不会购买123140是一般会购买133140否一般会购买143140是良好会购买归驹糖珐帝庙奏导率丝峡放镑哼楔深础闹找敲

36、幸禾步釉闰抠寨丽驱烹堆害第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.2.5 决策树型现代挖掘技术决策树型现代挖掘技术“年龄”在各个属性中具有最大的信息增益,所以选择“年龄”属性作为第一个测试属性,创建一个节点,用“年龄”标记。计算剩余各个属性的相应的信息增益,选择信息增益最大的属性作为测试属性,这时信息增益最大的是“学生”属性,创建一个节点,用“学生”标记。宗塔钢绝丫母蹭姐扁冰耍狱琴柞阻讣撼虑若渐奶诬莎羊暑翁驴菌武抠乔眨第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.3知识发现工具与应用知识发现工具与应用6.3.1 知识挖掘工

37、具的系统结构知识挖掘工具的系统结构1.无耦合(无耦合(no coupling)DM系统不利用系统不利用DB或或DW系统的任何功能系统的任何功能 2.松散耦合(松散耦合(loose coupling)DM系统将使用系统将使用DB/DW的某些工具的某些工具 3.半紧密耦合(半紧密耦合(semitight coupling)DM系系统统连连接接到到一一个个DB/DW系系统统,一一些些基基本本数数据据挖挖掘掘原原语语可以在可以在DB/DW系统中实现。系统中实现。 4.紧密耦合(紧密耦合(tight coupling)DM系统被平滑地集成到系统被平滑地集成到DB/DW系统中系统中车最棍朝尽炼焊剿为及茬续

38、醒甚苗联沛派饵儒唾赐赢艘岿严撮至捆卞怀寿第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.3知识发现工具与应用知识发现工具与应用6.3.2 知识挖掘工具运用中的问题知识挖掘工具运用中的问题1.数据挖掘技术应用中的共性问题数据挖掘技术应用中的共性问题(1)数据质量数据质量(2)数据可视化数据可视化(3)极大数据库极大数据库(vLDB)的问题的问题(4)性能和成本性能和成本(5)商业分折员的技能商业分折员的技能(6)处理噪声和不完全数据处理噪声和不完全数据(7)模式评估模式评估兴趣度问题兴趣度问题瓶萄条魂弥了柿编熏脑扎卒纬暴蒸烈障哉帘邢搔坝揭甩懊园霜速靳涡掖沿第6章现

39、代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.3知识发现工具与应用知识发现工具与应用6.3.2 知识挖掘工具运用中的问题知识挖掘工具运用中的问题2.数据挖掘技术应用中的个性问题数据挖掘技术应用中的个性问题(1)规则归纳应用中的问题规则归纳应用中的问题主主要要用用于于显显式式描描述述数数据据抽抽取取的的规规则则、找到所有的规则,工作量是巨大的(2)神经网络应用中的问题神经网络应用中的问题受训练过度的影响受训练过度的影响、神经网络的训练速度问题(3)遗传算法应用中的问题遗传算法应用中的问题钓寞镣罐饥责仗练狞舱坠佯芯瓜澜仁溉廊坝稍蹈裔佛黍难蚌导瑞厕将瑰哈第6章现代数据挖掘技

40、术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.3知识发现工具与应用知识发现工具与应用6.3.3 知识挖掘的价值知识挖掘的价值1.了解商业活动了解商业活动2.发现商业异常发现商业异常3.预测模型预测模型6.3.4 现代数据挖掘工具简介现代数据挖掘工具简介1.DBMiner的体系结构的体系结构2.DBMiner的数据挖掘类型的数据挖掘类型克梢病耕揭梨蜡竖事遵笺槛姓侥费磺绑绘脯醒护期因流芭留尉酸典涛署晤第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.4数据挖掘技术的发展数据挖掘技术的发展6.4.1 文本挖掘文本挖掘1.文本分析和语义网络文本分析和语义网络

41、文本分析文本分析语义网络语义网络2.文本挖掘文本挖掘文本总结文本总结基于关键字的关联分析基于关键字的关联分析文档分类分析文档分类分析文档聚类分析文档聚类分析文本挖掘的应用文本挖掘的应用涪逃姻陀盘裙碘产等眷睬抒焚窍览宜烘筐鄂博肾炯躺攀淑径曼雾尽竞几创第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.4数据挖掘技术的发展数据挖掘技术的发展6.4.2 Web挖掘技术挖掘技术1. Web的特点的特点2. Web内容挖掘内容挖掘基于文本信息的挖掘基于文本信息的挖掘基于多媒体信息的挖掘基于多媒体信息的挖掘3.Web结构挖掘结构挖掘4. Web使用记录的挖掘使用记录的挖掘数据预

42、处理阶段数据预处理阶段模式识别阶段模式识别阶段模式分析阶段模式分析阶段5.Web数据挖掘的应用数据挖掘的应用前着即卸净动裁拌帛堰州准自卯烹闻袭擞镰邓汁也匈威百赴捞国丰铃剔酥第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.4数据挖掘技术的发展数据挖掘技术的发展6.4.3 可视化数据挖掘技术可视化数据挖掘技术1.数据的可视化数据的可视化2.可视化数据挖掘技术可视化数据挖掘技术数据可视化数据可视化数据挖掘结果可视化数据挖掘结果可视化数据挖掘过程可视化数据挖掘过程可视化交互式可视化数据挖掘交互式可视化数据挖掘蔫诀侍鉴澳甜想媚严碟琴掷早捐糖图良圣癸皆换顶团杜伐拥逆昨悉镑凑

43、官第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.4数据挖掘技术的发展数据挖掘技术的发展6.4.4 空间数据挖掘空间数据挖掘1.地理信息系统地理信息系统地理信息系统概念地理信息系统概念地理信息系统的特点地理信息系统的特点2.数据挖掘技术和地理信息系统相结合数据挖掘技术和地理信息系统相结合3.地理信息系统的数据挖掘特点地理信息系统的数据挖掘特点图形化数据挖掘图形化数据挖掘图形化统计查询图形化统计查询图形化报表输出图形化报表输出专业的地理分析功能专业的地理分析功能4.空间数据挖掘空间数据挖掘5.空间数据挖掘用途空间数据挖掘用途扇老词叠敦始流茄屈妻囊镶昏捍亚龄苍览纵虹

44、怎摈层买廖江子倡摄访幅惰第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.4数据挖掘技术的发展数据挖掘技术的发展6.4.5 分布式数据挖掘分布式数据挖掘1.分布式数据挖掘分布式数据挖掘2.适合水平式数据划分的分布式挖掘方法适合水平式数据划分的分布式挖掘方法SQL查询查询结果结果用户查询图6.7PADMA体系结构数据挖掘代理元数据数据挖掘代理协调器应用WW用户接口磁盘磁盘儿辊母捧添乌民蓉慌卫尘臀录嘶悯弃袒苇抡境质辣形申弛搽凤损告恋品漓第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件6.4数据挖掘技术的发展数据挖掘技术的发展6.4.5 分布

45、式数据挖掘分布式数据挖掘3.适合垂直式数据划分的分布式数据挖掘方法适合垂直式数据划分的分布式数据挖掘方法图6.8 CDM的体系结构数据站点A数据站点B数据站点C分布式数据挖掘代理分布式数据挖掘代理分布式数据挖掘代理A局部模型B局部模型C局部模型协调器全局数据模型闺映诚村闭枯诱庶述阁验昔萨藻串射摆眨巧俗美污陇洲餐泡痹资炳前桥若第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件练练 习习1.知识挖掘系统的结构包括哪几个部分?它们是如何相互配合完成知识发现的?2.现有某企业的员工数据库,数据已经概括处理,其中的合计数为对应所给定的部门、职务、年龄和工资值的人数。部门职务年龄

46、工资合计销售高级管理31.354600.500030销售低级管理26.302600.300040销售低级管理31.353100.350040生产低级管理21.254600.500020生产高级管理31.356600.70005生产低级管理26.304600.50003生产高级管理41.456600.70003财务高级管理36.404600.500010财务低级管理31.354100.45004行政高级管理46.503600.40004行政低级管理26.302600.30006篮盏醇成看翻误窜助鲤釉自垫觉掺山吧约牲汛赠跑拱符慷面粟买郝趁员拘第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘

47、技术与发展ppt课件练练 习习针对本表,设计一个遗传算法,分析员工的年龄、部门与工资的关系。(2)利用粗糙集技术对本表的数据进行分析,讨论可能会得到什么结论。3.在超市中的商品价格都是大于等于零的,超市的总经理只关心如何利用送一件免费商品而带来1000元以上的总销售量。讨论如何挖掘这种商业模式。者群容糠港肯爱琳止瘦渠释商渍延砖腆屉泪鄙尘廊段麦疲房忘圾篆莎呻泪第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件练练 习习4.现在需要购买一个商品化的数据挖掘工具,从多角度对其进行分析,例如可以处理的数据类型、系统的体系结构、数据源、数据挖掘功能、数据挖掘方法、与数据仓库的耦合情况、用户的图形界面等。对该系统进行一个实际的评价,并描述一下其具体的实现方法。5.遗传算法的主要思路是什么?其中的变异操作有什么作用?燃维赁祷付苹乒集艾表洁剧情匣掺辖枣向汤瘤吁葱愧惧型狄呜晋裕培荫估第6章现代数据挖掘技术与发展ppt课件第6章现代数据挖掘技术与发展ppt课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号