数据仓库与数据挖掘决策树实验

上传人:re****.1 文档编号:563282933 上传时间:2024-03-01 格式:DOCX 页数:15 大小:801.69KB
返回 下载 相关 举报
数据仓库与数据挖掘决策树实验_第1页
第1页 / 共15页
数据仓库与数据挖掘决策树实验_第2页
第2页 / 共15页
数据仓库与数据挖掘决策树实验_第3页
第3页 / 共15页
数据仓库与数据挖掘决策树实验_第4页
第4页 / 共15页
数据仓库与数据挖掘决策树实验_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《数据仓库与数据挖掘决策树实验》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘决策树实验(15页珍藏版)》请在金锄头文库上搜索。

1、实验3 决策树一、实验目的1. 了解决策树的基本概念。2. 掌握决策树挖掘分析的操作步骤。二、实验内容对三国志4武将数据.xls中的数据进行决策树分析。三、实验仪、设备计算机、visual studio 200&分析用数据、数据库服务四、实验步骤准备工作:三国志4武将数据.xls数据导入数据库中。(1)打开visual studio 2008,新建项目,选择商业智能项目,analysis services项目图1 新建项目2) 在解决方案资源管理器中,右键单击数据源,选择新建数据源闊数据源向导欢迎使用数据源向导使用此向导创建新数据源.数据源表示到数据的连接.数据源不提供缓存元数据、忝力口关丢、

2、添加计算和添加批注等功卡需若要对数据 源应用这些功卡总诘使用此向导来创逹数据源然后使用数据源视图向导来创逹 包含相应功能的视EL图 2 数据源向导3) 在该界面中选择新建,进行数据源具体设置图 3 新建数据源(4) 在服务器名中填写要连接的数据库服务器名称,或者单击服务器名右方下拉按钮进行选择;勾选使用windows身份验证;选择或输入一个数据库名中填写将要分析数据所在的数据库或者单击右方下拉按钮进行选择图 4 数据源具体设置5) 确定后配置完的数据源已显示在窗口上,继续下一步图 5 完成数据源具体设置6) 勾选使用服务账户,继续下一步图 6 模拟信息设置7) 数据源名称保持默认,完成图 7

3、完成数据源设置向导8) 在解决方案资源管理器中,右键单击数据源视图,选择新建数据源视图欢迎使用数据源视图向导使用此向导创逹新的数据源视圈沸关系数据库的表和观国中创建数据源视茲数齬湧据供与关丢数培库的简单连搂可以便用数据源視團执行更多高级功能, 打:缓衣讦数据、添垃关丢、创建计算和设毀逞煽键-图 8 数据源视图向导9) 下一步 IX选择数据源选样现写的关衆数据掘*或新建一T关系数皓猱关系数据源退):数据源雇性):hxh ssriSQLOLEDB. 1IrLitial Ca.TntEgrsLt ed.Pravi der图 9 选择数据源10) 在可用对象中,将要分析数据所在表添加到包含的对象中,继

4、续下一步数据譚視團向导n |x选择表和视图从要包含在数箭源视图中的关丢数螯库中选择对象可用对象(A):包含的对象CO:名称类型名称类型H dbo.三国志4$表11) 默认名称,完成图 12 完成数据源视图向导(12) 在解决方案资源管理器中,右键单击挖掘结构,选择新建挖掘结构贰数据挖掘向导回冈欢迎使用数据挖掘向导使用此可导可创逮新的挖掘结构和新的挖掘模型。挖掘模型是一种代表已发现的 知识的数据结构,它基于对OLAP数据或其丢数据的分析.如果用于创逹挖据模 型的数括挖掘技术支持,疋可以使用挖掘模型进行预测单击“下一步”帘生成挖掘结构和挖掘模型,单击“取消”熔退出向导.图 13 数据挖掘向导13)

5、勾选从现有关系数据库或数据仓库,继续下一步图 14 选择定义方法14) 选择 microsoft 决策树,继续下一步图 15 创建数据挖掘模型结构15) 下一步图 16 选择数据源视图16) 勾选事例,继续下一步图 17 指定表类型17) 在键列勾选序号码,在输入列勾选出身、别、魅力、统御、武力、政治、智慧、忠诚,在可预测列勾选身份,继续下一步图 18 指定定型数据18) 下一步图 19 指定内容和数据类型19) 勾选允许钻取,完成I码 肓别丈份御丈号汪蒿 出国魅身统武序攻智允许钻HZ di完成向导为挖掘菇构提供名稱,从而完成数搭挖掘向导挖掘蛛构喀师皿): 三园志 挖挹模型名称辺):三国志4图

6、 21 完成数据挖掘向导20) 单击挖掘模型查看器图 22 完成设置21) 询问是否部署项目,是图 23 部署项目(22) 询问是否继续,是图 24 处理模型23) 单击运行图 25 运行挖掘项目24) 待处理完成后,关闭处理进度回因匕除刃足恥古林“三国七L:的溜己成功鹹&;” I菇 ITflh 201Z 12 t :C:2C ;结中 Jllcl: 231L LZ Z 07:C9J 夺共尸山:00:3 圧酝円 忆捉世年L:_B-i的計耳代3韦丄对泄滾“三因亡沁-厚号码制構己成功弗咸.-,.J .d实逬数捱生“二巨占q也” E怛灶已衣门兀匹1” TTtViDflh ;叶;-i 4 k -T :紅

7、申吋冋?n; - t. r ?.t rr W洋EThl 1 nn p t M|引Sfi竝“先近Zkzil Fg的婕己曲功完臨图 26 处理结果25) 关闭处理窗口后,就可在挖掘模型查看器的决策树中看到系统经过分析得出的结果34 4展计I応S阪计:丢如页-X:-栓.1 y 小:毎吩1 巖|十栏碍无占卞啟|画打:引-r-=r七普制护m.|二彌|隹用ittftEl可巴1域空产护点玖五的内d 氐打可啟時京FW回回園时:卅:? -1宀亍丄n疋已賢.:背亍1弐詡1Z-=Ji.TJ 1I liillK IKunii m J *y* Kill. It Q敬培潮KEStj3 Kxh di7 2主鹽据集 Zj雄度

8、-Ttf-tiDO|H真力 &Q 1依赖关系网络: 72.333 5?:-72.畑面爭帆总计:阳回将军回不师71 K!失1 ! II齿置迫:壬黄埶屈性IE)图 28 算法参数(27) 算法参数的意义COMPLEXITY_PENALTY禁止决策树生长。减少此值会增加拆解的可能性,而增加此值则 会减少拆解的可能性。FORCE_REGRESSOR:强制算法使用的数据行作为回归公式的回归输入变量,而不考虑其在 算法计算中的重要性为何。MAXIMUM_INPUT_ATTRIBUTES指定在叫用功能选项之前,算法可以处理输入属性的最大数目。MAXIMUM_OUTPUT_ATTRIBUTES指定在叫用功能选

9、项之前,算法可以处理输出属性的最大数目。MINIMUM_SUPPORT指定分叶节点必须包含的最小个例数目SCORE_METHOD:指定用来计算分割准则的方法。SPLIT_METHOD:指定用来节点分杈的模式。图 29 设置算法参数28) 设定完算法后,再次点击挖掘模型查看器进行数据处理,处理完成后所得出的结果就是设置算法后的结果。飓算法参数参数迥:参敷值默认值范围I COMPLEXIT Y pESALTy1 (0.0, 1.0) IMIHMUN SUF FORT10.0(0. 0,.)SCLUlEJilETHLiIi41,3,4SFU TJilETHUli31,3五、实验心得体会通过这次关于决

10、策树的实验,让我对决策树的应用有了相对具体的理解,并且为决策树 的学习提供了一个好的铺垫,在学习过程中,决策树中的算法由于利用系统本身,所以 并没有具体理解 ID3 这个算法的具体运转环节,但是有了这次实验的铺垫,使自己能 够更加容易之后的ID3算法的学习。六、思考题决策树对数据分类的正确率是否可以达到100%?答:不可以达到 100%决策树一般都是自上而下来生成的。决策树由一个决策图和可能的结果(包括资源成本 和风险)组成,用来创建到达目标的规划。每个决策或事件都可能引出两个或多个事件,导 致不同的结果,把这种决策分支画成图形很像一棵树的枝干,所以称作决策树。对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有 更多数值的特征。决策树的这种明确性可能带来误导。决策树分类准确率极限理论:定理 1:有经验风险和结构风险时,决策树分类准确率的极限不存在。定理 2:无经验风险、有结构风险时,决策树分类准确率的极限不存在。定理 3:有经验风险、无结构风险时,决策树分类准确率的极限存在。定理 4:无经验风险和结构风险时,决策树分类准确率的极限存在。以上定理都认可100%是决策树分类准确率的上边界,0%是其下边界;“不存在”的意 义并不是无确定上边界,而是在0%,100%内五确定上边界;“存在”的意义是有确定上边界,当然这个上边界不超过100%

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号