数据挖掘概念与技术习题答案-第3章

上传人:灯火****19 文档编号:139153290 上传时间:2020-07-20 格式:DOC 页数:6 大小:44KB
返回 下载 相关 举报
数据挖掘概念与技术习题答案-第3章_第1页
第1页 / 共6页
数据挖掘概念与技术习题答案-第3章_第2页
第2页 / 共6页
数据挖掘概念与技术习题答案-第3章_第3页
第3页 / 共6页
数据挖掘概念与技术习题答案-第3章_第4页
第4页 / 共6页
数据挖掘概念与技术习题答案-第3章_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《数据挖掘概念与技术习题答案-第3章》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术习题答案-第3章(6页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘概念与技术(原书第3版)第三章课后习题及解答3.7习题3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。答:数据的质量依赖于数据的应用。准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。数据质量的另外三个尺度是时效性,可解释性,可

2、信性。3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。答:对于有缺失值的元组,当前有6种处理的方法:(1) 忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。(2) 人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。(3) 使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或-)替换。如果缺失值都用“un

3、known”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值“unknown”。因此,尽管该方法简单,但是并不十分可靠。(4) 使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。(5) 使用与给定元组属同一类的所有样本的属性均值或中位数(6) 使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。3.3在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22

4、,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.其次用箱均值光滑数据:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,5

5、2,70.14.7,14.7,14.7;18.3,18.3,18.3;21,21,21;24,24,24;26.7,26.7,26.7;33.7,33.7,33.7;35,35,35;40.3,40.3,40.3;56,56,56箱均值光滑技术确实使给定的数据光滑了。(b)如何确定该数据中的离群点?答:可以用聚类来检测离群点。聚类将类似的值组织成群或“簇”,直观的,落在簇之外的值被视为离群点。(c)还有什么其他方法来光滑数据?答:还可以用回归来光滑数据。3.4讨论数据集成需要考虑的问题。答:1.实体识别问题;2.冗余和相关分析;3.元组重复;4.数据值冲突的检测与处理。3.5如下规范化方法的值

6、域是什么?(a)最小-最大规范化(b)z分数规范化(c)z分数规范化,使用均值绝对偏差而不是标准差(d)小数定标规范化答:(a) 最小-最大规范化:指定的最小,最大值(b) z分数规范化:(-,+)(c) z分数规范化,使用均值绝对偏差而不是标准差:(-,+)(d) 小数定标规范化:(-1,1)3.6使用如下方法规范化如下数据组:200,300,400,600,1000(a)另min=0,max=1,最小-最大规范化(b)z分数规范化(c)z分数规范化,使用均值绝对偏差而不是标准差(d)小数定标规范化答:(a)另min=0,max=1,最小-最大规范化200变为0300变为(300-200)/

7、(1000-200)*(1-0)+0=0.125400变为(400-200)/(1000-200)*(1-0)+0=0.25600变为(600-200)/(1000-200)*(1-0)+0=0.51000变为(1000-200)/(1000-200)*(1-0)+0=1规范化后的数据组为:0,0.125,0.25,0.5,1(b)z分数规范化求得数据组均值为500,标准差为316.2200变为-0.95300变为-0.63400变为-0.32600变为0.321000变为1.58规范化后的数据组为:-0.95,-0.63,-0.32,0.32,1.58(c)z分数规范化,使用均值绝对偏差而不

8、是标准差求得数据组均值为500,均值绝对差为240200变为-1.25300变为-0.83400变为-0.42600变为0.421000变为2.08规范化后的数据组为:-1.25,-0.83,-0.42,0.42,2.08(d)小数定标规范化0.02,0.03,0.04,0.06,0.13.7使用习题3.3中给出的age数据,回答以下问题:(a)使用最小-最大规范化将age值35变换到0.0,1.0区间(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁(c)使用小数定标规范化变换age值35(d)指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。答:(a)(35-13

9、)/(70-13)*(1-0)+0=0.39(b)(35-29.96)/12.94=0.39(c)0.35(d)对于给定的数据,我愿意使用小数定标规范化,最简单3.8使用习题2.4中给出的age和%fat数据,回答如下问题:(a)基于z分数规范化,规范化这两个属性(b)计算相关系数(pearson矩阵系数)。这两个变量是正相关还是负相关?计算他们的协方差。答:(a) 原始数据如下:Age232327273941474950%fat9.526.57.817.831.425.927.427.231.2Age525454565758586061%fat34.642.528.833.430.234.1

10、32.941.235.7规范化后的数据如下:Age0.210.210.300.300.560.600.730.770.79%fat0.010.60-0.050.300.770.580.630.620.76Age0.840.880.880.920.940.960.961.011.03%fat0.881.160.680.840.730.860.821.110.92(b) 相关系数(pearson矩阵系数)r(age,%fat)=0.82这两个变量是正相关协方差cov(A,B)=100.023.9假设12个销售记录价格已经排序,如下所示:5,10,11,13,15,35,50,55,72,92,20

11、4,215使用如下方法使它们划分成三个箱(a)等频(等深)划分(b)等宽划分(c)聚类答:(a) 箱1: 5,10,11,13箱2: 15,35,50,55箱3: 72,92,204,215(b) 箱1: 5,10,11,13,15,35,50,55箱2: 72,92箱3: 204,215(c) 使用k-means聚类,聚为三类箱1: 5,10,11,13,15,35箱2: 50,55,72,92箱3: 204,2153.10使用流程图概述如下属性子集选择过程:(a)逐步向前选择(b)逐步向后删除(c)结合逐步向前选择和逐步向后删除答:(a)逐步向前选择(b)逐步向后删除(c)结合逐步向前选择

12、和逐步向后删除初始属性集:A1,A2,A3,A4,A5,A61、初始化规约集:2、A13、A1,A24、A1,A2,A3规约后的属性集初始属性集:A1,A2,A3,A4,A5,A61、A1,A2,A3,A4,A52、A1,A2,A3,A43、A1,A2,A3规约后的属性集初始属性集:A1,A2,A3,A4,A5,A61、 初始化规约集:初始属性集A1,A2,A3,A4,A5,A62、A1UA2,A3,A4,A53、A1,A2UA3,A44、A1,A2,A3规约后的属性集3.11使用习题3.3中给出的age数据(a)画一个宽度为10的等宽的直方图(b)简要描述如下每种抽样技术的例子:SRSWOR

13、,SRSWR,簇抽样,分层抽样。使用大小为5的样本以及层“young”、“middle_aged”和“senior”答:(a) 略。横轴为age,纵轴为频次(b) SRSWOR:无放回简单随机抽样,从age中抽取5个样本,每次抽取一个,不放回age中SRSWR:有放回简单随机抽样,从age中抽取5个样本,每次抽取一个,放回age中簇抽样:用无放回简单随机抽样将age数据分为几个不相交的簇。分层抽样:将age数据对年龄层进行分层,分为“young”、“middle_aged”和“senior”,对每层数据,分别随机抽取2,2,1个3.12ChiMergeKer92是监督的、自底向上的(即基于合并

14、的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止标准。(a)简略描述ChiMerge如何工作(b)取鸢尾花数据集作为待离散化的数据集合,鸢尾花数据集可以从UCI机器学习数据库得到。使用ChiMerge方法,对四个数值属性分别进行离散化。(令停止条件为:max-interval=6)。你需要写一个小程序,以避免麻烦的数值计算。提交你的简要分析和检验结果:分裂点、最终的区间以及源程序文档。答:3.13对如下问题,使用伪代码或你喜欢用的程序设计语言,给出一个算法:(a)对于标称数据,基于给定模式中属性的不同值的个数,自动产生概念分层(b)对于数值数据,基于等宽划分规则,自动产生概念分层(c)对于数值数据,基于等频划分规则,自动产生概念分层答:3.14数据库系统中鲁棒的数据加载提出了一个挑战,因为输入数据常常是脏的。在许多情况下,数据记录可能缺少多个值,某些记录可能被污染(即某些数据值不在期望的值域内或具有不同的类型)。设计一种自动数据清理和加载算法,使得有错误的数据被标记,被污染的数据在数据加载时不会错误地插入到数据库中。答:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号