数据挖掘课后答案

上传人:M****1 文档编号:497409561 上传时间:2022-11-10 格式:DOC 页数:14 大小:319.50KB
返回 下载 相关 举报
数据挖掘课后答案_第1页
第1页 / 共14页
数据挖掘课后答案_第2页
第2页 / 共14页
数据挖掘课后答案_第3页
第3页 / 共14页
数据挖掘课后答案_第4页
第4页 / 共14页
数据挖掘课后答案_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《数据挖掘课后答案》由会员分享,可在线阅读,更多相关《数据挖掘课后答案(14页珍藏版)》请在金锄头文库上搜索。

1、第一章16(1)数据特征化是目标类数据的一般特性或特征的汇总。例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在4050岁、有工作和很好的信誉等级。(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述,如平均分高达75的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是。(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则。例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=拥有(X,”个人电脑“)sup

2、port= 12,confidence = 98,其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。 例如:某银行需要根据顾客的基本特征将顾客

3、的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。(6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。这可能包括时间相关数据的特征化、区分、关联和相关分、分类、预测和聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似

4、性的数据分析。 例如:假设你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望投资高科技产业公司的股票。股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股票的演变规律。这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资做决策。111 一种是聚类的方法,另一种是预测或回归的方法。(1)聚类方法:聚类后,不同的聚类代表着不同的集群数据。这些数据的离群点,是不属于任何集群。在各种各样的聚类方法当中,基于密度的聚类可能是最有效的。(2)使用预测或回归技术:构建一个基于所有数据的概率(回归)模型,如果一个数据点的预测值有很大的不同给定值,然后给定值可考虑是异常的。 用聚类的方

5、法来检查离群点更为可靠,因为聚类后,不同的聚类代表着不同的集群数据,离群点是不属于任何集群的,这是根据原来的真实数据所检查出来的离群点。而用预测或回归方法,是通过构建一个基于所有数据的(回归)模型,然后根据预测值与原始数据的值比较,当二者相差很大时,就将改点作为离群点处理,这对所建立的模型有很大的依赖性,另外所建立的模型并不一定可以很好地拟合原来的数据,因此一个点在可能某个模型下可能被当作离群点来处理,而在另外一个模型下就是正常点。所以用聚类的方法来检查离群点更为可靠115挖掘海量数据的主要挑战是:1) 第一个挑战是关于数据挖掘算法的有效性、可伸缩性问题,即数据挖掘算法在大型数据库中运行时间必

6、须是可预计的和可接受的,且算法必须是高效率和可扩展的。2) 另一个挑战是并行处理的问题,数据库的巨大规模、数据的广泛分布、数据挖掘过程的高开销和一些数据挖掘算法的计算复杂性要求数据挖掘算法必须具有并行处理的能力,即算法可以将数据划分成若干部分,并行处理,然后合并每一个部分的结果。第二章211 三种规范化方法:(1)最小最大规范化(min-max规范化):对原始数据进行线性变换,将原始数据映射到一个指定的区间。(2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差规范化,是其规范化后的均值为0方差为1。,其中是均值,是标准差(3)小数定标规范化:通过移动属性A的小数点位置

7、进行规范化。 (a)min-max规范化其中v是原始数据,min和max是原始数据的最小和最大值,new_max和new_min是要规范化到的区间的上下限原始数据200 30040060010000,1 规范化00.1250.250.51(b)z-score规范化,其中是均值,是标准差原始数据2003004006001000z-score-1.06-0.7-0.350.351.782.13(1)逐步向前选择开 始初始化属性集,设置初始归约集为空集确定原属性集中最好的属性所选属性是否超出停止界限?把选中的属性添加到归约集中以减少属性设置否在初始设置中是否还有更多的属性?是是否结 束(2)逐步向后

8、删除开 始初始化属性设置为整个属性集确定原属性集中最差的属性所选属性是否超出停止界限?否删除选中的最差属性,以减少属性的设置在初始设置中有更多的属性设置?是否是结束(3)向前选择和向后删除的结合选择最好的属性加入到归约集中,并在剩余的属性中删除一个最差的属性开 始初始化属性设置为空集确定原属性集中最好和最差的属性所选的最好的属性是否超出停止界限?否所选的最差的属性是否超出停止界限?合并设置为减少属性所设置的初始工作的所有剩余的属性是否从最初的工作集属性中删除选定属性在初始设置中是否有更多的属性设置?是否结 束是第三章3.2 简略比较以下概念,可以用例子解释你的观点(a)雪花形模式、事实星座形、

9、星形网查询模型。答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。(b)数据清理、数据变换、刷新 答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。3.4(a)雪花形模式图如下:(见74页)course维表 univ fact table student维表 area维表 course_idcourse_n

10、amedepartmentarea_idcityprovincecountrystudent_idstudent_namearea_idmajorstatusuniversitystudent_idcourse_idsemester_idInstructor_idcountavg_grade Semester维表semester_idsemesteryear Instructor维表Instructor_iddeptrank (b)特殊的QLAP操作如下所示:(见79页)1)在课程维表中,从course_id到department进行上卷操作;2)在学生维表中,从student_id到univ

11、ersity进行上卷操作;3)根据以下标准进行切片和切块操作:department=”CS” and university=”Big University”;4)在学生维表中,从university到student_id进行下钻操作。(c)这个立方体将包含个长方体。(见课本88与89页)第五章5.1(a)假设s是频繁项集,min_sup表示项集的最低支持度,D表示事务数据库。由于s是一个频繁项集,所以有假设是s的一个非空子集,由于support_count()support_sup(s),故有所以原题得证,即频繁项集的所有非空子集必须也是频繁的。(b)由定义知,令是s的任何一个非空子集,则有由

12、(a)可知,support(),这就证明了项集s的任意非空子集的支持度至少和s的支持度一样大。(c)因为根据(b)有p()=p(s)所以 即“=(l- )”的置信度不可能大于“”(d)反证法:即是D中的任意一个频繁项集在D的任一划分中都不是频繁的假设D划分成,min_sup表示最小支持度,C=F是某一个频繁项集, ,设F的项集在中分别出现次所以A= 故 (*)这与(*)式矛盾从而证明在D中频繁的任何项集,至少在D的一个部分中是频繁。5.3最小支持度为3(a)Apriori方法 :C1 L1 C2 L2 C3 L3oke3key2mk3ok3oe3ke4ky3mo1mk3me2my2ok3oe3oy2ke4ky3ey2m3o3k5e4y3m3o3n2k5e4y3d1a1u1c2i1okey3 FP-growth: RootK:5 E:4 M:1 M:2 O:2 Y:1 O:1 Y:1Y:1itemConditional pattern baseConditional treeFrequent patternyomek,e,m,o:1,k,e,o:1,k,m:1

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号