教材部分习题参考答案(发布版).pdf

资源描述

《教材部分习题参考答案(发布版).pdf》由会员分享，可在线阅读，更多相关《教材部分习题参考答案(发布版).pdf（22页珍藏版）》请在金锄头文库上搜索。

1、1 部分习题参考答案第 1 章认识数据挖掘 1对于以下问题，考虑使用有指导的学习方法、无指导的聚类方法和数据查询方法中的哪一种更为合适。若使用有指导的学习方法，请确定可能的输入属性和输出属性。略。 2定义“成功人士”的概念。确定概念中的属性特征，并分别从传统角度、概率角度和样本角度描述这个概念。略。 3为表 1.1 感冒类型诊断数据集画一张前馈神经网络图。说明： 7 个输入属性Increased lym （淋巴细胞升高）、 Leukocytosis （白细胞升高）、 Fever（发烧）、Acute-onset（起病急）、Sore-throat（咽痛）、Cooling-effe

2、ct（退热效果）、Group（群体发病），1 个输出属性Cold-type（感冒类型）。网络结构包括 7 个输入结点和 1 个输出结点，选择 9 个隐藏层结点。 4假设有两个类，各有 100 个实例。第一个类中的实例是患有病毒性感冒(Cold-type = Viral) 的患者数据。第二个类中的实例是患有细菌性感冒(Cold-type = Bacterial)的患者数据。根据以下规则回答下面的问题。 IF Increased lym(淋巴细胞是否升高)= Yes & Sore-throat(是否有咽痛症状)= No THEN Cold-type = Viral (rule accurac

3、y = 80%，rule coverage = 60%) (1) 患有病毒性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状？ 60 (2) 患有细菌性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状？ 60/0.8-60=15 5在不使用 Sore-throat(咽痛)属性的情况下，使用 Weka 软件为表 1.1 建立一棵决策树，解 2 释和评估结果，并对表 1.2 中的实例进行分类。决策树（C4.5）检验数据为训练集，分类正确率 80%，模型性能一般。分类表 1.2 中的两个实例结果：第一个实例被分类为患有细菌性感冒（Cold-type = Bacterial），第二个实例被分类为患有病

4、毒性感冒（Cold-type = Viral）。 6访问 UCI 网站，选择一个数据集，使用 Weka 软件进行有指导的学习、无指导的聚类和关联分析，并解释和评估结果。略。第 2 章基本数据挖掘技术 1. 关联规则和传统的用于分类的产生式规则有什么异同？关联规则与传统的用于分类的产生式规则有两点不同。 (1) 在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中。 (2) 传统的用于分类的产生式规则的结果中仅能有一个属性，而关联规则中则允许其结果包含一个或多个属性。 2. 对于 K-means 算法，最优聚类的评判标准是什么？ K-means 算法的最优聚类通常为：

5、簇中所有实例与簇中心的误差平方和最小。 3. 设计方案解决 K-means 算法缺乏对所发现内容进行解释的问题。提示：尝试使用决策树算法对 K-means 算法形成的簇的定义进行解释。略。 4. 画出使用 Partner 作为根节点的决策树，并写出决策时的产生式规则。 3 Courses 6 Yes 2 No 3 No 5 Partner 1 Yes 3 No Yes No (1) IF Partner = Yes and Courses 5 THEN Play = No 正确率：3/3 = 100% 覆盖率：3/8 = 37.5% (3) IF Partner = No THEN Pla

6、y = No 正确率：3/4 = 75% 覆盖率：3/8 = 37.5% 5. 计算使用 Partner 作为根节点的增益率值。 (1) Info(I)= -(7/15log2(7/15)+8/15log2(8/15)= 0.9967920.9968 (2) Info(I,Partner)= 11/15Info(Yes)+4/15Info(No)= 0.9453 其中：Info(Yes)= - (6/11log2(6/11) + 5/11log2(5/11) = 0.9940 Info(No)=-(1/4log2(1/4) + 3/4log2(3/4) = 0.8113 (3) SplitsI

7、nfo(Partner)= - (11/15log2(11/15) + 4/15log2(4/15) = 0.8366 (4) Gain(Partner) = Info(I)- Info(I,Partner)0.9968-0.9453 = 0.0515 (5) GainRatio(Partner) = Gain ( Partner) / SplitsInfo(Partner) = 0.0515 / 0.8366 = 0.0616 6. 计算使用 Temperature 作为根节点的增益率值。 (1) Info(I)= -(7/15log2(7/15)+8/15log2(8/15)= 0.996

8、7920.9968 (2) Info(I,Temperature)= 3/15Info(-100)+2/15Info(010) +4/15Info(1020) +5/15Info(2030) +1/15Info(3040)= 0.6406 其中：Info(-100)= - (2/3log2(2/3) + 1/3log2(1/3) = 0.9183 Info(010)=-(1/2log2(1/2) + 1/2log2(1/2) =1 Info(1020)=- 4/4log2(4/4)= 0 Info(2030)=-(3/5log2(3/5) + 2/5log2(2/5) = 0.9710 Inf

9、o(3040)=-1/1log2(1/1)= 0 4 (3) SplitsInfo(Temperature)= - (3/15log2(3/15) + 2/15log2(2/15) + 4/15log2(4/15) + 5/15log2(5/15) + 1/15log2(1/15) = 2.1493 (4) Gain(Temperature) = Info(I)- Info(I, Temperature)0.9968-0.6406 = 0.3561 (5) GainRatio(Temperature) = Gain (Temperature) / SplitsInfo(Temperature)

10、 = 0.3561 /2.1493 = 0.1657 7. 使用表 2.3 中的数据，计算以下关联规则的置信度和支持度值。 IF Juice = 1 & DVD = 1 THEN Earphone =1 置信度= 3/5=60% 支持度=3/7=42.9% 8. 对以下三项条目，列出三条规则，使用表2.3中的数据确定这些规则的置信度和支持度的值。 Book =1 & Sneaker = 0 & DVD = 1 三条规则为：（1）IF Book = 1 & Sneaker = 0 THEN DVD =1 置信度= 2/3=66.7% 支持度=2/8=25% （2）IF Book = 1 &

11、 DVD =1 THEN Sneaker = 0 置信度= 2/4=50% 支持度=2/5=40% （3）IF Sneaker = 0 & DVD =1 THEN Book = 1 置信度= 2/4=50% 支持度=2/5=40% 9. 使用表 2.8 所示的数据集，应用 K-means 算法进行聚类，初始值K为 2，请写出完整的迭代过程和最后的聚类结果。使用 Weka 软件完成相同的任务，并检查两个结果的异同。表 2.8 数据集 Instance A B 1 4.0 2.5 2 1.5 1.0 3 3.0 1.5 4 4.5 3.5 5 4.0 2.5 6 2.5 5.0 过程 1：（初

12、始簇中心选择 1） (1) 设置 K 值为 2。 (2) 选择实例 1 作为第 1 个簇中心、实例 2 作为第 2 个簇中心。 (3) 使用式(2.9)，计算其余实例与两个簇中心的简单欧氏距离，结果如表 1 所示。表中的 C1和 C2表示两个簇中心，表中的值为所有实例距离两个簇中心的距离。从表中可以看到，第 3、4、5、6 实例距离簇 1 最近，故将第 3、4、5、6 实例划分到簇 1 中。在算法的第一次迭代后，得到两个簇： 1,3,4,5,6和2。 5 表 1 第一次到第三次迭代中实例与簇之间的简单欧氏距离簇中心 C1 = (4.0,2.5) 和C2=(1.5,1.0) 簇中心 C

13、1 = (3.6,3.0) 和C2=(1.5,1.0) 簇中心 C1 = (3.75,3.375) 和C2=(2.25,1.25) Instance C1 C2 C1 C2 C1 C2 1 0 2.9 0.6 2.9 0.9 2.2 2 2.9 0 2.9 0.0 3.3 0.8 3 1.4 1.6 1.6 1.6 2.0 0.8 4 1.1 3.9 1.0 3.9 0.8 3.2 5 0 2.9 0.6 2.9 0.9 2.2 6 2.9 4.1 2.3 4.1 2.1 3.8 (4) 重新计算新的簇中心。对于簇 1：x = (4.0+3.0+4.5+4.0+2.5) / 5=3.6，y

14、= (2.5+1.5+3.5+2.5+5.0) / 5 =3.0。对于簇 2：簇中心不变，即 C2= (1.0,1.0)。得到新的簇中心 C1= (3.6,3.0) 和 C2= (1.5,1.0)，因为簇中心发生了变化，算法必须执行第二次迭代，重复步骤(3)。第二次迭代之后的结果导致了簇的变化：1,4,5,6和2,3。 (5) 重新计算每个簇中心。对于簇 1：x = (4.0+4.5+4.0+2.5) / 4=3.75，y = (2.5+3.5+2.5+5.0) / 4 = 3.375。对于簇 2：x = (1.5+3.0) / 2= 2.25，y = (1.0+1.5) / 2

15、=1.25。这次迭代后簇中心再次改变。因此，该过程继续进行第三次迭代，结果形成1,4,5,6 和2,3两个簇，与第二次迭代后形成的簇完全一样，若继续计算新簇中心的话，簇中心的值一定不变，至此，算法结束。聚类结果为：形成1,4,5,6和2,3两个簇。 Weka 聚类结果： 6 使用两种方法的聚类结果不一致。过程 2：（初始簇中心选择 2）选择实例 1 作为第 1 个簇中心、实例 6 作为第 2 个簇中心。迭代结果如表 2 所示。表 2 第一次到第二次迭代中实例与簇之间的简单欧氏距离簇中心簇中心 C1 = (4.0,2.5) 和C2=(2.5,5.0) C1 =( 3.4,2.2) 和C2=(2.5,5.0) Instance C1 C2 C1 C2 1 0.0 2.9 0.7 2.9 2 2.9 4.1 2.2 4.1 3 1.4 3.5 0.8 3.5 4 1.1 2.5 1.7 2.5 5 0.0 2.9 0.7 2.9 6 2.9 0.0 2.9 0.0 聚类结果为：形成1,2,3,4,5和6两个簇。与 Weka 的聚类结果不一致。过程 3：（初始簇中心选择 3）选择实例 6 作为第 1 个簇中心、实例 2 作为第 2 个簇中心。迭代结果如表 3 所示。表 2 第一次到第二次迭代中实例与簇之间的简单欧氏距离簇中心

展开阅读全文