数据挖掘习题及解答-完美版

资源描述

《数据挖掘习题及解答-完美版》由会员分享，可在线阅读，更多相关《数据挖掘习题及解答-完美版（5页珍藏版）》请在金锄头文库上搜索。

1、Data Mining Take Home Exam学号: xxxxxxxx 姓名: xxxxxx 1. （20 分）考虑下表的数据集。顾客 ID性别车型衬衣尺码类 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20男男男男男男女女女女男男男男女女女女女女家用运动运动运动运动运动运动运动运动豪华家用家用家用豪华豪华豪华豪华豪华豪华豪华小中中大加大加大小小中大大加大中加大小小中中中大C0 C0 C0 C0 C0 C0 C0 C0 C

2、0 C0 C1 C1 C1 C1 C1 C1 C1 C1 C1 C1（1）计算整个数据集的 Gini 指标值。（2）计算属性性别的 Gini 指标值（3）计算使用多路划分属性车型的 Gini 指标值（4）计算使用多路划分属性衬衣尺码的 Gini 指标值（5）下面哪个属性更好，性别、车型还是衬衣尺码？为什么？解：（1）类类顾客顾客 c010 c110 Gini=1-(10/20)2-(10/20)2=0.5 (2) 性别性别男男女女 c064 c146 Gini=1-(6/10)2-(4/10)2*1/2*2=0.48 (3)车型家用运动豪华 c0181 c1307 Gini=1-(

3、1/4)2-(3/4)2*4/20+1-(8/8)2-(0/8)2*8/20+1-(1/8)2- (7/8)2*8/20=26/160=0.1625 (4) 尺码小中大加大 c03322 c12422 Gini=1-(3/5)2-(2/5)2*5/20+1-(3/7)2-(4/7)2*7/20+1-(2/4)2- (2/4)2*4/20*2=8/25+6/35=0.4914(5) 比较上面各属性的 Gini 值大小可知，车型划分 Gini 值 0.1625 最小，即使用车型属性更好。2. （20 分）考虑下表中的购物篮事务数据集。顾客 ID事务 ID购买项 1 1 2 2 3 3 4 4

4、5 5001 0024 0012 0031 0015 0022 0029 0040 0033 0038a,d,e a,b,c,e a,b,d,e a,c,d,e b,c,e b,d,e c,d a,b,c a,d,e a,b,e(1) 将每个事务 ID 视为一个购物篮，计算项集e，b,d 和b,d,e的支持度。（2）使用（1）的计算结果，计算关联规则 b,de和eb,d 的置信度。（3）将每个顾客 ID 作为一个购物篮，重复（1）。应当将每个项看作一个二元变量（如果一个项在顾客的购买事务中至少出现一次，则为 1，否则，为 0）。（4）使用（3）的计算结果，计算关联规则b,de和eb,

5、d 的置信度。答：（1）由上表计数可得的支持度为 8/10=0.8；，的支持度为2/10=0.2；b,d,e的支持度为 2/10=0.2。（2）cb,de=2/8=0.25; ceb,d=8/2=4。（3）同理可得：e的支持度为 4/5=0.8，b,d的支持度为 5/5=1， b,d,e的支持度为 4/5=0.8。（4）cb,de=5/4=1.25，ceb,d=4/5=0.8。3. （20 分）以下是多元回归分析的部分 R 输出结果。 ls1=lm(yx1+x2) anova(ls1)Df Sum Sq Mean Sq F value Pr(F) x1 1 10021.2 10021.

6、2 62.038 0.0001007 * x2 1 4030.9 4030.9 24.954 0.0015735 * Residuals 7 1130.7 161.5 ls2 anova(ls2)Df Sum Sq Mean Sq F value Pr(F) x2 1 3363.4 3363.4 20.822 0.002595 * x1 1 10688.7 10688.7 66.170 8.193e-05 * Residuals 7 1130.7 161.5 （1）用 F 检验来检验以下假设 ( = 0.05)H0: 1 = 0Ha: 1 0计算检验统计量；是否拒绝零假设，为什么？（2）用

7、F 检验来检验以下假设 ( = 0.05)H0: 2 = 0Ha: 2 0计算检验统计量；是否拒绝零假设，为什么？（3）用 F 检验来检验以下假设 ( = 0.05)H0: 1 = 2 = 0Ha: 1 和 2 并不都等于零计算检验统计量；是否拒绝零假设，为什么？解：（1）根据第一个输出结果 F=62.083F（2，7）=4.74，pF(2,7)=4.74，pF=(2,7)=4.74,即拒绝原假设，得到和并不都等于 0。4. （20 分）考虑下面 20 个观测值： 1 -20.00 -0.516 -1.249 -0.510 25.000 6 -0.561 -0.928 -0.023 0.

8、714 0.374 11 -0.377 0.830 0.838 0.874 -1.306 16 1.138 1.087 -1.489 2.524 0.713（1）用 3*S 标准来检测该数据中是否存在异常值。（2）用 1.5*IQR 标准来检测该数据中是否存在异常值。要求提供均值、标准差、IQR 值和所用的区间，以及你判断的依据。解：数据放入 R 运行得 hhh=c(-20.00,-0.516,-1.249,-0.510,25.000, + + -0.561,-0.928,-0.023,0.714,0.374, + + -0.377,0.830,0.838,0.874,-1.306, +

9、 + 1.138,1.087,-1.489,2.524,0.713) mean(hhh) 1 0.35665 sqrt(var(hhh) 1 7.405346 jjj which(abs(jjj)=3) 1 5 Q1=quantile(hhh,0.25) Q3=quantile(hhh,0.75) IQR=Q3-Q1 Q125% -0.65275 Q375% 0.847 IQR75% 1.49975 kk ll which(hhh which(hhhll) 1 5 （1）由以上数据处理可得第五个数据 25.00 为异常值。（2）由数据分析可以得出第一个-20.00 和第五个 25.00 均为

10、异常值。5. 简述题（20 分）。（1）在这门课中你学习了几种聚类分析的算法？简述这几种算法的基本工作原理。答：（1）学习了三种聚类分析算法，分别为系统聚类分析、K 均值分析和 DBSCAN 分析。其中系统聚类又分为许多种计算规则，主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等，其主要思想是在不同方法下把客观认为最相近的两类合并为一类，再次执行并类步骤，那么就可以把所有的观测值都聚为一类，对于想要知道分多少类的具体情况有很大的帮助，可以依照树状聚类图得到清晰的表示。 K-均值聚类原理是依一定观测值的均值来确定聚类中心，从而根据其他的观测值和中心的距离来判

11、断归为哪一类中。该聚类方法事先需要确定要分的类别数据，计算量要小得多，效率比层次聚类要高。但对于想要知道其他几类的分类情况就需要重新计算分析。 DBSCAN 分析算法工作原理是对一组观测值优先聚合靠的最近的两个值，然后再寻找下一个靠的最近的值，依次类推，最后得到用户想要的簇的种类。其中可能会出现噪声点，那么根据区间半径考虑是否舍弃的情况。（2）关联规则挖掘任务主要分为哪几个主要的子任务？简述你学到的算法在这些子任务中的工作原理。答：主要分为两个子任务：频繁项集的产生和关联规则的产生。第一种算法是 Apriori 算法是基于支持度的剪枝技术，系统地控制候选项集指数增长。根据先验原理，对一个系统所有的项集从最简单的集合到最复杂的集合采取逐层检验步骤，计算各项的支持度和置信度大小和阕值比较，即测试过程；对指定的非频繁项集和包含该非频繁项集的非频繁项采取舍弃操作，即剪枝过程；直到没有新的非频繁项集产生时，执行算法结束过程。

展开阅读全文