数据挖掘考试题－金锄头文库

资源描述

《数据挖掘考试题》由会员分享，可在线阅读，更多相关《数据挖掘考试题（10页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘考试题一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离 ( )A. 分类 B. 聚类 C. 关联分析 D. 主成分分析2. ( ) 将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。( 单链 )( 全链 ) C. 组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了 ( ) 数据挖掘方法。A 分类 B 预测 C 关联规则分析D 聚类4. 关于K均值和DBSCANJ比较，以下说法不正确的是()均值丢弃被它识别为噪声的对象，而DBSCAN-般聚类所有对象。均值使用簇的基于原型的概念，DBSCA牌

2、用基于密度的概念。均值很难处理非球形的簇和不同大小的簇，DBSCANT以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCA2合并有重叠的簇5. 下列关于 Ward s Method 说法错误的是： ( )A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是： ( )A. 具有全局优化目标函数B.Group Average 擅长处理球状的簇C. 可以处理不同大小簇

3、的能力D.Max对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中，说法错误的事： ( )A. 一旦两个簇合并，该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C.空间复杂度为O m2D.具有全局优化目标函数8.规则牛奶，尿布一啤酒的支持度和置信度分别为：（）TID项集1面包，牛奶2回包，尿布，啤酒，鸡蛋 3牛奶，尿布，啤酒，可乐4回包，牛奶，尿布，啤酒5回包，牛奶，尿布，可乐下列（）是属于分裂层次聚类的方法。Average11I2I3I4I51000,900,100.650.200.901.000.700.600.500.100.701.000400.300.650.600.4010

4、00.800200.500.300.801.0010.对下图数据进行凝聚聚类操作，簇间相似度使用 MAX十算，第二步是哪两个簇合并：（）11I2I3I4I5A.在3和1,2合并 B.3 和4,5合并 C.2,3 和4,5合并D. 2,3和4,5形成簇和3合并二.填空题：1 .属性包括的四种类型：、。2 . 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3 .基本凝聚层次聚类算法空间复杂度 ,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。4 .聚类中，定义簇间的相似度的方法有（写出四个）：、。5 .层次聚类技术是第二类重要的聚类方法。

5、两种层次聚类的基本方法：、。6 .组平均是一种界于和之间的折中方法。7 .相似度矩阵可以用相识度表布还可以用表不。8 .全链在处理大小不同的簇时，可能使破裂，并且偏好。9 .单链技术擅长于处理，但对和很敏感。10 .聚类分析可以看做是一种的分类。（有监督、无监督）三.判断题1 .从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（）2 .数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（）3 .在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（）4 .当两个点之间的邻近度取它们之间距离的平方时，Ward方法

6、与组平均非常相似。（）5 . DBSCAN相对抗噪声的，并且能够处理任意形状和大小的簇。（）6 .属性的性质不必与用来度量他的值的性质相同。（）7 .全链对噪声点和离群点很敏感。（）8 .对于非对称的属性，只有非零值才是重要的。（）9 . K均值可以很好的处理不同密度的数据。（）10 .单链技术擅长处理椭圆形状的簇。（）四.综合题1 .何为层次聚类它用哪两种图表示2 .两种层次聚类的基本方法两种方法的定义3 .分别写出Min、Max和组平均的优缺点4 .写出基本凝聚层次聚类的算法5 .由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图P1P2P3P4P5P6P1P2P

7、3P4P5P6考试题+答案一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离（ B）A. 分类 B. 聚类 C. 关联分析 D. 主成分分析2. （ C）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。（单链）（全链） C. 组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（ C ）数据挖掘方法。A 分类 B 预测 C 关联规则分析D 聚类4. 关于K均值和DBSCANJ比较，以下说法不正确的是（A均值丢弃被它识别为噪声的对象，而DBSCAN-般聚类所有对象。均值使用簇的基于原型

8、的概念，DBSCA牌用基于密度的概念。均值很难处理非球形的簇和不同大小的簇，DBSCANT以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCA2合并有重叠的簇5. 下列关于 Ward s Method 说法错误的是：（C）A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似7. 下列关于层次聚类存在的问题说法正确的是：（B）A具有全局优化目标函数Average 擅长处理球状的簇C. 可以处理不同大小簇的能

9、力对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中，说法错误的事：（D）A. 一旦两个簇合并，该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为 O m2D.具有全局优化目标函数8.规则牛奶，尿布一啤酒的支持度和置信度分别为：（C）TID项集1面包，牛奶2回包，尿布，啤酒，鸡蛋 3牛奶，尿布，啤酒，可乐4回包，牛奶，尿布，啤酒5回包，牛奶，尿布，可乐下列（D）是属于分裂层次聚类的方法。Average11I2I3I4I51000,900 J00.650.200.901.000700.600.500.100701.000.400.300.650.600.40L000.80

10、0.200,500300.801.00和4,5合并 C.2,3 和4,5合并10.对下图数据进行凝聚聚类操作，簇间相似度使用 MAX十算，第二步是哪两个簇合并：（B）11I2I3I4I5A.在3和1,2合并 B.3D. 2,3和4,5形成簇和3合并二.填空题：1 .属性包括的四种类型：回、庄娄L、区间、比率。2 .组壬及是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3 .基本凝聚层次聚类算法空间复杂度O m2 ,时间复杂度O m3 ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为O m2 log m。4 .聚类中，定义簇间的相似度的方法有（写出四个）

11、： MIN （单链）、MAX（全链）、组平均_、Ward方法。5 .层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：凝聚层次聚类、会裂层次聚类。6 .组平均是一种界于单链和全链之间的折中方法。7 .相似度矩阵可以用相识度表示还可以用距离表示。8 .全链在处理大小不同的簇时，可能使大的簇破裂,并且偏好球形。9 .单链技术擅长于处理非椭圆形状的簇，但对噪声点和离群点很敏感。10 .聚类分析可以看做是一种无监督的分类。（有监督、无监督）三.判断题：1 .从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（X）2 .数据挖掘的目标不在于数据采集

12、策略，而在于对已经存在的数据进行模式的发掘。（，）3 .在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（X ）4 .当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（，）5 . DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（ V）6 .属性的性质不必与用来度量他的值的性质相同。（ V ）7 .全链对噪声点和离群点很敏感。（x ）8 .对于非对称的属性，只有非零值才是重要的。（ V ）9 . K均值可以很好的处理不同密度的数据。（ X ）10 .单链技术擅长处理椭圆形状的簇。（ x ）四.综合题1 .何为层次聚类它用哪两种图表示层次

13、聚类为嵌套簇的聚集，组成一棵层次数。两种主要图的表示：树状图和嵌套簇图。2 .两种层次聚类的基本方法两种方法的定义凝聚层次聚类和分裂层次聚类凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。3.分别写出Min、Max和组平均的优缺点定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1 .当处理簇大小/、同时，较大的簇容易破裂2 .偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4.写出基本凝聚层次聚类的算法算法步骤：(1)计算邻近度矩阵(2)Repeat3 3)合并最邻近的两个簇4 4)更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近度(5)Until 仅剩下一个簇5.由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图P1P2P3P4P5P6P1P2P3P4P5P6这是告诉你的计算过程，现在不要写了。P3和P6最近所以36结合，P2和P5较近，所以25结合，现在是3,6、2,5、1和4,Dist(3,6,4) = max(dist(3,4),dist(6,4)= max尸Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max,=Dist(3,6,1)=m

展开阅读全文