数据挖掘考试题－金锄头文库

资源描述

《数据挖掘考试题》由会员分享，可在线阅读，更多相关《数据挖掘考试题（13页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘考试题1选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）A. 分类 B.聚类 C.关联分析 D.主成分分析2. （）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。A. MIN（单链）B.MAX（全链） C.组平均 D.Ward方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。A分类B预测C关联规则分析 D聚类4关于K均值和DBSCAN的比较，以下说法不正确的是（）A. K均值丢弃被它识别为噪声的对象，而DBSCAN 一般聚类所有对象。B. K均值使用簇的基于原型的概念

2、，DBSCAN使用基于密度的概念。C. K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5下列关于Wards Met hod说法错误的是：（）A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是：()A. 具有全局优化目标函数B. Group Average 擅长处理球状

3、的簇C. 可以处理不同大小簇的能力D. Max 对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中，说法错误的事：()A. 一旦两个簇合并，该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为D. 具有全局优化目标函数8规则牛奶，尿布-啤酒的支持度和置信度分别为：()1面包，牛奶2面包，尿布，啤酒，鸡蛋3牛奶，尿布，啤酒，可乐4面包，牛奶，尿布，啤酒5面包，牛奶，尿布，可乐A. 0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.49.下列( )是属于分裂层次聚类的方法。A. Min B.Max C.Group Average D.MST10对

4、下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：()11I2I3I4I5111.000.900.100.650.20I20.901.000.700.600.50I30.100.701.000.400.30I40.650.600.401.000.80I50.200.500.300.801.00A. 在3和1,2合并 B.3和4,5合并 C.2,3和4,5合并D. 2,3和4,5形成簇和3合并2填空题：1. 属性包括的四种类型：2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存

5、放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。4. 聚类中，定义簇间的相似度的方法有（写出四个）：、、、5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：、。6. 组平均是一种界于和法。7. 相似度矩阵可以用相识度表示还可以用8. 全链在处理大小不同的簇时，可能使好。9. 单链技术擅长于处理对和很敏感。之间的折中方表示。破裂，并且偏，但10. 聚类分析可以看做是一种的分类。（有监督、无监督）判断题1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（）2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数

6、据进行模式的发掘。（）3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（）5. DBSCAN 是相对抗噪声的，并且能够处理任意形状和大小的簇。（）6. 属性的性质不必与用来度量他的值的性质相同。（）7. 全链对噪声点和离群点很敏感。（）8. 对于非对称的属性，只有非零值才是重要的。（）9. K 均值可以很好的处理不同密度的数据。（）10. 单链技术擅长处理椭圆形状的簇。（）四综合题1. 何为层次聚类？它用哪两种图表示？2. 两种层次聚类的基本方法？两种方法的定义

7、？3. 分别写出 Min、Max 和组平均的优缺点？4. 写出基本凝聚层次聚类的算法？5. 由下图已给出的距离矩阵，将 Max 用于 6 个点样本数据集，画出层次聚类的树状图？P1P2P3P4P5P6P10.000.240.220.370.340.23P20.240.000.140.200.130.25P30.220.140.000.150.280.11P40.370.200.150.000.290.22P50.340.130.280.290.000.39P60.230.250.110.220.390.00考试题+答案一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据

8、与带其他标签的数据相分离？(B)A. 分类 B.聚类C.关联分析D.主成分分析2. (C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。A.MIN(单链)B.MAX(全链)C.组平均 D.Ward方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了 (C)数据挖掘方法。A分类B预测C关联规则分析 D聚类4. 关于K均值和DBSCAN的比较，以下说法不正确的是(A)A. K均值丢弃被它识别为噪声的对象，而DBSCAN 般聚类所有对象。B. K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。C. K均值很难处理非球形的簇和不同大小的簇，DBS

9、CAN可以处理不同大小和不同形状的簇D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是 DBSCAN会合并有重叠的簇5下列关于Wards Met hod说法错误的是：（C）A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似7.下列关于层次聚类存在的问题说法正确的是：（B）A具有全局优化目标函数B. Group Average擅长处理球状的簇C. 可以处理不同大小簇的能力D. Max对噪声点和离群点很敏感7下列关于凝聚层次聚

10、类的说法中，说法错误的事：（D）A. 旦两个簇合并，该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为D. 具有全局优化目标函数8规则牛奶，尿布-啤酒的支持度和置信度分别为：（C）TID项集1面包，牛奶2面包，尿布，啤酒，鸡蛋3牛奶，尿布，啤酒，可乐4面包，牛奶，尿布，啤酒5面包，牛奶，尿布，可乐A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49下列（D）是属于分裂层次聚类的方法。A.MinB.MaxC.Group AverageD.MST10对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：（B）11 I2 I3 I

11、4 I51.000.900.100.650.200.901.000.700.600.500.100.701.000.400.300.650.600.401.000.800.200.500.300.801.00A.在3和1,2合并 B.3和4,5合并 C.2,3和4,5合并D. 2,3和4,5形成簇和3合并二填空题：1. 属性包括的四种类型：标称、序数、区间、比率。2. 组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度O（m2），时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为4. 聚类中，定义簇间

12、的相似度的方法有（写出四个）：MIN （单链）、MAX （全链）、组平均、 Ward 方法。5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：凝聚层次聚类、分裂层次聚类。6. 组平均是一种界于单链和全链之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用距离表示。8. 全链在处理大小不同的簇时，可能使大的簇破裂，并且偏好球形。9. 单链技术擅长于处理非椭圆形状的簇，但对噪声点和离群点很敏感。10. 聚类分析可以看做是一种无监督的分类。（有监督、无监督）三判断题：1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法

13、。（X）2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（V）3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（X ）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（ V）5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（V）6. 属性的性质不必与用来度量他的值的性质相同。（V ）7. 全链对噪声点和离群点很敏感。（X ）8. 对于非对称的属性，只有非零值才是重要的。（V ）9. K均值可以很好的处理不同密度的数据。（X ）10. 单链技术擅长处理椭圆形状的簇。（X ）四综合题1.

14、何为层次聚类？它用哪两种图表示？层次聚类为嵌套簇的聚集，组成一棵层次数。两种主要图的表示：树状图和嵌套簇图。2. 两种层次聚类的基本方法？两种方法的定义？凝聚层次聚类和分裂层次聚类凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。3.分别写出Min、Max和组平均的优缺点？定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1当处理簇大小不同时，较大的簇容易破裂2偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4. 写出基本凝聚层次聚类的算法？算法步骤：(1) 计算邻近度矩阵(2) Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩

展开阅读全文