数据挖掘考试题目

上传人:汽*** 文档编号:467181579 上传时间:2023-01-05 格式:DOCX 页数:6 大小:13.58KB
返回 下载 相关 举报
数据挖掘考试题目_第1页
第1页 / 共6页
数据挖掘考试题目_第2页
第2页 / 共6页
数据挖掘考试题目_第3页
第3页 / 共6页
数据挖掘考试题目_第4页
第4页 / 共6页
数据挖掘考试题目_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《数据挖掘考试题目》由会员分享,可在线阅读,更多相关《数据挖掘考试题目(6页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘考试题目聚类一 、填空题1、密度的基于中心的方法使得我们可以将点分类为:、 、。2、DBSCAN 算法在最坏的情况下,时间复杂度是、空间复杂度是。3、DBSCAN 算法的优点是、。4、DBSCAN 算法的缺点是处理、的数据效果不好。5、DBSCAN 算法的参数有:、。6、簇的有效性的非监督度量常常可以分为两类:、,它常采用的指标为。7、簇的有效性的监督度量通常称为,它度量簇标号与外部提供的标号的匹配程度主要借助。8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是9、DBSCAN 算法的参数确定的基本方法是观察的特性。10、不引用附加的信息,评估聚类分析结果对数据

2、拟合情况属于技术答案:1、核心点 边界点 噪声点2、 O(n2)O(n)3、耐噪声 能够处理任意大小和形状的簇4、高维数据 变密度的5、 EPSMinPts6、簇的凝聚性簇的分离性均方差(SSE)7、外部指标 监督指标的熵8、块对角的9、点到它的第K个最近邻的距离(K-距离)10、非监督二、选择题1、DBSCAN算法的过程是(B)。 删除噪声点。 每组连通的核心点形成一个簇。 将所有点标记为核心点、边界点和噪声点。 将每个边界点指派到一个与之关联的核心点的簇中。 为距离在 Eps 之内的所有核心点之间赋予一条边。A:B:C:D:2、如果有m个点,DBSCAN在最坏的情况下的时间复杂度度为(C)

3、。A O(m)B O(mlogm)C O(m2)D O(logm)3、在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个 参数( B)。A EpsB MinPtsC 质心D 边界4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大, 则小簇(尺寸小于K的簇)可能会被标记为(A)。A 噪声B 核心簇C 边界簇D 以上都不对5、如果处理以下形状的数据时,适宜采用DBSCAN的是(B)A 球形B SS 形C 椭球形D 方形6、DBSCAN之所以难以有效处理高维数据,其主要原因是(D)7、簇评估能够做到(D) 确定数据集的聚类趋势。 确

4、定正确的簇个数。 比较两个簇集,确定那个更好。 不引用附加信息,评估聚类分析结果对数据拟合情况ABCD8、如果不考虑外部信息,聚类结构的有良性度量应当采用(A)。A 均方差B 方差C 中位数D 均值9、比较不同的聚类或簇时,通常采用相对的簇评估度量,相对的簇评估以()来评价不同 的聚类或簇。A SSE 或熵 B 簇的大小C 簇的形状D 簇的密度10、对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致(B)A 能很好的区分各类簇B 只有高密度的点的聚集区划为簇,其余划为噪声C 低密度的点的聚集区划为簇,其余的划为噪声D 无影响三、判断题1、DBSCAN的参数Eps固定时,MinP

5、ts的值越大越好。(错)2、DBSCAN会把所有点划分到各自的簇中。(错)3、在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。(对)4、SSE在无监督的簇评估中能起到很好的作用。(对)5、在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的,说明具有明显分离的簇(对)。6、DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。(对)7、判断簇的个数不属于簇评估。(错)8、在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。(对)9、DBSCAN的空间复杂度始终都是O(m)。(对)10、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并 有重

6、叠的簇。(对)四、简答题1、描述DBSCAN的算法过程。 将所有点标记为核心点、边界点和噪声点。 删除噪声点。 为距离在Eps之内的所有核心点之间赋予一条边。 每组连通的核心点形成一个簇。 将每个边界点指派到一个与之关联的核心点的簇中。2、简答DBSCAN的优点与不足。答,优点:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇, 缺点:当簇的密度变化过大时, DBSCAN 就很难敏感的发现数据集中的簇。同时,DBSCAN在处理高维数据时,会有很大的开销。3、简述DBSCAN算法的核心思想。DBSCAN算法的核心思想是一个簇中除了边界点,每个点在给定的半径Eps内必须包 含不少于PinPts个数据点,这样的点称为核心点。4、确定DBSCAN参数的基本的方法是什么。答:观察点到它的K个最近邻的距离的特性。对于某个K,计算所有点的K距离,以递增 的次序排序,绘制排序后的值。在图中找到曲线拐点,拐点处的函数值为Eps半径,K的值 为 Minpts。5、簇评估的主要任务是什么。答:确定数据集的聚类趋势。 确定正确的簇个数。 不引用附加的信息,评估聚类分析结果对数据的拟合情况。 将聚类分析结果与已知的客观结果比较。 比较两个簇集,确定哪个更好。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号