2014年工程硕士数据挖掘考试试题.doc

资源描述

《2014年工程硕士数据挖掘考试试题.doc》由会员分享，可在线阅读，更多相关《2014年工程硕士数据挖掘考试试题.doc（3页珍藏版）》请在金锄头文库上搜索。

1、二O一三二O一四学年第二学期研究生期末考试数据挖掘试题一、选择题(本大题共20小题，每小题1分，共20分) 列出的四个备选项中选择一项符合题目要求的，请将其代码填写在题后的括号内。错选、多选或未选均无分。（请将选择答案填入下面的表格中。）1为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？( B )A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则2建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？( C )A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则3用户有一种感兴趣的

2、模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？( A )A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则4假设给定的数据集的值已经分组为区间。区间和对应的频率如下。( B )计算数据的近似中位数值A 1520 B2050 C5080 D801105下面哪种不属于数据预处理的方法？ ( D )A变量代换 B离散化 C 聚集 D 估计遗漏值6假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ ( B

3、)A 第一个 B 第二个 C 第三个 D 第四个7上题中，等宽划分时（宽度为50），15又在哪个箱子里？ ( A )A 第一个 B 第二个 C 第三个 D 第四个8下面哪个不属于数据的属性类型：( D )A 标称 B 序数 C 区间 D相异9只有非零值才重要的二元属性被称作：( C )A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性10下面不属于创建新属性的相关方法的是： ( B )A特征提取 B特征修改 C映射数据到新的空间 D特征构造11考虑值集1、2、3、4、5、90，其截断均值（p=20%）是 ( C )A 2 B 3 C 3.5 D 512熵是为消除不确定性所需要获得的信

4、息量，投掷均匀正六面体骰子的熵是： ( B )A 1比特 B 2.6比特 C 3.2比特 D 3.8比特13假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：( D )A 0.821 B 1.224 C 1.458 D 0.716 14假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70, 问题：使用按箱平均值平滑方法对

5、上述数据进行平滑，箱的深度为3。第二个箱子值为：( A )A 18.3 B 22.6 C 26.8 D 27.915考虑值集12 24 33 2 4 55 68 26，其四分位数极差是：( A )A 31 B 24 C 55 D 316在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是： ( D )A 有放回的简单随机抽样 B无放回的简单随机抽样 C分层抽样 D 渐进抽样17数据仓库是随着时间变化的,下面的描述不正确的是 ( C )A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含

6、大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.18关于基本数据的元数据是指: ( D )A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.19下面关于数据粒度的描述不正确的是: ( C )A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量

7、以及查询质量.20在有关数据仓库测试,下列说法不正确的是: ( D )A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D. 在测试之前没必要制定详细的测试计划.二、简答题 (本大题共5小题，每小题10分，共50 分)1分析说明为什么会产生数据挖掘这门新兴学科，它为什么是不可替代的学科？2什么是数据仓库？数据仓库与数据库的主要区别是什么？3简述数据分类的两步过程以及对分类方法评价的主要内容。4常用数据中心趋势以

8、及数据离散的度量有哪些？5. 用面向属性的归纳方法进行数据概化处理的基本过程是什么？分析各步对数据概化结果的影响。三、论述题（本大题共2小题，每小题15分，共30 分）1目前的学术不端文献检测系统中有如下这些特点，结合你所学的数据挖掘来分析这些特点：a覆盖面广，通过混合引擎覆盖约188亿个网页和490万篇论文，实现了对互联网和部分期刊网的广度覆盖。系统采用算法提取信息指纹。b模糊检测，柔性匹配，为防止抄袭者替换部分字符，删除部分标点符号，系统通过相似度来进行判定。系统采用自研的算法实现高速相似性检测和度量。c相似文档模块跟踪技术，可以通过简单操作直接定位相似文档中哪些内容被抄袭或者拷贝，直观明了2结合我们现在的数据挖掘知识和专业，论述网购用户行为和提升购买力。主要是我们如何在市场营销、消费行为等领域的消费行为分析和购买力提升、及营销策划广泛的理论及实践问题中使用数据挖掘。3

展开阅读全文

2014年工程硕士数据挖掘考试试题.doc

最新文档