数据挖掘试卷 题集

上传人:小** 文档编号:89415534 上传时间:2019-05-24 格式:DOC 页数:5 大小:44.33KB
返回 下载 相关 举报
数据挖掘试卷 题集_第1页
第1页 / 共5页
数据挖掘试卷 题集_第2页
第2页 / 共5页
数据挖掘试卷 题集_第3页
第3页 / 共5页
数据挖掘试卷 题集_第4页
第4页 / 共5页
数据挖掘试卷 题集_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据挖掘试卷 题集》由会员分享,可在线阅读,更多相关《数据挖掘试卷 题集(5页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘复习题集1. 名词解释及简答数据矩阵闭频繁项集,极大频繁项集四分位数极差聚类分析聚类算法DBSCAN中的密度可达与密度相连简述数据清理的任务简述k-means聚类与k-中心点聚类的相似与不同之处2. 填空题(1) 计算sin(45o)的Matlab命令是 (2) 假设x=10,计算的Matlab命令是 (3) Matlab中清除显示内容的命令是 (4) Matlab中清除变量y的命令是 (5) Matlab中有矩阵a=1 2 3; 4 5 6; 7 8 9,执行a(2,:)=后,a的值为 。(6) Matlab中绘制曲线的基本命令是 。(7) 数据质量涉及许多因素,包括 , , ,时效

2、性,可信性和可解释性。(8) 属性的类型由该属性可能具有的值的集合决定,属性类型包括 , ,序数的或数值的。(9) KDD 过程包括: , 数据集成, 数据选择, 数据变换, 数据挖掘, 模式评估, 和 。(10) 一个模式是有趣的,如果它是 , 在某种程度上在新的或测试数据上是有效的, , 新颖的, 或验证了用户希望证实的某种假设。(11) 数据对象又称为样本、 、数据点、 或 。(12) 数值属性可以被分为 属性和 属性(13) 常见的数据的可视化技术有基于 的技术,几何投影技术,基于 的技术以及层次的和基于图形的技术。(14) 支持度和 是规则兴趣度的两种度量。3. 选择题:1) Mat

3、lab中,执行a=-4:4;b=reshape(a,3,3)后b的值是()。D. 报错C. -4 -4 -4;4 4 4;4 4 4B. -4 -1 2; -3 0 3; -2 1 4A. -4 -3 -2; -1 0 1; 2 3 42) 在MATLAB中,列出当前工作空间变量名的函数是(A) who(s) (B) clc (C)path (D) draw3) 已知,则在MATLAB中调用命令A(3)的结果为(A)3 (B)2 (C) 无结果 (D)74) MATLAB对图形窗口进行灵活分割的命令为(A) plot (B) subplot (C) aplot (D) ploval5) ,则A

4、.*B=(A) 运算不执行,因有错 (B)6 83 (C) 5 74 (D) 6 6 36) MATLAB中保持图形窗口不关闭的命令为(A) alter (B) hold on (C) hold off (D) cd7) MATLAB中a=2,3,1,则b=a.2的结果为(A) b=4,6,1(B)b=4,9,1 (C)b=4,6,2 (D) 执行出错,无结果8) MATLAB中给变量w赋空矩阵的语句为(A)w=zeros() (B)w= (C)w=zeros(0,0) (D) clear w9) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A

5、. 关联规则发现B. 聚类C. 分类D. 自然语言处理10) 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? ()A 第一个B 第二个C 第三个D 第四个11) 上题中,等宽划分时(宽度为50),15又在哪个箱子里? ()12) 下面哪个不属于数据的属性类型:()A 标称B 序数C 区间D相异13) 在上题中,属于定量的属性类型是:()14) 只有非零值才重要的二元属性被称作:()A 计数属性B 离散属性C非对称的二元属性D 对称属性

6、15) 以下哪种方法不属于特征选择的标准方法: ()A 嵌入B 过滤C 包装D 抽样16) 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ()A 1比特B 2.6比特C 3.2比特D 3.8比特17) 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A 0.821 B 1.224 C 1.458 D 0.71618) 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25

7、,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()A 18.3 B 22.6 C 26.8 D 27.919) 考虑值集12 24 33 2 4 55 68 26,其四分位数极差是:( )A 31 B 24 C 55 D 320) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: ()A 一年级B二年级C 三年级D 四年级21) 下列哪个不是专门用于可视化时间空间数据的技术: ()A 等高线图B 饼图C 曲面图D 矢

8、量场图22) 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ()A 有放回的简单随机抽样B 无放回的简单随机抽样C 分层抽样D 渐进抽样23) 以下哪些算法是分类算法,()A,DBSCANB,C4.5C,K-MeanD,EM24) 以下哪些分类方法可以较好地避免样本的不平衡问题,()A,KNNB,SVMC,BayesD,神经网络25) 以下哪项关于决策树的说法是错误的 ( )A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题26) 决策树分类方法中,ID3算法使用的分裂准则

9、是:A. 信息增益 B. 增益比率 C.基尼指数 D.分类错误率27) 决策树分类方法中,C4.5算法使用的分裂准则是:A. 信息增益 B. 增益比率 C.基尼指数 D.分类错误率28) 决策树分类方法中,CART算法使用的分裂准则是:A. 信息增益 B. 增益比率 C.基尼指数 D.分类错误率4. 判断题1. Matlab程序要编译后才能运行。()2. Matlab中变量名不区分大小写。()3. Matlab中对2维矩阵的下标与C语言一样,是行优先存储。()4. Matlab的执行效率比C语言低,但是Matlab的开发难度通常比C语言低。()5. 聚类算法运行的条件需要所有的训练样本都有类别

10、标签。()6. 决策树中基于信息增益分裂准则的一个缺陷是它趋向于多值属性。()7. 分类算法中,随着分类模型的复杂度增加,训练集和测试集上的准确率通常都会提高。()8. DBSCAN是一种基于密度的聚类方法。()9. 分位数图是一种观察单变量数据分布的简单有效方法。()10. 分位数-分位数图可以观察从一个分布到另一个分布是否有漂移。()11. k-中心点聚类算法比k-均值算法对离群点更鲁棒。()12. 频繁项集的关联规则挖掘中,闭频繁项集和极大频繁项集都包含了频繁项集的完整支持度信息()13. 频繁模式增长FP-growth是一种比Aprior算法更高效的关联规则挖掘算法。()5. 计算题:

11、1. 给定两个元组(10, 20, 30, 10)和(20, 0, 36, 8)表示的对象,求以下距离:(1) 计算这两个对象间的欧几里得距离(2) 计算这两个对象间的曼哈顿距离(3) 使用q=3,计算这两个对象之间的闵可夫斯基距离(4) 计算这两个对象之间的上确界距离2.在决策树分类中,依据分裂规则的不同提出了不同决策树算法,信息增益准则在ID3分类方法中采用。我们希望能够学习出一个贷款申请的决策树,当新的客户提出申请贷款时,根据申请人的特征利用决策树决定是否批准申请贷款。请完成如下的计算。ID年龄有工作有自己的房子信贷情况是否批准贷款申请1青年否否一般否2青年否否好否3青年是否好是4青年是

12、是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否1)假设目前在根节点,包含所有15个样本点,请计算根节点分类所需的期望信息。2)计算年龄属性分裂的信息增益。3)计算用是否有工作属性分裂的信息增益。4)计算分别用是否有自己的房子和信贷情况属性分裂的信息增益,并说明基于信息增益准则,应该选择什么属性作为分裂属性。3. 朴素贝叶斯分类方法是一种简单但高效的分类方法,有如下关于顾客是否买计算机的训练数据集,请依据朴素贝叶斯分类方法,写出计算过程,判断属性信

13、息为x=(年龄=青年,收入中等,信用等级=良好)的顾客是否会购买计算机。RID年龄收入信用等级是否买计算机1青年高良否2青年高优否3中年高良是4老年中等良是5老年低良是6老年低优否7中年低优是8青年中等良否9青年低良是10老年中等良是4. 有如下混淆矩阵,请计算指标分类准确率,灵敏度,特效性,精度,召回率和F1度量。预测类别实际类别Class=YesClass=NoClass=Yes90210Class=No14095605. 假设我们对购买计算机游戏和录像带的事务感兴趣。设game表示包含计算机游戏的事务,而video表示包含录像的事务。在所分析的1000个事务中,数据显示有600个顾客事务包含计算机游戏,750个事务包含录像,而400个事务同时包含计算机游戏和录像。假设发现关联规则的数据挖掘程序在该数据上运行,计算如下关联规则的支持度和置信度:buys(X,”游戏”)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号