数据挖掘笔试题

上传人:夏** 文档编号:432601107 上传时间:2023-09-28 格式:DOCX 页数:6 大小:18.30KB
返回 下载 相关 举报
数据挖掘笔试题_第1页
第1页 / 共6页
数据挖掘笔试题_第2页
第2页 / 共6页
数据挖掘笔试题_第3页
第3页 / 共6页
数据挖掘笔试题_第4页
第4页 / 共6页
数据挖掘笔试题_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《数据挖掘笔试题》由会员分享,可在线阅读,更多相关《数据挖掘笔试题(6页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘笔试题一、单选题。(10分)1、在 HMM 中,如果己知观察序列和产生观察字列的状态序列,那么可用以下哪 种 方法直接进行参数估计()A、 EM 算法B、维特比算法C、前向后向算法D、极大似然估计2八Nave Bayes是一种特殊的Bayes分类器,特征变最是X,类别标签是C,它的一 个假定是:()A、各类别的先验概率P(C)是相等的B、以 0 为均值, sqr(2)/2 为标准差的正态分布C、特征变量 X 的各个维度是类别条件独立随机变最D、P(XIC)是高斯分布3、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为 10w 条数据,负样本只有 lw 条数据,以下最合

2、适的处理方法是()A、将负样本重复 10 次,生成 10w 样本量,打乱顺序参与分类B、直接进行分类,可以最大限度利用数据C、从 10w 正样本中随机抽取 lw 参与分类D、将负样本每个权重设置为 10,正样本权重为 1,参与训练过程 4、下列哪个不是影响聚类算法效果的主要原因有:()?A、特征选取B、模式相似性测度C、分类准则D、己知类别的样本质量5、一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别 4 种不同的人员:狱警,小偷,送餐员,其他。下而哪种学习方法最适合此种应 用 需求:()oA、二分类问题B、多分类问题C、层次聚类问题D、A 中心点聚类问题6、在其他条件不变的

3、前提下,以下哪种做法容易引起机器学习中的过拟合问题()A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核7、每份考卷都有一个 8 位二进制序列号。当且仅当一个序列号含有偶数个 1 时 它才是有效的。例如,00000000、 01010011 都是有效的序列号,而 11111110 不 是。那么,有效的序列号共有()个A、127B、128C、255D、256 8、给定一个整数sum,从有N个有序元素的数组中寻找元素a, b,使得a+b的结果 最接近sum,最快的平均时间复杂度是:A、0(n)B、O(nlogn)C、0(rT2)D、O(lo

4、gn)9、已知一棵二叉树的先序和中序遍历序列如下:先序:A、B、C、D、E、F、G、H、 I、 J 中序: CBAEFDIHJG 其后序遍历序列为:()A、CBDEAGIHJFB、CBDAEGIHJFC、CEDBIJHGFAD、CBFEIJHGDA 10、刚毕业的小王上班有两路公交车都可以从家到公司.如果只等 A 车,平均需要5 分钟才等到;如果只等 B 车,平均需要 7 分钟才能等到.假定两辆车运行时间独 立,那么小王平均需要等多长时间才能等到 A 车或 B 车?A、2 分钟B、2 分 35 秒C、2 分 55 秒D、3 分钟 二、多选题(20 分)I、数据淸理中,处理缺失值的方法是?A、估

5、算B、整例删除C、变量删除D、成对删除2、以下()属于线性分类器最佳准则?A、感知准则函数B、贝叶斯分类C、支持向量机DA Fisher 准则3、以下说法中正确的是()A、SVM 对噪声(如来自其他分布的噪声样本)鲁棒B、在 AdaBoost 算法中,所有被分错的样本的权重更新比例相同C、Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分 类 器的正确率决定其权重D、给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测 试误 差之间的差别会随着n的增加而减少4、下列哪些方法可以用來对高维数据进行降维A、 LASSOB、主成分分析法C、聚类分析D、小波

6、分析法E、线性判别法F、拉普拉斯特征映射5 、选项代码中能正确操作数组元素的是()int main ( ) int aN N = 0,0, 0, 0;for(int i=0;iN;i 卄)for(int j=0;jN;j+) 访问二维数组a的值选项代码A、*(*(a+i)+j)=lB、*(ai+j)=lC*(a+i)j=lD*(a+i)+j)=l6.el,e2,e3,e4按顺序依次入栈,以下可能的出栈顺序有Ae2,e3,e4,elBel,e2,e4,e3Ce3,e2,e4,el、D e2,e4, e3, el7. 非稳定排序有()A、冒泡排序B、归并排序C、快速排序D、堆排序E、希尔排序8、关

7、于主键Primary Key和索弓I index,以卜说法正确的有()A. 唯一索引列允许为 NULLB. 个关系表中的外键必为另一表的主键C. 一个关系表只能有一个唯一性索引D. 索引只用于査询操作,对插入操作影响不大9、下列屈于哪个不属于无监督学习的是:A、kmeansB、SVMC、最大爛D、CRF10、以下与数据的存储结构无关的术语是()A、循环队列B、链表C、哈希表D、栈三、问答题(50 分九1. 谈谈 HashMap 和 Hasht able 的区别?( 10 分)2. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节, 内存限制大小是1M。现在希望能返回频数最高

8、的100个词,请写出你的方案。(10分)3、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理、步 骤及优缺点(15分) 。4、一维数据的拟合,给定数据集g.y,(i二l,n),兀是训练数据,必是对应 的预期值。拟使用线性、二次、高次等函数进行拟合,如下:(15分)线性:f (x) =ax+b二次:f (x)二 ax2+bx+c三次:f (x) 二 ax-3+bx2+cx+d(1)请依次列出线性、二次、三次拟合的误差函数表达式。(2)按照梯度下降法进行拟合,请给出具体的推导过程。3)下图给出了线性、二次和七次拟合的效果图。诸说明进行数据拟合时,需 要考虑哪些问题。在本例中,你选择哪种拟合函数。that the S. You may one unique四、编程题(求一个字符串 S 中的最长回文)(20 分)Given a st ring S find the 1 onges t palindromic subs tring in assume maximum length of S is 1000, and there exists longest palindromic substring

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号