20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答卷 (3)

上传人:哼**** 文档编号:130068161 上传时间:2020-04-24 格式:DOC 页数:7 大小:26KB
返回 下载 相关 举报
20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答卷 (3)_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答卷 (3)》由会员分享,可在线阅读,更多相关《20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答卷 (3)(7页珍藏版)》请在金锄头文库上搜索。

1、注意:答案的顺序有可能和你的题不一样 注意核对答案与选项20春学期(1709、1803、1809、1903、1909、2003)数据科学导论在线作业试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.实体识别的常见形式()A.异名同义B.属性不同C.同名异义D.单位不统一答案:B2.例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A.连续属性离散化B.规范化C.简单函数变换D.属性构造答案:B3.单层感知机模型属于()模型。A.多分类的非线性分类模型B.多分类的线性分类模型C.二分类的非线性分类模型D.二分类的线性分类模型答案:D4.通过变量标准化

2、计算得到的回归方程称为()。A.标准化自回归方程B.标准化多回归方程C.标准化回归方程D.标准化偏回归方程答案:C5.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.重复值B.缺失值C.异常值D.不一致的值答案:D6.以下哪些不是缺失值的影响()A.数据建模的不确定性更加显著B.数据建模将丢失大量有用信息C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出答案:C7.层次聚类适合规模较()的数据集A.所有B.小C.大D.中答案:B8.以下哪个不是处理缺失值的方法()

3、A.随意填写B.按照一定原则补充C.删除记录D.不处理答案:A9.聚类的最简单最基本方法是()。A.距离聚类B.层次聚类C.密度聚类D.划分聚类答案:D10.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.2,非线性B.2,线性C.1,非线性D.1,线性答案:D11.考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A.1,3,4,5B.1,2,4,5C.1,2,3,5D.1,2,3,4答案:B12.在k近邻法中,选

4、择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A.增大,增大B.增大,减小C.减小,增大D.减小,减小答案:C13.手肘法的核心指标是()。A.SSEB.SESC.RMSED.MSE答案:A14.变量之间的关系一般可以分为确定性关系与()。A.非确定性关系B.线性关系C.相关关系D.函数关系答案:A15.以下哪一项不属于数据变换()A.连续属性离散化B.规范化C.简单函数变换D.属性合并答案:D16.以下哪一项不是特征选择常见的方法()A.过滤式B.开放式C.嵌入式D.封装式答案:B17.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电

5、等异常行为属于数据变换中的()A.连续属性离散化B.规范化C.简单函数变换D.属性构造答案:D18.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()A.重复值B.缺失值C.异常值D.不一致的值答案:A19.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明()。A.产量每增加一台,单位成本平均减少1.2元B.产量每增加一台,单位成本增加100元C.产量每增加一台,单位成本减少1.2元D.产量每增加一台,单位平均增加100元答案:A20.层次聚类对给定的数据进行()的分解。A.聚合B.层次C.复制D

6、.分拆答案:B二、多选题 (共 10 道试题,共 20 分)21.K-means聚类中K值选取的方法是()。A.随机选取B.手肘法C.密度分类法D.大腿法答案:BC22.数据科学具有哪些性质()A.未预料B.有效性C.可用性D.可理解答案:ABCD23.多层感知机的学习过程包含()。A.误差的正向传播B.误差的反向传播C.信号的正向传播D.信号的反向传播答案:BC24.系统日志收集的基本特征有()A.高效率B.高可靠性C.高可用性D.可扩展性答案:BCD25.层次聚类的方法是()A.聚合方法B.组合方法C.比较方法D.分拆方法答案:AD26.距离度量中的距离可以是()A.欧式距离B.曼哈顿距离

7、C.Minkowski距离D.Lp距离答案:ABCD27.聚类的主要方法有()。A.距离聚类B.层次聚类C.密度聚类D.划分聚类答案:BCD28.相关性的分类,按照相关的方向可以分为()。A.负相关B.正相关C.左相关D.右相关答案:AB29.对于多层感知机,()层拥有激活函数的功能神经元。A.隐含层B.输出层C.输入层答案:AB30.什么情况下结点不用划分()A.还有子集不能被基本正确分类B.当前结点所包含的样本全属于同一类别C.当前结点包含的样本集为空D.当前属性集为空,或是所有样本在所有属性上取值相同答案:BCD三、判断题 (共 20 道试题,共 40 分)31.信息熵越大,数据信息的不

8、确定性越小。答案:错误32.K-means算法采用贪心策略,通过迭代优化来近似求解。答案:正确33.K-means聚类是发现给定数据集的K个簇的算法。答案:正确34.特征的信息增益越大,则其越不重要。答案:错误35.决策树的输入为训练集,输出为以node为根结点的一棵决策树答案:正确36.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。答案:正确37.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。答案:错误38.在数据预处理时,无论什么情况,都可以直接将异常值删除答案:错误39.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们

9、可用信息增益来进行决策树的最优特征选择。答案:正确40.当特征为离散型时,可以使用信息增益作为评价统计量。答案:正确41.支持度是衡量关联规则重要性的一个指标。答案:正确42.交叉表被广泛用于调查研究,商业智能,工程和科学研究答案:正确43.BFR聚类簇的坐标可以与空间的坐标保持一致。答案:错误44.在树的结构中,特征越重要,就越远离根节点。答案:错误45.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。答案:正确46.多元线性回归模型中,标准化偏回归系数没有单位。答案:正确47.单层感知机对于线性不可分的数据,学习过程也可以收敛。答案:错误48.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。答案:错误49.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。答案:正确50.对于项集来说,置信度没有意义。答案:正确

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 成考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号