南开在线考核数据科学导论19秋期末考核答卷

上传人:辽玥 文档编号:127694557 上传时间:2020-04-04 格式:DOC 页数:8 大小:41.50KB
返回 下载 相关 举报
南开在线考核数据科学导论19秋期末考核答卷_第1页
第1页 / 共8页
南开在线考核数据科学导论19秋期末考核答卷_第2页
第2页 / 共8页
南开在线考核数据科学导论19秋期末考核答卷_第3页
第3页 / 共8页
南开在线考核数据科学导论19秋期末考核答卷_第4页
第4页 / 共8页
南开在线考核数据科学导论19秋期末考核答卷_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《南开在线考核数据科学导论19秋期末考核答卷》由会员分享,可在线阅读,更多相关《南开在线考核数据科学导论19秋期末考核答卷(8页珍藏版)》请在金锄头文库上搜索。

1、注意答案顺序,核对好了在下载。一定注意答案顺序!数据科学导论19秋期末 考核-一、单选题 (共 20 道试题,共 20 分)1.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明()。A.产量每增加一 台,单位成本平均减少1.2元B.产量每增加一台,单位成本增加100元C.产量每增加一台,单位成本减少1.2元D.产量每增加一台,单位平均增加100元答案:A2.变量之间的关系一般可以分为确定性关系与()。A.非确定性关系B.线性关系C.相关关系D.函数关系答案:A3.根据映射关系的不同可以分为线性回归和()。A.非线性回归B.逻辑回归C.对数回归D.多元回

2、归答案:A4.K-means聚类适用的数据类型是()。A.语音数据B.数值型数据C.所有数据D.字符型数据答案:B5.聚类是一种()。A.有监督学习B.无监督学习C.强化学习D.半监督学习答案:B6.在一元线性回归模型中,残差项服从()分布。A.非线性B.线性C.泊松D.正态答案:D7.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A.最小化残差平方和B.最小化方差#最小化标准差C.最大化信息熵答案:C8.例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A.连续属性离散化B.规范化C.简单函数变换D.属性构造答案:B9.数据库中相关联的两张表都存储了用户的个人信息

3、,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.重复值B.缺失值C.异常值D.不一致的值答案:D10.单层感知机是由()层神经元组成。A.四B.二C.三D.一答案:B11.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.低维C.中高维D.中维答案:A12.聚类的最简单最基本方法是()。A.距离聚类B.层次聚类C.密度聚类D.划分聚类答案:D13.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。A.非对称的二元属性#对称属性B.计数属性C.离散属性答案:A14.单层感知机拥有()层功能神经元。A.四B.二C.三D

4、.一答案:D15.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A.连续属性离散化B.规范化C.简单函数变换D.属性构造答案:D16.在回归分析中,自变量为(),因变量为()。A.连续型变量,连续型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.离散型变量,离散型变量答案:A17.置信度(confidence)是衡量兴趣度度量( )的指标。A.简洁性B.确定性C.新颖性D.实用性答案:B18.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()A.重复值B.普通值C.异

5、常值D.不一致的值答案:B19.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.2,非线性B.2,线性C.1,非线性D.1,线性答案:D20.以下哪一项不属于数据变换()A.连续属性离散化B.规范化C.简单函数变换D.属性合并答案:D二、多选题 (共 15 道试题,共 30 分)21.Apriori算法的计算复杂度受()影响。A.项数B.支持度阈值C.事务数D.事务平均宽度答案:ABCD22.层次聚类的方法是()A.聚合方法B.组合方法C.比较方法D.分拆方法答案:AD23.多层感知机的学习过程包含()。A.误差的正向传播B.误差的反向传播C.信号的正向传播D.信

6、号的反向传播答案:BC24.K-means聚类中K值选取的方法是()。A.随机选取B.手肘法C.密度分类法D.大腿法答案:BC25.下面例子属于分类的是()A.识别手写的数字B.检测图像中是否有人脸出现C.对客户按照贷款风险大小进行分类D.估计商场客流量答案:ABC26.关联规则的评价度量主要有:()。A.错误率B.置信度C.支持度D.准确率答案:BC27.k近邻法的基本要素包括()。A.距离度量B.样本大小C.分类决策规则D.k值的选择答案:ACD28.什么情况下结点不用划分()A.还有子集不能被基本正确分类B.当前结点所包含的样本全属于同一类别C.当前结点包含的样本集为空D.当前属性集为空

7、,或是所有样本在所有属性上取值相同答案:BCD29.系统日志收集的基本特征有()A.高效率B.高可靠性C.高可用性D.可扩展性答案:BCD30.下列选项是BFR的对象是()A.留存集B.废弃集C.压缩集D.临时集答案:ABC31.对于多层感知机,()层拥有激活函数的功能神经元。A.隐含层B.输出层C.输入层答案:AB32.一元回归参数估计的参数求解方法有()。A.距估计法B.欧式距离法C.最小二乘法D.最大似然法答案:ACD33.数据科学具有哪些性质()A.未预料B.有效性C.可用性D.可理解答案:ABCD34.聚类的主要方法有()。A.距离聚类B.层次聚类C.密度聚类D.划分聚类答案:BCD

8、35.相关性的分类,按照相关的方向可以分为()。A.负相关B.正相关C.左相关D.右相关答案:AB三、判断题 (共 20 道试题,共 20 分)36.交叉表可以帮助人们发现变量之间的相互作用。答案:正确37.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。答案:错误38.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。答案:正确39.当特征为离散型时,可以使用信息增益作为评价统计量。答案:正确40.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。答案:错误41.不满足给定

9、评价度量的关联规则是无趣的。答案:错误42.两个对象越相似,他们的相异度就越高。答案:错误43.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布答案:正确44.特征的信息增益越大,则其越不重要。答案:错误45.信息熵越小,样本结合的纯度越低答案:错误46.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。答案:正确47.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。答

10、案:正确48.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。答案:错误49.多元线性回归模型中,标准化偏回归系数没有单位。答案:正确50.决策树分类时将该结点的实例强行分到条件概率大的那一类去答案:正确51.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。答案:正确52.K均值(K-Means)算法是密度聚类。答案:错误53.关联规则可以用枚举的方法产生。答案:正确54.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。答案:错误55.啤酒与尿布的故事是聚类分析的典型实例。答案:错误四、论述题 (共 1 道试题,共 10 分)56.决策树的基本组

11、成由结点和有向边组成,其中结点分为哪两种类型和代表含义是什么?以及决策树的基本思想?答案:1).结点有两种类型:内部结点和叶节点,内部结点表示一个特征或属性,叶结点表示一个类。2).决策树的基本思想:从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;每个子节点对应着该特征的取值,如此递归地对实例进行测试并分配,直至到达叶结点,最后将实例分到叶结点的类中。五、简答题 (共 2 道试题,共 20 分)57.单层感知机和多层感知机分别解决的是哪类问题?答案:1).单层感知机只能解决线性可分的问题;2).多层感知机可以解决非线性可分的问题。58.什么是神经网络?神经网络中最基本的成分是什么?答案:1). 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。2). 神经网络中最基本的成分是神经元模型。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号