《南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案2》由会员分享,可在线阅读,更多相关《南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案2(16页珍藏版)》请在金锄头文库上搜索。
1、20春学期(1709、1803、1809、1903、1909、2003)数据科学导论在线作业试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.单层感知机是由()层神经元组成。A.一B.二C.三D.四答案:B2.多层感知机是由()层神经元组成。A.二B.三C.大于等于二层D.大于等于三层答案:D3.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A.减小,减小B.减小,增大C.增大,减小D.增大,增大答案:B4.通过变量标准化计算得到的回归方程称为()。A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程答案:
2、A5.设X=1,2,3是频繁项集,则可由X产生()个关联规则。A.4B.5C.6D.7答案:C6.维克托?迈尔-舍恩伯格在大数据时代:生活、工作与思维的大变革一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )A.K-meansB.Bayes NetworkC.C4.5D.Apriori答案:D7.置信度(confidence)是衡量兴趣度度量( )的指标。A.简洁性B.确定性C.实用性D.新颖性答案:B8.以下哪一项不属于数据变换()A.简单函数变
3、换B.规范化C.属性合并D.连续属性离散化答案:C9.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理答案:A10.实体识别属于以下哪个过程()A.数据清洗B.数据集成C.数据规约D.数据变换答案:B11.Apriori算法的加速过程依赖于以下哪个策略( )A.抽样B.剪枝C.缓冲D.并行答案:B12.手肘法的核心指标是()。A.SESB.SSEC.RMSED.MSE答案:B13.考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,
4、5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,5答案:C14.层次聚类对给定的数据进行()的分解。A.聚合B.层次C.分拆D.复制答案:B15.层次聚类适合规模较()的数据集A.大B.中C.小D.所有答案:C16.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:C17.BFR聚类是用于处理数据集()的k-means变体。A.大B.中C.小D.所有答案:A18.为
5、了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。A.1B.2C.3D.4答案:B19.对于k近邻法,下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则答案:C20.在回归分析中,自变量为(),因变量为()。A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量答案:D二、多选题 (共 10 道试题,共 20 分)21.数据科学具有哪些性质()A.有效性B.可用性C.未预料D.可理解答案:ABCD22.下列选项是BFR的对象是()A.废弃集B.临时集C.
6、压缩集D.留存集答案:ACD23.多层感知机的学习过程包含()。A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播答案:AD24.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度答案:ABCD25.距离度量中的距离可以是()A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离答案:ABCD26.什么情况下结点不用划分()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类答案:ABC27.K-means聚类中K值选取的方法是
7、()。A.密度分类法B.手肘法C.大腿法D.随机选取答案:AB28.对于多层感知机,()层拥有激活函数的功能神经元。A.输入层B.隐含层C.输出层答案:BC29.相关性的分类,按照相关的方向可以分为()。A.正相关B.负相关C.左相关D.右相关答案:AB30.聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类答案:ABC三、判断题 (共 20 道试题,共 40 分)31.利用K近邻法进行分类时,k值过小容易发生过拟合现象。答案:正确32.Apriori算法是一种典型的关联规则挖掘算法。答案:正确33.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有
8、关。答案:正确34.可信度是对关联规则的准确度的衡量。答案:正确35.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。答案:错误36.k值增大意味着整体模型变得复杂。答案:错误37.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。答案:错误38.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布答案:正确39.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。答案:正确40.当特征为离散型时,可以使用信息增益作
9、为评价统计量。答案:正确41.信息熵越大,数据信息的不确定性越小。答案:错误42.决策树内部结点表示一个类,叶结点表示一个特征或属性答案:错误43.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。答案:错误44.不满足给定评价度量的关联规则是无趣的。答案:错误45.集中趋势能够表明在一定条件下数据的独特性质与差异答案:错误46.随着特征维数的增加,样本间区分度提高。答案:错误47.多元线性回归模型中,标准化偏回归系数没有单位。答案:正确48.交叉表被广泛用于调查研究,商业智能,工程和科学研究答案:正确49.具有双隐
10、层的感知机足以用于解决任何复杂的分类问题。答案:正确50.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。答案:错误以下内容不需要的请自行删除 德国企业是欧洲企业的代表 1.企业培训。德国企业培训的突出特点是注重能力的培养,解决实际存在的问题。通过探讨和实验寻求解决问题的最佳途径和方法,给每个员工充分的自由发挥的空间,极大地调动了他们的积极性,也大大地提高了参训学员的素质和解决问题的能力。德国企业培训工作还有一个十分重要的任务,就是让员工认同企业的价值观。 2.牢固的质量意识。德国企业对产品质量一向是最重视的。他们认为没有物美价廉的产品,只有精品和次品。他们的许多产品都是以精取胜,
11、成为世界知名的品牌。德国企业精益求精的价值观已深入人心,成为员工的一种自觉行为。德国企业员工追求技术完美和注重质星的强烈意识,技术不断进步,保持良好的质量,制造一流产品,是德国企业具有较强竟争力的重要原因。 3.注重独创性研究开发。德国研究经费占国民生产总值2.9%,居世界前列。德国人相信研究与开发决定企业未来,因而不论经济如何不景气,也不削减开发费用,并在研究中重视独创性和高度专业性,最大限度发挥个人创造潜力,这是德国研究与开发体制的长处。附件2个人所得税预扣率表一(居民个人工资、薪金所得预扣预缴适用)级数累计预扣预缴应纳税所得额预扣率(%)速算扣除数1不超过36000元的部分302超过36
12、000元至144000元的部分1025203超过144000元至300000元的部分20169204超过300000元至420000元的部分25319205超过420000元至660000元的部分30529206超过660000元至960000元的部分35859207超过960000元的部分45181920个人所得税预扣率表二(居民个人劳务报酬所得预扣预缴适用)级数预扣预缴应纳税所得额预扣率(%)速算扣除数1不超过20000元的2002超过20000元至50000元的部分3020003超过50000元的部分407000个人所得税税率表三(非居民个人工资、薪金所得,劳务报酬所得,稿酬所得,特许权使用费所得适用)级数应纳税所得额税率(%)速算扣除数1不超过3000元的302超过3000元至12000元的部分102103超过12000元至25000元的部分2014104超过25000元至35000元的部分2526605超过35000元至55000元的部分3044106超过55000元至80000元的部分3571607超过80000元的部分4515160