南开大学19秋学期（1709、1803、1809、1903、1909）《数据科学导论》在线作业

资源描述

《南开大学19秋学期（1709、1803、1809、1903、1909）《数据科学导论》在线作业》由会员分享，可在线阅读，更多相关《南开大学19秋学期（1709、1803、1809、1903、1909）《数据科学导论》在线作业（9页珍藏版）》请在金锄头文库上搜索。

1、19 秋学期（1709、1803、1809、1903、1909）数据科学导论在线作业为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。 A.1 B.2 C.3 D.4 正确答案:B 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?() A.关联规则发现 B.聚类 C.分类 D.自然语言处理正确答案:A 只有非零值才重要的二元属性被称作:(),其中购物篮数据就属于这种属性。 A.计数属性 B.离散属性 C.非对称的二元属性#对称属性正确答案:C 变量之间的关系一般可以分为确定性关系与()。 A.非确定性关系 B.线性关系 C.函

2、数关系 D.相关关系正确答案:A BFR聚类是用于处理数据集()的 k-means 变体。 A.大 B.中 C.小 D.所有正确答案:A 例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的() A.简单函数变换 B.规范化 C.属性构造 D.连续属性离散化正确答案:B 数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说, 脏数据不包括以下() A.普通值 B.异常值 C.不一致的值 D.重复值正确答案:A 层次聚类适合规模较()的数据集 A.大 B.中 C.小 D.所有正确答案:C 某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=10

3、0-1.2X,这说明()。 A.产量每增加一台，单位成本增加 100元 B.产量每增加一台，单位成本减少 1.2元 C.产量每增加一台，单位成本平均减少 1.2元 D.产量每增加一台，单位平均增加 100元正确答案:C 设X=1,2,3是频繁项集,则可由 X产生()个关联规则。 A.4 B.5 C.6 D.7 正确答案:C 根据映射关系的不同可以分为线性回归和()。 A.对数回归 B.非线性回归 C.逻辑回归 D.多元回归正确答案:B 多层感知机是由()层神经元组成。 A.二 B.三 C.大于等于二层 D.大于等于三层正确答案:D 通过构造新的指标-线损率,当超出线损率的正常范围,则可

4、以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的() A.简单函数变换 B.规范化 C.属性构造 D.连续属性离散化正确答案:C 单层感知机是由()层神经元组成。 A.一 B.二 C.三 D.四正确答案:B 比如一张表,从业务上讲,一个用户应该只会有一条记录,那么如果某个用户出现了超过一条的记录,这就产生了() A.异常值 B.不一致的值 C.重复值 D.缺失值正确答案:C 我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。 A.自上而下 B.自下而上 C.自左而右 D.自右而左正确答案:B 一元线性回归中,真实值与预测值的差称为样本的()。

5、A.误差 B.方差 C.测差 D.残差正确答案:D 以下哪一项不是特征工程的子问题() A.特征创建 B.特征提取 C.特征选择 D.特征识别正确答案:D 对于k近邻法,下列说法错误的是()。 A.不具有显式的学习过程 B.适用于多分类任务 C.k值越大，分类效果越好 D.通常采用多数表决的分类决策规则正确答案:C 聚类的最简单最基本方法是()。 A.划分聚类 B.层次聚类 C.密度聚类 D.距离聚类正确答案:A 多层感知机的学习过程包含()。 A.信号的正向传播 B.信号的反向传播 C.误差的正向传播 D.误差的反向传播正确答案:AD Apriori算法的计算复杂度受()影响。 A

6、.支持度阈值 B.项数 C.事务数 D.事务平均宽度正确答案:ABCD 什么情况下结点不用划分() A.当前结点所包含的样本全属于同一类别 B.当前属性集为空，或是所有样本在所有属性上取值相同 C.当前结点包含的样本集为空 D.还有子集不能被基本正确分类正确答案:ABC 聚类的主要方法有()。 A.划分聚类 B.层次聚类 C.密度聚类 D.距离聚类正确答案:ABC 下列选项是BFR的对象是() A.废弃集 B.临时集 C.压缩集 D.留存集正确答案:ACD 关联规则的评价度量主要有:()。 A.支持度 B.置信度 C.准确率 D.错误率正确答案:AB 数据科学具有哪些性质() A.有

7、效性 B.可用性 C.未预料 D.可理解正确答案:ABCD 系统日志收集的基本特征有() A.高可用性 B.高可靠性 C.可扩展性 D.高效率正确答案:ABC 相关性的分类,按照相关的方向可以分为()。 A.正相关 B.负相关 C.左相关 D.右相关正确答案:AB 距离度量中的距离可以是() A.欧式距离 B.曼哈顿距离 C.Lp 距离 D.Minkowski距离正确答案:ABCD 多层感知机的学习能力有限,只能处理线性可分的二分类问题。 T.对 F.错正确答案:B 阶跃函数具有不光滑、不连续的特点。 T.对 F.错正确答案:A 标准BP 算法是在读取全部数据集后,对参数进行统一更

8、新的算法。 T.对 F.错正确答案:B 剪枝是决策树学习算法对付“过拟合”的主要手段 T.对 F.错正确答案:A 为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合 T.对 F.错正确答案:B 当训练集较大的时候,标准 BP算法通常会更快的获得更好的解。 T.对 F.错正确答案:A 方差过小的特征对数据的区分能力强 T.对 F.错正确答案:B 利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。 T.对 F.错正确答案:B 两个对象越相似,他们的相异度就越高。 T.

9、对 F.错正确答案:B 给定一个数据集,如果存在某个超平面 S 能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。 T.对 F.错正确答案:B 一般而言,信息增益越大,则意味着使用属性 a 来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。 T.对 F.错正确答案:A 决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建 T.对 F.错正确答案:A K-means聚类是发现给定数据集的 K

10、个簇的算法。 T.对 F.错正确答案:A 增加神经元的个数,无法提高神经网络的训练精度。 T.对 F.错正确答案:B 神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。 T.对 F.错正确答案:A 茎叶图失去原始数据的信息,而直方图保留原始数据的信息。 T.对 F.错正确答案:B 当特征为离散型时,可以使用信息增益作为评价统计量。 T.对 F.错正确答案:A K-means算法采用贪心策略,通过迭代优化来近似求解。 T.对 F.错正确答案:A 对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。 T.对 F.错正确答案:A 啤酒与尿布的故事是聚类分析的典型实例。 T.对 F.错正确答案:B

展开阅读全文