南开大学19秋学期1709、1803、1809、1903、1909数据科学导论在线作业

资源描述

《南开大学19秋学期1709、1803、1809、1903、1909数据科学导论在线作业》由会员分享，可在线阅读，更多相关《南开大学19秋学期1709、1803、1809、1903、1909数据科学导论在线作业（10页珍藏版）》请在金锄头文库上搜索。

1、19 秋学期 1709 1803 1809 1903 1909 数据科学导论在线作业为了解决任何复杂的分类问题使用的感知机结构应至少包含个隐含层 A 1 B 2 C 3 D 4 正确答案 B 某超市研究销售纪录数据后发现买啤酒的人很大概率也会购买尿布这种属于数据挖掘的哪类问题 A 关联规则发现 B 聚类 C 分类 D 自然语言处理正确答案 A 只有非零值才重要的二元属性被称作其中购物篮数据就属于这种属性 A 计数属性 B 离散属性 C 非对称的二元属性对称属性正确答案 C 变量之间的关系一般可以分为确定性关系与 A 非确定性关系 B 线性关系 C 函数关系 D 相关关系

2、正确答案 A BFR聚类是用于处理数据集的 k means 变体 A 大 B 中 C 小 D 所有正确答案 A 例如将工资收入属性值映射到 1 1 或者 0 1 内属于数据变换中的 A 简单函数变换 B 规范化 C 属性构造 D 连续属性离散化正确答案 B 数据质量检验的主要任务就是检查原始数据中是否存在脏数据概括性来说脏数据不包括以下 A 普通值 B 异常值 C 不一致的值 D 重复值正确答案 A 层次聚类适合规模较的数据集 A 大 B 中 C 小 D 所有正确答案 C 某商品的产量 X 件与单位成本 Y 元件之间的回归方程为 Y 100 1 2X 这说明 A 产量

3、每增加一台单位成本增加 100元 B 产量每增加一台单位成本减少 1 2元 C 产量每增加一台单位成本平均减少 1 2元 D 产量每增加一台单位平均增加 100元正确答案 C 设X 1 2 3 是频繁项集则可由 X产生个关联规则 A 4 B 5 C 6 D 7 正确答案 C 根据映射关系的不同可以分为线性回归和 A 对数回归 B 非线性回归 C 逻辑回归 D 多元回归正确答案 B 多层感知机是由层神经元组成 A 二 B 三 C 大于等于二层 D 大于等于三层正确答案 D 通过构造新的指标线损率当超出线损率的正常范围则可以判断这条线路的用户可能存在窃漏电等异常行为属于

4、数据变换中的 A 简单函数变换 B 规范化 C 属性构造 D 连续属性离散化正确答案 C 单层感知机是由层神经元组成 A 一 B 二 C 三 D 四正确答案 B 比如一张表从业务上讲一个用户应该只会有一条记录那么如果某个用户出现了超过一条的记录这就产生了 A 异常值 B 不一致的值 C 重复值 D 缺失值正确答案 C 我们需要对已生成的树进行剪枝将树变得简单从而使它具有更好的泛化能力 A 自上而下 B 自下而上 C 自左而右 D 自右而左正确答案 B 一元线性回归中真实值与预测值的差称为样本的 A 误差 B 方差 C 测差 D 残差正确答案 D 以下哪一项不是特征

5、工程的子问题 A 特征创建 B 特征提取 C 特征选择 D 特征识别正确答案 D 对于k近邻法下列说法错误的是 A 不具有显式的学习过程 B 适用于多分类任务 C k值越大分类效果越好 D 通常采用多数表决的分类决策规则正确答案 C 聚类的最简单最基本方法是 A 划分聚类 B 层次聚类 C 密度聚类 D 距离聚类正确答案 A 多层感知机的学习过程包含 A 信号的正向传播 B 信号的反向传播 C 误差的正向传播 D 误差的反向传播正确答案 AD Apriori算法的计算复杂度受影响 A 支持度阈值 B 项数 C 事务数 D 事务平均宽度正确答案 ABCD 什么情况下结点不用划分

6、A 当前结点所包含的样本全属于同一类别 B 当前属性集为空或是所有样本在所有属性上取值相同 C 当前结点包含的样本集为空 D 还有子集不能被基本正确分类正确答案 ABC 聚类的主要方法有 A 划分聚类 B 层次聚类 C 密度聚类 D 距离聚类正确答案 ABC 下列选项是BFR的对象是 A 废弃集 B 临时集 C 压缩集 D 留存集正确答案 ACD 关联规则的评价度量主要有 A 支持度 B 置信度 C 准确率 D 错误率正确答案 AB 数据科学具有哪些性质 A 有效性 B 可用性 C 未预料 D 可理解正确答案 ABCD 系统日志收集的基本特征有 A 高可用性 B 高可靠性 C 可扩

7、展性 D 高效率正确答案 ABC 相关性的分类按照相关的方向可以分为 A 正相关 B 负相关 C 左相关 D 右相关正确答案 AB 距离度量中的距离可以是 A 欧式距离 B 曼哈顿距离 C Lp 距离 D Minkowski距离正确答案 ABCD 多层感知机的学习能力有限只能处理线性可分的二分类问题 T 对 F 错正确答案 B 阶跃函数具有不光滑不连续的特点 T 对 F 错正确答案 A 标准BP 算法是在读取全部数据集后对参数进行统一更新的算法 T 对 F 错正确答案 B 剪枝是决策树学习算法对付过拟合的主要手段 T 对 F 错正确答案 A 为了尽可能正确分类训练样本

8、结点划分过程将不断重复有时会造成决策树分支过少以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合 T 对 F 错正确答案 B 当训练集较大的时候标准 BP算法通常会更快的获得更好的解 T 对 F 错正确答案 A 方差过小的特征对数据的区分能力强 T 对 F 错正确答案 B 利用K近邻法进行分类时使用不同的距离度量所确定的最近邻点都是相同的 T 对 F 错正确答案 B 两个对象越相似他们的相异度就越高 T 对 F 错正确答案 B 给定一个数据集如果存在某个超平面 S 能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧则称该数据集是线性可

9、分数据集 T 对 F 错正确答案 B 一般而言信息增益越大则意味着使用属性 a 来进行划分所获得的纯度提升越大因此我们可用信息增益来进行决策树的最优特征选择 T 对 F 错正确答案 A 决策树学习的算法通常是一个递归地选择最优特征并根据该特征对训练数据进行分割使得各个子数据集有一个最好的分类的过程这一过程对应着特征空间的划分也对应着决策树的构建 T 对 F 错正确答案 A K means聚类是发现给定数据集的 K 个簇的算法 T 对 F 错正确答案 A 增加神经元的个数无法提高神经网络的训练精度 T 对 F 错正确答案 B 神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现 T 对 F 错正确答案 A 茎叶图失去原始数据的信息而直方图保留原始数据的信息 T 对 F 错正确答案 B 当特征为离散型时可以使用信息增益作为评价统计量 T 对 F 错正确答案 A K means算法采用贪心策略通过迭代优化来近似求解 T 对 F 错正确答案 A 对于分类数据经常使用表格来统计各种类别的数据出现的频率 T 对 F 错正确答案 A 啤酒与尿布的故事是聚类分析的典型实例 T 对 F 错正确答案 B

展开阅读全文

南开大学19秋学期1709、1803、1809、1903、1909数据科学导论在线作业

最新文档