南开大学《数据科学导论》20秋在线作业-1（参考答案）

资源描述

《南开大学《数据科学导论》20秋在线作业-1（参考答案）》由会员分享，可在线阅读，更多相关《南开大学《数据科学导论》20秋在线作业-1（参考答案）（9页珍藏版）》请在金锄头文库上搜索。

1、南开大学数据科学导论20秋在线作业-1（参考答案）注意：图片可根据实际需要调整大小对于k近邻法，下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大，分类效果越好D.通常采用多数表决的分类决策规则以下哪个不是处理缺失值的方法?()A.删除记录B.按照一定原则补充C.不处理D.随意填写在一元线性回归模型中，残差项服从()分布。A.泊松B.正态C.线性D.非线性一元线性回归中，真实值与预测值的差称为样本的()。A.误差B.方差C.测差D.残差Apriori算法的加速过程依赖于以下哪个策略?()A.抽样B.剪枝C.缓冲D.并行数据库中相关联的两张表都存储了用户的个人信息，但

2、在用户的个人信息发生改变时只更新了一张表中的数据，这时两张表中就有了不一致的数据，这属于()。A.异常值B.缺失值C.不一致的值D.重复值单层感知机模型属于()模型。A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型层次聚类适合规模较()的数据集。A.大B.中C.小D.所有通过构造新的指标线损率，当超出线损率的正常范围，则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()。A.简单函数变换B.规范化C.属性构造D.连续属性离散化例如将工资收入属性值映射到-1，1或者0，1内属于数据变换中的()。A.简单函数变换B.规范化C.属性

3、构造D.连续属性离散化在有统计学意义的前提下，标准化偏回归系数的绝对值越大，说明相应的自变量对y的作用()。A.越小B.越大C.无关D.不确定考虑下面的频繁3-项集的集合：1，2，3，1，2，4，1，2，5，1，3，4，1，3，5，2，3，4，2，3，5，3，4，5;假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含()。A.1，2，3，4B.1，2，3，5C.1，2，4，5D.1，3，4，5具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.1，线性B.2，线性C.1，非线性D.2，非线性实体识别属于以下哪个过程?()A.数据清洗B.数据集成C.

4、数据规约D.数据变换通过变量标准化计算得到的回归方程称为()。A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程我们需要对已生成的树()进行剪枝，将树变得简单，从而使它具有更好的泛化能力。A.自上而下B.自下而上C.自左而右D.自右而左聚类是一种()。A.有监督学习B.无监督学习C.强化学习D.半监督学习利用最小二乘法对多元线性回归进行参数估计时，其目标为()。A.最小化方差B.最小化残差平方和C.最大化信息熵D.最小化标准差实体识别的常见形式：()A.同名异义B.异名同义C.单位不统一D.属性不同以下哪一项不属于数据变换?()A.简单函数变换B.规范化C.属性合并

5、D.连续属性离散化距离度量中的距离可以是()。A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度K-means聚类中K值选取的方法是()。A.密度分类法B.手肘法C.大腿法D.随机选取聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类对于多层感知机，()层拥有激活函数的功能神经元。A.输入层B.隐含层C.输出层什么情况下结点不用划分?()A.当前结点所包含的样本全属于同一类别B.当前属性集为空，或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被

6、基本正确分类下列选项是BFR的对象是()。A.废弃集B.临时集C.压缩集D.留存集系统日志收集的基本特征有()。A.高可用性B.高可靠性C.可扩展性D.高效率下面例子属于分类的是()。A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量k近邻法的基本要素包括()。A.距离度量B.k值的选择C.样本大小D.分类决策规则一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升越大”，因此我们可用信息增益来进行决策树的最优特征选择。()A.正确B.错误给定一个数据集，如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面

7、的两侧，则称该数据集是线性可分数据集。()A.正确B.错误Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。()A.正确B.错误特征选择和降维都是用于减少特征数量，进而降低模型复杂度、防止过度拟合。()A.正确B.错误两个对象越相似，他们的相异度就越高。()A.正确B.错误朴素贝叶斯分类器有简单、高效、健壮的特点，但某些属性可能会降低分类器的性能。()A.正确B.错误获取数据为数据分析提供了素材和依据，这里的数据只包括直接获取的数据。()A.正确B.错误选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的“近似误差”会减小，“估计误差”会增大，预测结果

8、会对近邻的点实例点非常敏感。()A.正确B.错误K均值(K-Means)算法是密度聚类。()A.正确B.错误K-means算法采用贪心策略，通过迭代优化来近似求解。()A.正确B.错误赤池信息准则是衡量统计模型拟合优良性的一种标准。()A.正确B.错误平均减少的不纯度越大，则特征重要度越高。()A.正确B.错误标准BP算法是在读取全部数据集后，对参数进行统一更新的算法。()A.正确B.错误子集产生本质上是一个搜索过程，该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。()A.正确B.错误数据科学具有广泛的应用领域，可以应用在社交网络、职业体育、政治竞选。()A.正确B.错误探索性数据

9、分析的特点是研究从原始数据入手，完全以实际数据为依据。()A.正确B.错误决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程，这一过程对应着特征空间的划分，也对应着决策树的构建。()A.正确B.错误给定关联规则AB，意味着若A发生，B也会发生。()A.正确B.错误信息熵越大，数据信息的不确定性越小。()A.正确B.错误对于分类数据，经常使用表格，来统计各种类别的数据出现的频率。()A.正确B.错误【参考答案已附】参考答案：C参考答案：D参考答案：B参考答案：D参考答案：B参考答案：C参考答案：A参考答案：C参考答案：C参考答案：B参考答案：B参考答案：C参考答案：A参考答案：B参考答案：A参考答案：B参考答案：B参考答案：C参考答案：D参考答案：C参考答案：ABCD参考答案：ABCD参考答案：AB参考答案：ABC参考答案：BC参考答案：ABC参考答案：ACD参考答案：ABC参考答案：ABC参考答案：ABD参考答案：A参考答案：B参考答案：A参考答案：A参考答案：B参考答案：A参考答案：B参考答案：A参考答案：B参考答案：A参考答案：A参考答案：A参考答案：B参考答案：A参考答案：A参考答案：A参考答案：A参考答案：B参考答案：B参考答案：A

展开阅读全文

南开大学《数据科学导论》20秋在线作业-1（参考答案）

最新文档