南开大学21春《数据科学导论》离线作业2参考答案78

上传人:桔**** 文档编号:487686344 上传时间:2022-08-07 格式:DOCX 页数:11 大小:14.37KB
返回 下载 相关 举报
南开大学21春《数据科学导论》离线作业2参考答案78_第1页
第1页 / 共11页
南开大学21春《数据科学导论》离线作业2参考答案78_第2页
第2页 / 共11页
南开大学21春《数据科学导论》离线作业2参考答案78_第3页
第3页 / 共11页
南开大学21春《数据科学导论》离线作业2参考答案78_第4页
第4页 / 共11页
南开大学21春《数据科学导论》离线作业2参考答案78_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21春《数据科学导论》离线作业2参考答案78》由会员分享,可在线阅读,更多相关《南开大学21春《数据科学导论》离线作业2参考答案78(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春数据科学导论离线作业2参考答案1. 简述数据可视化的流程和步骤。参考答案:数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。1)数据获取数据获取的形式多种多样,大致可以分为主动式和被动式两种。主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。2)数据处理数据处理是指对原始的数据进行分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性等。3)可视化模式可视化模式是数据的一种特殊展现形式,常见的可

2、视化模式有标签云、序列分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。4)可视化应用可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。2. 对于k近邻法,下列说法错误的是( )。对于k近邻法,下列说法错误的是( )。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则参考答案:C3. 发现满足最小支持度阈值的所

3、有项集,这些项集被称为频繁项集。( )T.对F.错参考答案:T4. 编写HTML文件不能在哪个软件中编写?( )A.EditB.WordC.WPSD.Windows的画笔参考答案:D5. 随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。( )A.正确B.错误参考答案:A6. FP是一种最有影响的挖掘布尔关联规则频繁项集的算法。( )T.对F.错参考答案:F7. 特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。( )A.正确B.错误参考答案:A8. 地下城与勇士(DNF)宠物学习终结技能的等级地下城与勇士(DNF)宠物学习终结技能的等级学习技能级别根据

4、宠物种类不同而不同,一般在2025级即可自动学习终结技能。9. 对于项集来说,置信度没有意义。( )A.正确B.错误参考答案:A10. 聚类是一种( )。A.有监督学习B.无监督学习C.强化学习D.半监督学习参考答案:B11. 在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用( )。A.越小B.越大C.无关D.不确定参考答案:B12. 交通数据涉及到交通车辆或者道路两旁安装的传感器生成和手机的数据集。( )T.对F.错参考答案:T13. 事件是Flume的基本数据单位。( )T.对F.错参考答案:T14. 下面例子属于分类的是( )。A.检测图像中是否有人脸出现

5、B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量参考答案:ABC15. 当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。( )A.正确B.错误参考答案:B16. 简述云计算的体系架构分层及每层的含义。参考答案:云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。结合当前云计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。1)核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、可用性高、规模可伸缩等特点,满足多样化的应用需求。2)服务管理层为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全

6、性。3)用户访问接口层实现端到云的访问。17. 决策树分类时将该结点的实例强行分到条件概率大的那一类去。( )A.正确B.错误参考答案:A18. 由于列表是动态可变的,所以它不能作为集合的元素或者字典的key。( )A.正确B.错误参考答案:A19. 以下哪个不是处理缺失值的方法?( )A.删除记录B.按照一定原则补充C.不处理D.随意填写参考答案:D20. 如何理解计算机网络?如何理解计算机网络?参考答案:计算机网络就是将地理位置不同、具有独立功能的多个计算机系统,用通信线路和通信设备连接起来,在网络软件支持下,实现数据通信和资源共享的系统。21. 具有双隐层的感知机足以用于解决任何复杂的分

7、类问题。( )具有双隐层的感知机足以用于解决任何复杂的分类问题。( )A.正确B.错误参考答案:A22. 以下选项对Python文件操作描述错误的是( )。A.当文件以文本方式打开时,读写会按照字节流方式进行B.Python能以文本和二进制两种方式处理文件C.文件使用结束后要用close方法关闭,释放文件的使用授权D.Python能通过内置的open函数打开一个文件进行操作参考答案:A23. 朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能。( )A.正确B.错误参考答案:A24. 获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。( )A.正确B.

8、错误参考答案:B25. 增加神经元的个数,无法提高神经网络的训练精度。( )A.正确B.错误参考答案:B26. 商业智能(BI)可以被描述为“一组用于获取原始数据,并将其转换为用于业务分析目的,有意义且有用的信息的技术和工具”。( )T.对F.错参考答案:T27. Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。( )A.正确B.错误参考答案:A28. 医疗大数据的来源主要包括( )A.制药企业/生命科学B.临床医疗/实验室数据C.费用报销/利用率D.健康管理/社交网络参考答案:ABCD29. 下列两个变量之间的关系中,哪个是函数关系?( )A.人的性别和他的

9、身高B.人的工资与年龄C.正方形的面积和边长D.温度与湿度参考答案:C30. 医疗大数据特点:除了包含了大数据4个“V”的特点之外还有( )A.多态性B.时效性C.不完整性D.冗余性参考答案:ABCD31. 某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明( )。A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元C.产量每增加一台,单位成本平均减少1.2元D.产量每增加一台,单位平均增加100元参考答案:C32. 关联规则的评价度量主要有( )。A.支持度B.置信度C.准确率D.错误率参考答案:AB33. 数据变换(Dat

10、a Transformation)就是把原始数据转化为适合于数据挖掘的数据形式。( )T.对F.错参考答案:T34. 什么情况下结点不用划分?( )A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类参考答案:ABC35. ECR系统由哪些部分组成的?ECR系统由哪些部分组成的?参考答案:ECR系统的基本结构包括两个部分,即基础设施和管理系统,其中,基础设施包括信息系统和物流系统,管理系统包括营销管理和组织革新。36. 简单数据类型变量无论是否与全局变量重名,仅在函数内部创建和使用,函数退出后变量被

11、释放。( )A.正确B.错误参考答案:A37. 主流分布式计算平台有( )A.googleB.IBMC.baiduD.Amazon参考答案:ABD38. 列表是一个灵活的数据结构,数字、字符串、列表、字典都可以作为其中的元素。( )A.正确B.错误参考答案:A39. 在list对象中添加元素可以使用add( )函数,将要添加的值加入列表尾部。( )A.正确B.错误参考答案:B40. 减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。( )T.对F.错参考答案:T41. 单层感知机模型属于( )模型。A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类

12、模型D.多分类的非线性分类模型参考答案:A42. 在一元线性回归模型中,残差项服从( )分布。A.泊松B.正态C.线性D.非线性参考答案:B43. 梦幻西游手游出师奖励有哪些?梦幻西游手游出师奖励有哪些?徒弟获得经验奖励、师傅获得经验和良师值奖励特别说明:1、若徒弟等级69级,出师只有少量奖励2、师傅历史收徒数量(包括解除关系的)3时,只有教学成绩达到一定条件,才有奖励。44. 给定关联规则AB,意味着若A发生,B也会发生。( )A.正确B.错误参考答案:B45. 云存储(名词解释)参考答案:云存储是在云计算(cloud rncomputing)概念上延伸和发展出来的一个新的概念,是一种新兴的

13、网络存储技术。它是云计算的重要组成部分,也是云计算的重要应用之一。云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。46. 网络营销规划的步骤依次是( )A:制定网络营销目标、评估企业外部环境、定位网络营销形象、安排预网络营销规划的步骤依次是( )A:制定网络营销目标、评估企业外部环境、定位网络营销形象、安排预算和组织资源B:定位网络营销形象、制定网络营销目标、评估企业外部环境、安排预算和组织资源C:评估企业外部环境、制定网络营销目标、定位网络营销形象、安排预算和组织资源D:安排预算和组织资源、制定网络营销目标、评估企业外部环境、定位网络营销形象答案:C47. KNIME(Konstanz Information Miner)是一个对用户友好的、智能、开源的平台。该平台包括了( )、( )、( )、( )。A.数据集成B.数据处理C.数据分析D.数据挖掘参考答案:ABCD48. 下列标识符中哪个是不合法的?( )A.40tempB.tempStrC.listD._124参考答案:A49. 2002年博客引进中国,建立的第一个博客网站是新浪博客。( )2002年博客引进中国,建立的第一个博客网站

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号