南开《大数据导论》19秋期末考核答案

上传人:you7****5932 文档编号:136527949 上传时间:2020-06-28 格式:DOCX 页数:9 大小:15.50KB
返回 下载 相关 举报
南开《大数据导论》19秋期末考核答案_第1页
第1页 / 共9页
南开《大数据导论》19秋期末考核答案_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开《大数据导论》19秋期末考核答案》由会员分享,可在线阅读,更多相关《南开《大数据导论》19秋期末考核答案(9页珍藏版)》请在金锄头文库上搜索。

1、大数据导论19秋期末考核-0001试卷总分:100 得分:70一、单选题 (共 10 道试题,共 20 分)1.以下不是数据仓库基本特征的是()A.数据仓库的数据是相对稳定的B.数据仓库的数据是反映历史变化的C.数据仓库是面向事务的D.数据仓库是面向主题的答案:C2.()是Microsoft Office的核心组件A.WORDB.SQLC.PPTD.EXCEL答案:D3.数据清洗的方法不包括A.重复数据记录处理B.缺失值处理C.噪声数据清除D.一致性检查答案:A4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段答案:B5

2、.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()A.networkB.ggplot2C.ggmapsD.animation答案:D6.下列不属于Google云计算平台技术架构的是()A.结构化数据表BigTableB.弹性云计算EC2C.并行数据处理MapReduceD.分布式锁Chubby答案:B7.大数据的最显著特征是() 。A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高答案:A8.IaaS是()的简称A.软件即服务B.硬件即服务C.平台即服务D.基础设施即服务答案:D9.基础设施即服务的英文简称是A.SaaSB.PaaSC.IaaS答案:C10.

3、下列哪个工具常用来开发移动友好地交互地图()A.Visual.lyB.LeafletC.GephiD.BPizza Pie Charts答案:B二、多选题 (共 10 道试题,共 20 分)11.数据归约(Data Reduction)主要有()A.维度规约B.离散化概念分层C.样本规约D.数据聚集答案:ABCD12.以下可以用于数据可视化的是()。A.WekaB.R语言C.RapidMinerD.Excel答案:ABCD13.医疗大数据特点:除了包含了大数据4个“V” 的特点之外还有()A.时效性B.多态性C.冗余性D.不完整性答案:ABCD14.大数据存储的特点与挑战有()A.成本问题B.

4、延迟问题C.容量问题D.安全问题答案:ABCD15.大数据智能感知层:主要包括()及软硬件资源接入系统A.网络通信体系B.智能识别体系C.数据传感体系D.传感适配体系答案:ABCD16.数据预处理的过程主要是A.数据集成B.数据规约C.数据清洗D.数据变换答案:ABCD17.交通数据处理包括以下几个步骤()A.数据聚类B.数据组织C.数据清洗D.数据映射答案:ABCD18.数据工厂包括A.超强云安全B.超大规模讲分布式架构C.新一代智能自动化运维D.低能耗数据中心答案:ABCD19.可视化工具包括()A.pptB.Google ChartC.GephiD.Excel答案:BCD20.去除噪声使

5、得数据光滑的技术主要有:A.离群点分析B.回归C.分箱答案:ABC三、判断题 (共 15 道试题,共 30 分)21.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。答案:正确22.每个簇的质心(centroid)是该簇中所有数据对象的均值。答案:正确23.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。答案:正确24.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )答案:正确25.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种

6、以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。答案:错误26.未来考验零售企业的是如何挖掘消费者需求答案:正确27.减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。答案:正确28.数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。答案:正确29.Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。答案:正确30.FP算法比Apriori算法慢答案:错误31.轨迹数据包含空间和时间属性,并且通常规模巨大且维度高答案:正确32.Apriori算法扫描数据

7、库的次数等于最大频繁项集的项数。答案:正确33.Facebook积累了超过12亿全球用户,其存储了大量的用户数据,这使它成为一个巨大的“数据乐园”。人们越来愈倾向于在Facebook上表达自己的情绪。答案:正确34.大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。答案:正确35.R是一种开源编程语言和软件环境,用于数据挖掘、数据分析和可视化。答案:正确四、简答题 (共 2 道试题,共 10 分)36.简述数据可视化的流程和步骤。答案:数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。1)数据获取

8、数据获取的形式多种多样,大致可以分为主动式和被动式两种。主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。2)数据处理数据处理是指对原始的数据进行分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性等。3)可视化模式可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。4)可视化应用可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分

9、析进行推理和认知,辅助人们发现新知识或者得到新结论。可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。37.简述网络大数据的一般采集过程。答案:先在URL队列中写入一个或多个目标链接作为爬虫爬取信息的起点;爬虫从URL队列中读取链接,并访问该网站;从该网站爬取内容;从网页内容中抽取出目标数据和所有URL链接;从数据库中读取已经抓取过内容的网页地址;过滤URL,将当前队列中的URL和已经抓取过的URL进行比较;如果该网页地址没有被抓取过,则将该地址(Spider URL )写入数据库,并访问该网站;如果该地址已经被抓取过

10、,则放弃对这个地址的抓取操作;获取该地址的网页内容,并抽取出所需属性的内容值;将抽取的网页内容写入数据库,并将抓取到的新链接加入URL队列。五、名词解释 (共 4 道试题,共 20 分)38.NoSQL答案:NoSQL是泛指非关系型、分布式和不提供ACID的数据库,它不是单纯地反对关系型数据库,而是强调键值存储和文档数据库的优点。39.批处理答案:“静止数据”转变为“正使用数据”,先存储后处理(Store-then-Process),先把信息存下来,稍后一次性地处理掉;对于批量数据,多采用批处理,批处理擅长全时智能,但速度慢,需要批处理加速。40.数据清洗答案:数据清洗:填充空缺值,清除数据中的噪声,识别或删除离群点并解决不一致性。/数据清洗:现实世界中接收到的数据一般是不完整、有噪声且不一致的,数据清洗过程试图填充空缺值,光滑噪声并识别离群点,纠正数据中的不一致。41.结构化数据答案:结构化数据,通常存储在关系数据库中,并用二维表结构通过逻辑表达实现。结构化数据的特点是每一列数据具有相同的数据类型,且不可再进行细分,这些数据库基本能够满足高速存储的应用需求和数据备份、数据共享以及数据容灾等需求。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号