大数据技术

上传人:re****.1 文档编号:563091589 上传时间:2022-09-22 格式:DOCX 页数:13 大小:28.62KB
返回 下载 相关 举报
大数据技术_第1页
第1页 / 共13页
大数据技术_第2页
第2页 / 共13页
大数据技术_第3页
第3页 / 共13页
大数据技术_第4页
第4页 / 共13页
大数据技术_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《大数据技术》由会员分享,可在线阅读,更多相关《大数据技术(13页珍藏版)》请在金锄头文库上搜索。

1、大数据技术-0004试卷总分:100单选题(共10题,共40分)开始说明:结束说明:1. (4 分)下列场景中哪项是数据挖掘发现知识的过 程?()A、快递员及时反馈客户满意度B、数据挖掘模型分析结果与所有人的观占一八、F C、使用ExCEl发现商品的时段投入量不 合理D、老板“一拍脑袋”做出决策。2. (4 分)每种大数据产品都有特定的应用场景,以下 哪个产品是用于查询分析计算的:()A、MApREDuCEB、CHDFS C、 DrEmElD、S43. (4 分)下列哪项不属于NoSQL数据库类型()A、键值数据库B、列族数据库C、文档数据库-D、关系数据库4. (4 分)假定某属性x的最小值

2、、最大值分别为12000和98000,将属性x=73600映射到0.0,0.1中的值为()。-A、 0.716B、0. 912厂 C、0.325D、0.679以下对名称节点理解不正确的是:()A、名称节点通常用来保存元数据B、名称节点的数据保存在内存中C、名称节点作为中心服务器,负责管理 文件系统的命名空间及客户端对文件的访 问.D、名称节点用来负责具体用户数据的存 储6. (4 分)下列关于聚类挖掘技术的说法中,错误的是()。A、不预先设定数据归类类目,完全根据 数据本身性质将数据聚合成不同类别 .B、要求同类数据的内容相似度尽可能小C、要求不同类数据的内容相似度尽可能 小D、与分类挖掘技术

3、相似的是,都是要对 数据进行分类处理7. (4 分)数据科学不仅可以推动数学、计算机科学、统计学、天体信息学等学科的发展,而且又能够大力助推()的发展与进步。A、基础科学B、流体力学C、基本理论.D、产业8. (4 分)以下哪一项不是关系型数据库()。A、mysqlB、orAClE.C、 spssD、sql sErvEr9. (4 分)关系数据库无法满足WEB2.0应用需求的主要表现,下列哪一项描述不正确().A、无法满足高密度数据管理的需求B、无法满足数据高并发的需求C、无法满足高可扩展性的需求厂D、无法满足高可用性的需求每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:() 厂

4、 A、 GrAphX -B、S4C、HivE厂 D、 ImpAlA判断题(共10题,共30分)开始说明:结束说明:11(3分)各类办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据都属 于结构化数据。X12.(3 分)人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为人们生产生活带来有益的改变。非结构化数据是指在获得数据之前就可知其结构的数据。X14. (3 分)时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的唯一标识。X15. (3 分)简单随机抽样,是从总体 N 个象中任意抽取 n 个象作为样

5、本,最终以这些样本作为调查象. 在抽取样本时,总体中每个象被抽中为调查样本的概率可能会有差异。X16. (3 分)MApREDuCE 分布编程模型是一种三层计算,核心问题就是利用并行化解决大数据量或大计 算量的问题。X17. (3 分)X18. (3 分)所有的MApREDuCE程序都需要经过MAp和REDuCE两个过程。X19. (3 分)采用NoSQL+NEwSQL混合模式构建数据中心,可以发挥NoSQL数据库的事务处理能力和NEwSQL 在实时性、复杂分析、即席查询等方面的优势,以及面海量数据时较强的扩展能 力。V* X20. (3 分)大数据是通过传统数据库技术和数据处理工具不能处理的

6、庞大而复杂的数据集合。多选题(共6题,共30分)开始说明: 结束说明:去重是指在不同的时间维度内,重复一个行为产生的数据只计入一次。按( )维度去重 主要分为按小时去重、按日去重、按( )去重、按月去重或按( )去重。A、自选时间段B、C、时间D、空间22.(5 分)样本约简主要包括系统抽样、( )和( )等。A、随机抽样B、重点抽样C、确定抽样D、分层抽样23.(5 分)均值就是( ),将一组数据中出现次数最多的数值叫( ),( )是指从小到大排列 或从大到小排列的一组数据中,处在中间位置上的一个数据,一组 n 个观测值按数值大小 排列,处于p%位置的值称第p()。A、百分位数B、众数C、平均数大数据的低耗能存储及高效率计算的要求,需要以下多种技术协同合作( )A、分布式云存储技术B、高性能并行计算技术C、多源数据清洗及数据整合技术D、分布式文件系统及分布式并行数据库25.(5 分)下列哪些属于 HADoophE 的核心组件( )。A、 HDFSB、 MApREDuCEC、PigD、 HivE26.(5 分)OlDSQL 适用于(),NEwSQL 适用于(),NoSQL 适用于()。A、事务处理应用B、日志数据存储

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号