2020年最新公需科目《大数据》考试题(含答案)—、填空题1. MapReduce任务过程分为两个处理阶段 .map阶段和reduce阶段单选题2. 根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据 分析角色人员是(C )单选题)A. 数据管理人员B. 数据分析员C. 研究科学家D. 软件开发工程师3. 当前社会中,最为突出的大数据环境是( A )单选题)A.互联网B. 物联网C. 综合国力D. 自然资源三、多选题4. 阿兰•图灵在哪一年提出图灵测试的概念? CA. 1952 年B. 1954 年C. 1950 年D. 1955 年5. 大数据正快速发展为对数量巨大 .来源分散.格式多样的数据进行采集 .存储和关联分析,从中发现新知识.创造新价值.提升新能力的(B)A. 新一代技术平台B. 新一代信息技术和服务业态C. 新一代服务业态D. 新一代信息技术6.大数据的应用能够实现一场新的革命, 提高综合管理水平的原因是( )■ A.从被动反应走向主动预见型管理 ■ B.从粗放化管理走向精细化管理 ■ C.从单兵作战走向联合共享型管理 ■ D.从柜台式管理走向全天候管理7. 2012年,我国农村居民家庭每百户拥有移动 197.8部。
正确错误&根据周琦老师所讲,高德地图使用大数据能进行小路的识别正确错误1.医疗健康数据的基本情况不包括以下哪项? ◎A.诊疗数据1 PB.个人健康管理数据rC.健康档案数据D.公共安全数据9.郭永田副主任指出,1982以来,CPU的性能提高了()OA.3500 倍B.35 倍C.35000 倍D.350 倍10. 近几年,我国电子信息产业一直保持了()以上的年增长速度,成为国民经济各个领 域中间的佼佼者OA. 7%B. 8%C. 9%* D.10%11. 大数据的应用能够实现一场新的革命,提高综合管理水平的原因是得分.■ C.从被动反应走■ A.从柜台式管理走向全天候管理 ■ B.从粗放化管理走向精细化管理向主动预见型管理 ■ D.从单兵作战走向联合共享型管理12. 习近平总书记指出,网信事业代表着新的生产力 •新的发展方向,应该也能够在践行新发展 理念上先行一步判断题 1分)■正确错误54.根据周琦老师所讲,高德交通报告针对全国 38个城市交通状态进行挖掘分析判断题1分)■正确错误55.宁家骏委员指出,我国民生领域信息化服务水平显著提升判断题 1分)■正确错误56.我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。
判断题1分)■正确错误57.2016年9月,国务院印发《促进大数据发展行动纲要》, 10月,十八届六中全会将大数据上升为国家战略判断题 1分)正确■错误ABCD 分13. 从传播学角度解释,新兴的网络平台提供了非常大的开放空间,让人们更加有可能享有对信息的()等A. 表达权B. 参与权C. 监督权D. 知情权14. 根据涂子沛先生所讲,以下说法正确的有哪些? ABCD分A. 数据垃圾对商业公司是一个挑战B. 个人要把数据当做自己的遗产C. 中国社会迟早要面临数据遗产问题D. 国家要制定合适的法律来规范数据遗产继承的问题15. 根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析 DA. 21B. 30C. 25D. 3816. 根据周琦老师所讲,进入了阿里巴巴集团之后,高德对大数据的处理和基础架构的能 力得到了提升©*正确错误17. 宁家骏委员指出,()主导了 21世纪■ A.云计算B. 移动支付■ C.大数据■ D.物联网18.云计算的特点包括以下哪些方面? ABCA. 服务可计算B. 高性价比C. 服务可租用D. 低使用度19. 大数据人才整体上需要具备( ABE )等核心知识。
A.数学与统计知识B. 计算机相关知识C. 马克思主义哲学知识D. 市场运营管理知识E. 在特定业务领域的知识20. 大数据作为一种数据集合,它的含义包括 9可_Ia.数据很大P Ib.变化很快C. 很有价值* D.构成复杂四、论述题21. 支撑大数据业务的基础是(B )A. 数据科学B. 数据应用C. 数据硬件D. 数据人才22. “( A大数据交易所” 2015年4月14日正式运营,目前,交易所已有包括京东为.阿里巴巴等超过 300家会员企业,交易总金额突破 6000万元A. 贵阳B. 遵义C. 毕节D. 安顺23. 2000年,全国涉农网站超过 6000家得分.0分正确1错误50.根据涂子沛先生所讲,现在非结构化数据已经占人类数据总量的 25% (判断题1分)得分.0分正确1错误24. 习近平总书记指出,网信事业代表着新的生产力 •新的发展方向,应该也能够在践行新发展理念上先行一步分正确1错误25. 对于大数据而言,最基本•最重要的要求就是减少错误•保证质量因此,大数据收集的信息量要尽量精确F)是否26. 根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数 据分析角色人员是(C)。
A. 数据管理人员B.数据分析员C.研究科学家D.软件开发工程师27 . MapReduce中排序发生在哪几个阶段?答.一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两个阶段会对数据排 序,从这个意义上说, MapReduce 框架本质上就是一个 Distributed Srt在 Map阶段,Map Task会在本地磁盘输出一个按照 key排序(采用的是快速排序)的文件(中间可能产生多个文件,但最终会合并成一个),在 Reduce阶段,每个 Reduce Task会对收到的 数据排序,这样,数据便按照 key分成了若干组,之后以组为单位交给 reduce()处理很多人的误解在 Map阶段,以为如果不使用 Cmbiner便不会排序,这是错误的,不管你用不用Cmbiner , Map Task均会对产生的数据进行排序(如果没有 Reduce Task,则不会 排序,实际上 Map阶段的排序就是为了减轻 Reduce端排序负载)28. 支撑大数据业务的基础是(B)A. 数据科学B.数据应用C数据硬件D.数据人才b)公里驾驶29. 根据周琦老师所讲,高德交通日均采集数十亿定位请求,系统处理月均( 里程覆盖。
分)A. 100 亿 B.150 亿 C.50 亿 D.80 亿 得分.0分30. 大数据的应用能够实现一场新的革命,提高综合管理水平的原因是 abed (多选题3A. 从柜台式管理走向全天候管理B. 从粗放化管理走向精细化管理C. 从被动反应走向主动预见型管理D. 从单兵作战走向联合共享型管理31. 当前,大数据产业发展的特点是( ACE)A. 规模较大B.规模较小C.增速很快D.增速缓慢E多产业交叉融合32 . “()阿里巴巴 贵州年货节”肖售额突破8.5亿元,促进了贵州电子商务加快发展单选题i 分) OA. 2013B. 2014C. 2015D. 2016 V33 .网络空间通常可以从“ BCD )来描绘多选题 3分)分A. 技术域B. 认知域C. 物理域D. 逻辑域34 .下面关于我们使用的网络是否安全的正确表述是 .(A)A. 没有绝对安全的网络,使用者要时刻提高警惕,谨慎操作B. 安装了防火墙,网络是安全的C. 设置了复杂的密码,网络是安全的D. 安装了防火墙和杀毒软件,网络是安全的35. 大数据的应用之一是,促进健康管理的个性化和多元化〒分正确错误36. 根据周琦老师所讲,高德交通报告针对全国 38个城市交通状态进行挖掘分析。
正确1错误分37. “大数据”一词,最早出现于 20世纪90年代,当时的数据仓库之父比尔•恩门经常 提及Big Data"分正确错误38. 可以对大数据进行深度分析的平台工具是( C)A.传统的机器学习和数据分析肛具 B第二代机器学习工具 C第二代机器学习工具 D未来机器学习工具39. 在网络爬虫的爬行策略中,应用最为基础的是( AB )A.深度优先遍历策略 B.广度优先遍历策略C.高度优先遍历策略 D.反向链接策略E大站优先策略40 .根据周琦老师所讲,高德交通信息服务覆盖全国主干道路及其它()以上单选题1 分) ©A. 90%B. 70%C. 30%D. 50%"41. 请简述 Map-Reduce 算法的原理?Map-Reduce 的目标是在面对节点失效的情况时能够保证大量的文件和数据依然可用 初始化时数据被分割成许多分块的小数据,这些数据都是以 的形式存储用户程序会分配一个 Maser 进程和许多 wrker 进程任务开始时, Maser 将用户程序的工作分成两种类型的任务( map 任务和 reduce 任务), 并将这些任务分配给相应的工人( wrkers )。
Maser 的责任如下 .给 map 工人和 reduce 工人 分配相应的任务,检测是否有工人进程死掉,将 Map 任务处理后的结果通知给 Reduce 任 务得到 Maser 的 Map 工作任务的指令后, Map 工人开始工作 Map 工人从 input 中获取分块 的数据,并通过其中数据存储的方式对数据进行处理,并将处理的中间结果( 形成的链表)存放在本地磁盘中得到 Maser 的有关 Map 处理结果的通知后, Reduce 任务开始工作 Reduce 工人把每个 map 工人的本地磁盘中的内容进行整合,形成有序的最终结果,并将结果写入到输出文件 中假如一个工人进程失败了,该工人的任务就被分配给其他的工人进程如果一个 Maser 进 程失败了,那么整个 Map-Reduce 任务就会终止1. 输入文件分成 M块,每块大概 16M〜64MB (可以通过参数决定),接着在集群的机 器上执行分派处理程序2. M 个 Map 任务和 R 个 Reduce 任务需要分派, Maser 选择空闲 Wrker 来分配这些 Map 或 Reduce 任务3. Wrker读取并处理相关输入块, Map函数产生的中间结果 对暂时缓冲到内 存。
4.中间结果定时写到本地硬盘,分区函数将其分成 R 个区中间结果在本地硬盘的位置信息将被发送回 Maser,然后Maser负责把这些位置信息传送给 ReduceWrker5.当 Maser 通知执行 Reduce 的 Wrker 关于中间 对的位置时,它调用远程过 程,从 Map Wrker 的本地硬盘上读取缓冲的中间数据当 Reduce Wrker 读到所有的中间数 据,它就使用中间 key 进行排序,这样可使相同 key 的值都在一起6. Reduce Wrker 根据每一个唯一中间 key 来遍历所有的排序后的中间数据,并且把 ke。