大数据课堂测验－金锄头文库

资源描述

《大数据课堂测验》由会员分享，可在线阅读，更多相关《大数据课堂测验（10页珍藏版）》请在金锄头文库上搜索。

1、1、简述大数据的来源与数据类型大数据的来源非常多，如信息管理系统、网络信息系统、物联网系统、科学实验系统等，其数据类型包括结构化数据、半结构化数据和非结构化数据。2、大数据产生的三个阶段(1)被动式生成数据(2)主动式生成数据(3)感知式生成数据3、大数据处理的基本流程1 .数据抽取与集成2 .数据分析3 .数据解释4、大数据的特征4V1OVolume,Variety,Value,Velocity,On-Line5、适合大数据的四层堆栈式技术架构丈时法第.内置.W谢能力散据印功、诀据货币化工分析匕自助出好一代.灵活,实时桃作F管管层鳍构化数据相L结枸化数据外行处理，我性可犷睦性JL_f荒础层f

2、由报化.网络化、分布式横向球”展悻泉编礼16、大数据的整体技术和关键技术大数据的整体技术一般包括：数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。7、新一代数据体系的分类新一代数据体系中，将传统数据体系中没有考虑过的新数据源进行归纳与分类，可将其归纳到线上行为数据与内容数据两大类别。8、EDC系统的定义临床试验电子数据采集(ElectricDataCapture,EDC系统，在临床试验中的应用可以有效

3、解决纸质CR位在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。9、EDC系统的基本功能数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。10、EDC系统的优点(1)提高了临床研究的效率，缩短了临床研究周期(2)通过逻辑检查提高了数据质量（3）对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块网络爬虫（Spider）、数据处理（DataProcess）、URL队歹U（URLQueu9和数据（Data）。13、大数据

4、集成在大数据领域中，数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地，而将处理过程适当的分配给这些数据。这是一个并行处理的过程，当在这些分布式数据上执行请求后，需要整合并返回结果。14、数据集成时应解决的问题数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。15、网络数据处理的四个模块及主要功能分词（WordsAnalyze）、排重（ContentDeduplicate）、整合（Integrate）和数据，如图2-17所示。这四个模块的主要功能如下。1）分词：对抓取到的网页内容

5、进行切词处理。2）排重：对众多的网页内容进行排重。3）整合：对不同来源的数据内容进行格式上的整合。4）数据：包含两方面的数据，SpiderData和DpData。16、大数据建模概念大数据建模是为了理解事物而对事物做出的一种抽象，是对事物的一种无歧义的书面描述。17、大数据分析模式分类根据实时性，可分为在线分析和离线分析根据数据规模，可分为内存级、BI级和海量级根据算法复杂度的分类18、大数据建模流程定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。19、大数据建模应遵循的规律以业务目标作为实现目标业务知识是每一步的核心做好数据预处理试验对寻找解决方案是必要的数据中总含有

6、模式数据挖掘增大对业务的认知预测提高了信息作用能力大数据建模的价值不在于预测的准确率模式因业务变化而变化20、数据可视化的概念数据可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像，然后在屏幕上显示出来，利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。21、数据可视化流程获取I数据来源分析I数据蜻苞过蔻I关注信息挖掘I统计解析表述I初觉撰型修建I徜南易障交耳I操作拽制22、数据可视化工具的特性1)实时性2)简单操作3)更丰富的展现4)多种数据集成支持方式23、数据可视化在生物领域中的应用测序数据可视化分子结构数据可视化关系网络可视化临床数据可视化24、Ha

7、doop优点1)可扩展(Scalable)2)低成本(Economical)3)高效率(Efficient)4)可靠(Reliable)25、Hadoop的核心模块HDFSMapReduceCommonsYARN其中HDF雕供了海量数据的存储，MapReduc出I供了对数据的计算，Common为在通用硬件上搭建云计算环境提供基本的服务及接口，YARNT以控制整个集群并管理应用程序向基础计算资源的分配。26、YARN勺基本设计思想将MapReduce中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMast

8、er。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster则负责单个应用程序的管理。27、HiveHive最早是由Facebook设计，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。28、HBaseHBase即HadoopDatabase,是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。29、AvroAvro是一个数据序列化系统。类似于其他序列化机制，Avro可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数

9、据的存储与交换。30、ChukwaChukwa是开源的数据收集系统，用于监控和分析大型分布式系统的数据。31、PigPig是一个对大型数据集进行分析和评估的平台。32、Spark原理Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算，拥有MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。33、Sp

10、ark的优点轻量级快速处理支持多语言支持复杂查询实时的流处理可以与Hadoop数据整合34、HDFS的设计目标高效的硬件响应流式数据访问大规模数据集简单的一致性模型异构软硬件平台间的可移植性35、HDFS-构一一解释下图Clicm臼Node回口口眄 B*l)nlL Xiidc.1. 0答案在P107-P10836、以一个文件File A（大小100MB为例，说明HDFS勺工作原理。ihkiiMtptr5111(161KjJIBlklMMBH】mk2 36MRNV NLii：ieN(kfeDN 加tuN口ik Rack-机械JN ihiKt51INL ik ABhuklBlock?fitter

11、iHlncklDNLJNihiKt4l读操作流程答案在P109-P11137、HDFS的4类源代码基础包实体实现包应用包WebHDFSB关包38、MapReduceMapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。39、HDF牖口远程过程调用接口与客户端相关接口HDF略服务器间的接口40、HDFSWMapReduceB勺关系HDFSft集群上实现了分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理HDFSftMapReduce务处理过程中提供了对文件操作和存储的支持。MapReduce在HDFS勺基础上实现任务的分发、跟踪、执行等工作，并收集结果。41、M

12、apReduce技术特征易于使用良好的伸缩性大规模数据处理答案在P116-P11743、MapReduce行流程Map（映射）和Reduce（化简）是它的主要思想，Map负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现Map和Reduce两个接口，即可完成TB级数据的计算。向MapReduce架提交一个计算作业时，它会首先进行Split(分片)，将File(文件)分配为多个数据片段，保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务，然后分配到不同的结点上去执行，每一个Map任务处理输入数据中的一部分。当Map任务完成后，它会生成一些中间文件，把这些文件重新组织作为R

13、educe阶段的输入，该过程称为Shuffle(洗牌)，洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。44、CommonCommo的Hadoop的其他模块提供了一些常用工具程序包，主要包括系统配置工具Configuration、远程过程调用RPC序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务，同时为软件开发提供了API。45、大数据的一致性策略CAP即一致性(Consistency)、可用性(Availability)和分区容错性(PartitionToleranc

14、e)46、大数据分区技术通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区，分区键以列的形式保存在表中。47、几种常见的数据分区算法范围分区列表分区哈希分区48、分布式环境下的数据缓存技术特点高性能动态扩展性高可用性易用性49、NoSQ嗷据库种类键值(Key-Value)存储列存储(Column-Oriented)文档(Document-Oriented)存储图形存储(Graph-Oriented)。50、四种类型NoSQL勺特点及典型产品存储类型特性典型工具键值存储可以通过键快速查询到值，值无需符合特定格式Redis列存储可存储结构化和半结构化数据，对某些列的高频率查询具有很好的I/O优势Bigtable、HbaseCassandra文档存储数据以文档形式存储，没有固定格式CouchDBMongoDB图形存储以图形的形式存储数据及数据之间的关系Neo4J51、BigtableBigtable是Google开发的一个分布式结构化数据存储系统，运用按列存储数据的方法，是一个未开源

展开阅读全文