高性能计算实验大作业

资源描述

《高性能计算实验大作业》由会员分享，可在线阅读，更多相关《高性能计算实验大作业（14页珍藏版）》请在金锄头文库上搜索。

1、1 / 14 大数据处理技术研究姓名：；学号：1502；专业：模式识别与智能系统摘要：本文详细介绍了大数据的相关概念及其对应的处理方法，列举了大数据处理技术在当代计算机处理中的应用，并简要的解释了Hadoop 的相关概念，展望了大数据处理技术的发展方向。关键词：大数据 Hadoop 高性能计算 1. 研究背景：大数据浪潮汹涌来袭，与互联网的发明一样，这绝不仅仅是信息技术领域的革命，更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。大数据， IT 行业的又一次技术变革，大数据的浪潮汹涌而至，对国家治理、企业决策和个人生活都在产生深远的影响，并将成为云计算、物

2、联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟，移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络，由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。 2. 大数据定义： “大数据”是一个涵盖多种技术的概念，简单地说，是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 IBM 将 “大数据”理念定义为 4 个 V，即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。如下图; 2 / 14 3. 大数据技

3、术的发展：大数据技术描述了一种新一代技术和构架，用于以很经济的方式、以高速的捕获、发现和分析技术，从各种超大规模的数据中提取价值，而且未来急剧增长的数据迫切需要寻求新的处理技术手段。在“大数据”(Big data)时代，通过互联网、社交网络、物联网，人们能够及时全面地获得大信息。同时，信息自身存在形式的变化与演进，也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。云时代的到来使得数据创造的主体由企业逐渐转向个体，而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。信息化技术的普及使得企业更多的办公流程通过网络得以实现，由此产生的数据也以非结构化数据为主。预计到 2012

4、年，非结构化数据将达到互联网整个数据量的 75%以上。用于提取智慧的“大数据” ，往往是这些非结构化数据。传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理的实时性。在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。而 “大数据”的多样性决定了数据采集来源的复杂性，从智能传感器到社交网络数据，从声音图片到在线交易数据，可能性是无穷无尽的。选择正确的数据来源并进行交叉分析可以为企业创造最显著的利益。随着数据源的爆发式增长，3 / 14 数据的多样性成为“大数据”应用亟待解决的问题。例如如何实时地及通过

5、各种数据库管理系统来安全地访问数据，如何通过优化存储策略，评估当前的数据存储技术并改进、加强数据存储能力，最大限度地利用现有的存储投资。从某种意义上说，数据将成为企业的核心资产。 “大数据”不仅是一场技术变革，更是一场商业模式变革。在“大数据”概念提出之前，尽管互联网为传统企业提供了一个新的销售渠道，但总体来看，二者平行发展，鲜有交集。我们可以看到，无论是 Google 通过分析用户个人信息，根据用户偏好提供精准广告，还是 Facebook 将用户的线下社会关系迁移在线上，构造一个半真实的实名帝国，但这些商业和消费模式仍不能脱离互联网，传统企业仍无法嫁接到互联网中。同时，传统企

6、业通过传统的用户分析工具却很难获得大范围用户的真实需求。 4. 大数据技术组成：大数据技术由四种技术构成，它们包括： 4.1 分析技术分析技术意味着对海量数据进行分析以实时得出答案，由于大数据的特殊性，大数据分析技术还处于发展阶段，老技术会日趋完善，新技术会更多出现。大数据分析技术涵盖了以下的的五个方面 4.1.1 可视化分析数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。 4.1.2 数据挖掘算法图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼

7、数据，挖掘价值。这些算法4 / 14 一定要能够应付大数据的量，同时还具有很高的处理速度。 4.1.3 预测分析能力数据挖掘可以让分析师对数据承载信息更快更好地消化理解，进而提升判断的准确性，而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 4.1.4 语义引擎非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。 4.1.5 数据质量和数据管理数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。我们知道大数

8、据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识，而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首先，以 Google 为首的技术型互联网公司提出了 MapReduce 的技术框架，利用廉价的 PC 服务器集群，大规模并发处理批量事务。 4.2 存储数据库存储数据库(In-Memory Databases)让信息快速流通，大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说，它可以对某个全国性的连锁店

9、某天的销售记录进行分析，得出某些特征进而根据某种规则及时为消费者提供奖励回馈。但传统的关系型数据库严格的设计定式、为保证强一致性而放弃性能、可扩5 / 14 展性差等问题在大数据分析中被逐渐暴露。随之而来，NoSQL 数据存储模型开始风行。NoSQL，也有人理解为 Not Only SQL，并不是一种特定的数据存储模型，它是一类非关系型数据库的统称。其特点是：没有固定的数据表模式、可以分布式和水平扩展。NoSQL 并不是单纯的反对关系型数据库，而是针对其缺点的一种补充和扩展。典型的 NoSQL 数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等 NoSQL 数据库是一种建

10、立在云平台的新型数据处理模式，NoSQL 在很多情况下又叫做云数据库。由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘，因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它为 Zynga、AOL、Cisco 以及其它一些企业提供网页应用支持。正常的数据库需要将数据进行归类组织，类似于姓名和帐号这些数据需要进行结构化和标签化。但是 NoSQL 数据库则完全不关心这些，它能处理各种类型的文档。在处理海量数据同时请求时，它也不会有任何问题。比方说，如果有 1000万人同时登录某个 Zynga 游戏，它会将这些数据分布于全世界的服务器并通过它们来进行数据处理，结果与 1 万

11、人同时在线没什么两样。现今有多种不同类型的NoSQL模式。商业化的模式如Couchbase、 10gen的mongoDB以及Oracle的 NoSQL;开源免费的模式如CouchDB 和 Cassandra;还有亚马逊最新推出的NoSQL 云服务。 4.3 分布式计算技术分布式计算结合了 NoSQL 与实时分析技术，如果想要同时处理实时分析与NoSQL数据功能，那么你就需要分布式计算技术。分布式技术结合了一系列技术，可以对海量数据进行实时分析。更重要的是，它所使用的硬件非常便宜，因而让这种技术的普及变成可能。 SGI 的 Sunny Sundstrom解释说，通过对那些看起来没

12、什么关联和组织的数据进行分析，我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术，银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。分布式计算技术让不可能变成可能，分布式计算技术正引领着将不可能变为可能。Skybox Imaging 就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果，比如说某个城市有多少可用停车空间，或者某个港口目前有6 / 14 多少船只。它们将这些实时结果卖给需要的客户。没有这个技术，要想快速便宜的分析这么大量卫星图片数据将是不可能的。分布式计算技术是 Google 的核心，也是 Yaho

13、o 的基础，目前分布式计算技术是基于 Google 创建的技术，但是却最新由 Yahoo 所建立。Google 总共发表了两篇论文，2004 年发表的叫做 MapReduce 的论文介绍了如何在多计算机之间进行数据处理;另一篇于 2003 年发表，主要是关于如何在多服务器上存储数据。来自于 Yahoo 的工程师 Doug Cutting在读了这两篇论文后建立了分布式计算平台，以他儿子的玩具大象命名。而 Hadoop 作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为 5. Hadoop-大数据处理的核心技术大数据技术涵盖了硬软件多个方面的技术，目前各种技术基本都独立存在于存储

14、、开发、平台架构、数据分析挖掘的各个相对独立的领域。这一部分主要介绍和分析大数据处理的核心技术Hadoop。 5.1 Hadoop 的组成大数据不同于传统类型的数据，它可能由 TB 甚至 PB 级信息组成，既包括结构化数据，也包括文本、多媒体等非结构化数据。这些数据类型缺乏一致性，使得标准存储技术无法对大数据进行有效存储，而且我们也难以使用传统的服务器和 SAN 方法来有效地存储和处理庞大的数据量。这些都决定了“大数据”需要不同的处理方法，而 Hadoop 目前正是广泛应用的大数据处理技术。Hadoop 是一个基于 Java 的分布式密集数据处理和数据分析的软件框架。该框架在很大程度上受

15、 Google 在 2004 年白皮书中阐述的 MapReduce 的技术启发。Hadoop 主要组件包含如下图： 7 / 14 Hadoop Common：通用模块，支持其他 Hadoop 模块 Hadoop Distributed （HDFS）：分布式文件系统，用以提供高流量的应用数据访问 Hadoop YARN：支持工作调度和集群资源管理的框架 HadoopMapReduce：针对大数据的、灵活的并行数据处理框架其他相关的模块还有： ZooKeeper：高可靠性分布式协调系统 Oozie：负责 MapReduce 作业调度 HBase：可扩展的分布式数据库，可以将结构性数据存储为大

16、表 Hive：构建在 MapRudece 之上的数据仓库软件包 Pig：架构在 Hadoop 之上的高级数据处理层在Hadoop框架中，最底层的HDFS存储Hadoop集群中所有存储节点上的文件。HDFS 的架构是基于一组特定的节点构建的。这些节点包括一个 NameNode 和大量的 DataNode。存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。 NameNode可以控制所有文件操作。 HDFS内部的所有通信都基于标准的TCP/IP协议。N

17、ameNode 在 HDFS 内部提供元数据服务，负责管理文件系统名称空间和控制外部客户机的访问。它决定是否将文件映射到 DataNode上的复制块上。8 / 14 DataNode 通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。它是 Google MapReduce 的开源实现。MapReduce 技术是一种简洁的并行计算模型，它在系统层面解决了扩展性、容错性等问题，通过接受用户编写的 Map 函数和 Reduce 函数，自动地在可伸缩的大规模集群上并行执行，从而可以处理和分析大规模的数据6。Hadoop 提供了大量的接口和抽象类，从而为 Hadoop 应用程序开发人员提供许多

18、工具，可用于调试和性能度量等。在 Hadoop 应用实例中，一个代表客户机在单个主系统上启动 MapReduce 的应用程序称为 JobTracker。类似于 NameNode，它是 Hadoop 集群中唯一负责控制MapReduce应用程序的系统。在应用程序提交之后，将提供包含在 HDFS 中的输入和输出目录。JobTracke r使用文件块信息（物理量和位置）确定如何创建其他 TaskTracker 从属任务。MapReduce 应用程序被复制到每个出现输入文件块的节点，将为特定节点上的每个文件块创建一个唯一的从属任务。每个 TaskTracker 将状态和完成信息报告给JobTr

19、acker。如图显示一个示例集群中的工作分布，如下图: 9 / 14 5.2 Hadoop 的优点： Hadoop 能够使用户轻松开发和运行处理大数据的应用程序。它主要有以下几个优点： 5.2.1 高可靠性。 Hadoop 按位存储和处理数据的能力值得人们信赖。 5.2.2 高扩展性。 Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 5.2.3 高效性。 Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 5.2.4 高容错性。 Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重

20、新分配。Hadoop 带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C+。 5.3 Hadoop 的不足 Hadoop 作为一个处理大数据的软件框架，虽然受到众多商业公司的青睐，但是其自身的技术特点也决定了它不能完全解决大数据问题。在当前 Hadoop 的设计中，所有的 metadata 操作都要通过集中式的 NameNode 来进行，NameNode有可能是性能的瓶颈。当前 Hadoop 单一 NameNode、单一 Jobtracker 的设计严重制约了整个 Hadoop 可扩展性和可靠性。首先，N

21、ameNode 和 JobTracker 是整10 / 14 个系统中明显的单点故障源。再次，单一 NameNode 的内存容量有限，使得 Hadoop集群的节点数量被限制到2000个左右，能支持的文件系统大小被限制在 10-50PB，最多能支持的文件数量大约为 1.5 亿左右。实际上，有用户抱怨其集群的NameNode 重启需要数小时，这大大降低了系统的可用性。随着 Hadoop 被广泛使用，面对各式各样的需求，人们期望 Hadoop 能提供更多特性，比如完全可读写的文件系统、Snapshot、Mirror 等等。这些都是当前版本的 Hadoop 不支持，但是用户又有强烈需求的。 5

22、.4 主要商业性“大数据”处理方案 “大数据”被科技企业看作是云计算之后的另一个巨大商机，包括 IBM、谷歌、亚马逊和微软在内的一大批知名企业纷纷掘金这一市场。此外，很多初创企业也开始加入到大数据的淘金队伍中。 Hadoop 是非结构数据库的代表，低成本、高扩展性和灵活性等优势使其成为各种面向大数据处理分析的商业服务方案的首选。Oracle、IBM、Microsoft 三大商业数据提供商是 Hadoop 的主要支持者。很多知名企业都以Hadoop 技术为基础提供自己的商业性大数据解决方案。这一部分主要介绍以Hadoop为基础的典型商业性大数据解决方案。 5.4.1 IBM InfoSphe

23、re 大数据分析平台 I B M 于 2 0 1 1 年 5 月推出的 InfoSphere 大数据分析平台是一款定位为企业级的大数据分析产品。该产品包括 BigInsight s 和 Streams，二者互补，Biglnsights 基于 Hadoop，对大规模的静态数据进行分析，它提供多节点的分布式计算，可以随时增加节点，提升数据处理能力。St reams 采用内存计算方式分析实时数据。它们将包括 HadoopMapReduce 在内的开源技术紧密地与 IBM 系统集成起来。研究 Hadoop 这样开源技术的人很多，但是 IBM 这次是真正将其变成了企业级的应用，针对不同的人员增加不

24、同的价值。 InfoSphereBigInsight s 1.3的存储和运算框架采用了开源的 Ha d o o pMa pRe d u c e，同时针对 Ha d o o p 框架进行了改造，采用了 IBM 特有的通用并行文件系统 GPFS。利用 GPFS的目的是为了避免单点故障，保证可用性。BigInsights 中还有两个分析产品Cognos 和 SPSS，这两个分析产品在传统功能上加强了文本分析的功能，提供11 / 14 了一系列文本分析工具，并使用高级语言进行自定义规则，如文本格式转换等。目前 BigInsights 提供两种版本，一种是企业版（Enterprise Edition）

25、，用于企业级的大数据分析解决方案。另一种是基础版（Basic Edition），去掉了企业版中的大部分功能，用户可以免费下载，主要提供给开发人员和合作伙伴试用。其最大的特点就是内存分析，利用多节点 PC 服务器的内存来处理大批量的数据分析请求。Streams 的特点就是“小快灵” ，数据是实时流动的，其分析反应速度可以控制在毫秒级别，而 BigInsights 的分析是批处理，反应速度无法同 St reams 相比。总体来说，二者的设计架构不同，也用于处理不同的大数据分析需求，并可以形成良好的互补。InfoSphere 平台仅仅是 IBM 大数据解决方案中的一部分。IBM 大数据平台包括 4

26、大部分：信息整合与治理组件、基于开源 Apache Hadoop 的框架而实现平台、加速器，以及包含可视化与发现、应用程序开发、系统管理的上层应用。通过 IBM 的解决方案可以看出，解决大数据问题不能仅仅依靠 Hadoop。 5.4.2 Oracle Big DataApplianc Oracle Big Data Appliance 准确地说是一款硬件产品，添加了 Hadoop 装载器、应用适配器以及 Oracle 新的 NoSQL 数据库，主要目的是为了将非结构化数据加载到关系型数据库中去，并对软硬件的集成做了一些优化。Oracle BigData机包括开源Apache Hadoop

27、、Oracle NoSQL 数据库、 Oracle数据集成Hadoop 应用适配器、 OracleHadoop 装载器、 Open Sourc eDistribution of R、Oracle Linux 和 Oracle Java HotSpot虚拟机。它能够快速、便捷地与Oracle数据库11g、Oracle Exadata数据库云服务器和 Oracle Exalytics商务智能云服务器集成。分析师和统计人员可以运行现有的R 应用，并利用R 客户端直接处理存储在Oracle数据库 11g 中的数据，从而极大地提高可扩展性、性能和安全性。 5.5 其他“大数据”解决方案 “大数据”

28、解决方案并非只有 Hadoop 一种，许多知名企业还提供了其他的解决方案。 12 / 14 5.5.1 EMC EMC 提供了两种大数据存储方案，即 Isilon 和 Atmos。Isilon 能够提供无限的横向扩展能力，Atmos 是一款云存储基础架构，在内容服务方面，Atmos 是很好的解决方案。在数据分析方面，EMC 提供的解决方案、提供的产品是Greenplum ， Greenplum有两个产品，第一是GreenplumDatabase ，GreenplumDatabase 是大规模的并行成立的数据库，它可以管理、存储、分析 PB量级的一些结构性数据，它下载的速度非常

29、高，最高可以达到每小时 10 T B，速度非常惊人。这是 EMC 可以提供给企业、政府，用来分析海量的数据。但是Gr e e n p l umDa t a b a s e 面对的是结构化数据。很多数据超过 9 0 % 是非结构化数据，E M C 有另外一个产品是 GreenplumHD，GreenplumHD 可以把非结构化的数据或者是半结构化的数据转换成结构化数据，然后让GreenplumDatabase 去处理。 5.5.2 BigQuery BigQuery 是 Google 推出的一项 We b 服务，用来在云端处理大数据。该服务让

30、开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。BigQuery 允许用户上传他们的超大量数据并通过其直接进行交互式分析，从而不必投资建立自己的数据中心。Google 曾表示 BigQuery 引擎可以快速扫描高达70TB 未经压缩处理的数据，并且可马上得到分析结果。大数据在云端模型具备很多优势，BigQuery 服务无需组织提供或建立数据仓库。而 BigQuery 在安全性和数据备份服务方面也相当完善。免费帐号可以让用户每月访问高达 100GB 的数据，用户也可以付费使用额外查询和存储空间。 5.6 “大数据”与科技文献信息处理 “大数据”目前主要指医学、天文、地

31、理、Web 日志、多媒体信息等数据，鲜有提及文献信息。事实上，现在的科技文献信息日益凸显出 “大数据” 的特征，主要表现在以下几个方面：更新周期缩短；数量庞大；文献的类型多样；文献载体数字化；文献语种多样化；文献内容交叉；文献信息密度大。科技文献中所含13 / 14 的信息类型多样，既有结构性数据，也有非结构性文本和公式，如何利用“大数据”技术对文献内容进行分析，挖掘用户访问日志、评价反馈等数据的价值，为用户提供服务成为科技信息服务业急需思考和解决的问题。在科技文献信息处理中，文本分析技术、语义计算技术、数据安全需要与“大数据”解决方案结合起来考虑实施，这样才能更有效地提供知识服务。 6.

32、大数据处理技术发展前景：随着大数据时代的来临，应用越来越广，其发展前景是很光明的。 6.1 大数据复杂度降低大数据技术的落地将会有两个特点：一个是对 MapReduce 依赖越来越少，另外一个是会把 Hadoop 技术深入的应用到企业的软件架构中。对于第一个特点，像 Cloudera 的 Impala 和微软的 PolyBase 这样的软件会得到充分发展，他们绕开了 MapReduce，直接对存在 HDFS 中的数据进行处理。对于第二个特点，大规模的使用 Hadoop 是个必然趋势，渐渐的就会形成行业的标准，进而成为更有价值的软件基础，而不仅是自己内部使用。 6.2 大数据细分市场

33、大数据相关技术的发展，将会创造出一些新的细分市场。例如，以数据分析和处理为主的高级数据服务，将出现以数据分析作为服务产品提交的分析即服务(Analyze as a Service)业务;将多种信息整合管理，创造对大数据统一的访问和分析的组件产品;基于社交网络的社交大数据分析;甚至会出现大数据技能的培训市场，教授数据分析课程等。 6.3 大数据开源开源软件为大数据市场带来更多机会。与人们的传统理解不同，大数据市场开源软件的盛行不会抑制市场的商业机会，相反开源软件将会给基础架构硬件、14 / 14 应用程序开发工具、应用、服务等各个方面的相关领域带来更多的机会。 6.4 Hadoop 将

34、加速发展做为大数据领域的代表技术，许多企业都把明年的计划聚焦在 Hadoop 之上。据预测，用户对 Hadoop 的优化将更注重硬件，同时，对企业友好的 Hadoop 技术市场将达到前所未有的高峰。从整体上说，不仅是 Hadoop 本身本会得到迅猛的发展，同时 Hadoop 在多个数据中心中的配置和无缝集成技术也将成为热门。Hadoop的专业知识正在飞速增长，但是这方面优秀的人才仍然很缺乏。基于 SQL的 Hadoop工具将会得到持续发展” 。 6.5 打包的大数据行业分析应用随着大数据逐渐走向各个行业，基于行业的大数据分析应用需求也日益增长。未来几年中针对特定行业和业务流程的分析

35、应用将会以预打包的形式出现，这将为大数据技术供应商打开新的市场。这些分析应用内容还会覆盖很多行业的专业知识，也会吸引大量行业软件开发公司的投入。 6.6 大数据与云计算:深度融合大数据处理离不开云计算技术，云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式，大数据则为云计算提供了新的商业价值，大数据技术与云计算技术必有更完美的结合。同样的，云计算、物联网、移动互联网等新兴计算形态，既是产生大数据的地方，也是需要大数据分析方法的领域。 7 结语; “大数据”技术还处于起步阶段，主要服务产品大都围绕 Hadoop 架构发展而来，但是“大数据”不等同于 Hadoop，云存储与云计算、传统关系型数据库技术在“大数据”时代仍有其不可替代的优势。传统的信息组织方式与“大数据”技术的结合，是文献信息处理领域新的研究课题。

展开阅读全文

高性能计算实验大作业

最新文档