PB级大数据存储技术与分析技术解析

资源描述

《PB级大数据存储技术与分析技术解析》由会员分享，可在线阅读，更多相关《PB级大数据存储技术与分析技术解析（45页珍藏版）》请在金锄头文库上搜索。

1、. . . . .PB级大数据存储技术与分析技术解析2013年12月2日目录一、PB级大数据存储技术解析2二、大数据分析系统应规避的问题5三、剖析Hadoop和大数据的七误解8四、6个优秀的开源文件系统助力大数据分析13五、大数据与关系型数据库是否水火不容？NO17六、大数据探讨：如何整理1700亿条Twitter发布信息？21七、畅谈阿里巴巴的大数据梦26八、Twitter利用Storm系统处理实时大数据35一、 PB级大数据存储技术解析对于存储管理人员来说，大数据应该分为大数据存储和大数据分析，这两者的关系是大数据存储是用于大数据分析的。然而，到目前为止这是两种截然不同的计算机技术领域。本

2、文就重点解析一下PB级大数据存储技术，希望对您有所帮助。越来越多的存储产品都在融入大数据的概念和功能，并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说，对“大数据”在具体应用场景中的特点和区别有所了解。大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台；大数据分析关注在最短时间内处理大量不同类型的数据集。在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。第一，大数据分析流程和传统的数据仓库的方式完全不同，其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台(分布式计算或其它架构)变得业务关键化，用户群较以往更加地依赖这一平台，这也

3、使得其成为企业安全性、数据保护和数据管理策略的关键课题。第二，通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂，因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而，执行这些流程策略的必要性被集成在管理分布式计算集群之中，并且改变了计算和存储层交互的方式。大数据分析和传统的数据仓库的不同大数据分析中包含了各种快速成长中的技术。因此，简单用某一种技术尝试对其定义，比如分布式计算，会比较困难。不过，这些定义大数据分析的通用性技术可以用如下特征阐

4、述：对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据，不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键，其中包括移动设备，RFID，网络和不断增长的自动化感知技术。传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而，据估计超过80%的企业数据是非结构化的，即无法关系型数据库管理系统(RDBMS)，比如DB2和Oracle完成的数据。一般而言，处于此次讨论的目的，非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息，包括：邮件和其它形式的电子通讯记录网

5、站上的资料，包括点击量和社交媒体相关的内容数字视频和音频设备产生的数据(RFID，GPS，传感器产生的数据，日志文件等)以及物联网在大数据分析的情况下，查看远多于RDBMS的数据类型十分必要这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍，从业务角度看这些数据也变得更为重要。更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数据的处理根本无法满足大数据的需求。所以，存储管理人员也应该更快的跟随技术潮流，更新自己的技术和知识结构，提高自己对大数据的管理和分析能力。二、大数据分析系统应规避的问题随着互联网技术的不断发展，数据

6、本身是资产，这一点在业界已经形成共识。越来越多的企业涉足到大数据，但是大数据没有想象中的那么简单，所有大数据的属性，包括数量，速度，多样性等反映了数据库不断增长的复杂性。本文从安装、搭建等方面展示了大数据分析系统的应该规避的系列问题。大数据分析前期要做的事其实，每一个数据都有一个ETL，就是抽取、转化，然后去加载，包括做数据的清洗。如果数据大批量进来的话，有些数据可能是有问题的，马先生举了个例子：比如说，好多地址会写得比较模糊，如果要搜索北京这个词的时候，数据仓库里可能只有一个京字，这些都要统一整理成一个，比如说北京，这样后面分析就会简单，比如山东，有人会输入“鲁”字来进行搜索，而不是山东，这

7、就需要在大数据分析前期做好数据清理工作，做规范化，这样后面的数据分析起来就方便很多。搭建大数据分析系统的注意事项在搭建大数据分析系统时，有哪些需要注意的事项？马老师提到：首先要弄明白你所在企业需要什么样的数据，或者你想得到什么价值，想明白了再去做。因为做数据不像做别的东西，一定明确知道要知道你要干什么，不然这个系统搭的时候会有很多困难，不知道该怎么搭，不知道用什么技术，也不知道数据进去是否在浪费。而目前的情况是：很多企业可能会先把架构搭出来，实际上这数据每天在算，但是不知道这数据带来什么价值，所以更多是一个业务驱动的。再举个例子：比如说中国移动就想挖一挖，到底是哪一个用户老欠费，哪一个用户用得

8、多，用的多的就给他优惠多一点如果他有这个需求，你再把这个需求下转给下面的人，按照这个需求去开发；其次，需要选择适当的技术。比如说你一台机器够用的，不要用两台机器，能够进来报表就不要用交互报表，因为那个都是有技术成本的，并且上线的速度会慢很多。所以建议任何一个企业在搭建数据分析以前，要特别清晰地知道其搭建的需求和目的，选择什么方案，搭它来解决什么问题，针对需求你去做一个数据分析；再次，在没有时时性要求时，你不要自作主张，向老大提这个。因为大公司的批量已经做得非常完美了，可能批量已经带来35%的收入增加了，他要再做时时，再增加5%，而你现在什么都没有。如果说先要做时时，或者先要全部搞出来的话，可能

9、要先一步一部把35%做好，把那个批量先做出来，然后再做时时，这样效果会更好。不要滥搭大数据分析系统技术这个东西都是相通的，没有一项改进都是说完全是重新造出来的，都是在改的，但是它带来的价值不一样，它带来的人的思考，就跟人从零售店买东西和网商这种不一样，但是技术，零售店也会用一些数据库，网上也可能用，要在这个上面做一些转变。马老师谈到，好多国企（这里就不点名），就是为了上项目去上项目，称自己有海量数据。当问他需要搭建的大数据系统是用来干什么，他们的答案很出乎意料：先给搭起来，先存起来，需要的时候再用，就这种思想。其实这个是没有必要的。总结虽然大数据现在炙手可热，大数据分析越来越火爆，很多企业都在

10、试图拥抱大数据技术。但还是应该具体问题具体分析，因为大数据分析系统并非适合所有的企业，一些小型规模的企业在旧系统能满足需求的时候，就不要盲目地去追随潮流，舍弃旧的系统重新搭建，也可能解决了这个小缺口，但是可能会滋生其它更大的问题，这就得不偿失了。三、剖析Hadoop和大数据的七误解如今，Hadoop成为解决大数据需求的主要投资领域之一，而类似Facebook等互联网巨头在都公开的吹捧Hadoop上取得的成功，同样初入大数据领域的公司也必先着眼于Hadoop。但对于Hadoop技术而言，是一个多维的解决方案，可以通过不同的方式进行部署和使用。下面就了解一些关于Hadoop和大数据的七大错误理念

11、。对于Hadoop技术而言，可以说是开源领域的传奇，然而如今业界还伴随着一些流言，这些流言可能会导致IT高管们带着“有色”的观点去制定策略。如今，数据量在以惊人的速度增长，从IDC分析师报告中2013年数据存储上的增长速度将达到53.4%，AT&T更是声称无线数据的流量在过去的5年内增长200倍，从互联网内容、电子邮件、应用通知、社交消息以及每天接收的消息都在显著的增长，这也是众多大企业都聚焦大数据的原因所在。毫无疑问，Hadoop成为解决大数据需求的主要投资领域之一，而类似Facebook等互联网巨头在都公开的吹捧Hadoop上取得的成功，同样初入大数据领域的公司也必先着眼于Hadoop。但

12、对于Hadoop技术而言，是一个多维的解决方案，可以通过不同的方式进行部署和使用。下面就了解一些关于Hadoop和大数据的七大错误理念：1. 大数据仅仅是容量对大数据来说，除了指体积之外，还经常提到Variety（多样）、Variability（可变）、Velocity（速度）和Value（价值）。关键点在于大数据并不是体积上的增长，更多是未来的实时分析、结构化和非结构化数据的发展，并被企业CIO用于更好的决策。综上所述，并不是只有分析大数据才会获得价值。举个例子，存储和分析1PB的超时限数据的价值可能比不上实时分析1GB的数据，而从“新鲜”的数据上获得价值比解剖过时的数据更具价值。2. 传统

13、SQL不能在Hadoop上使用众多厂商在Hadoop上投入精力，布局市场战略时，十分清楚HDFS和MapReduce受限于处理类似SQL语言的能力，这也是Hive、Pig和Sqoop最终得以推广的原因。更多企业通过Hadoop和SQL兼容来管理大量的数据，Pivotal HD是结合SQL并行处理资料库与Hadoop 2.0，针对企业资料分析需求而优化的Hadoop强化版本。3. Hadoop是唯一的新IT数据平台谈到数据平台，大型机在IT投资组合里有是一个长期投资，与ERP、CRM和SCM这些系统一样演变至今。而面对大数据时代，大型机不想被架构遗弃，必须展示在现有IT投资环境中的价值，而许多客

14、户遇到速度、规模和成本的问题，通过vFabric SQLFire这样的内存大数据网络去解决高速数据存取，促进大型机批处理或实时分析报告这些问题。4. 虚拟化会导致性能下降Hadoop最初的设计只是运行实体服务器上，然而随着云计算发展，许多企业都希望能作为云数据中心提供服务。之所以虚拟化Hadoop，企业首先要考虑管理基础设施的扩展性，认识到扩展计算资源，比如虚拟Hadoop节点在数据和计算分开时会对性能有所帮助，否则如果你关闭某个Hadoop节点将丢失上面的所有数据或者添加一个没有数据的空节点。5. Hadoop只可以在数据中心运行对于在SaaS云服务解决方案，许多云服务允许云端运行Hadoo

15、p、SQL，这无疑可以帮助企业省下数据中心建造投资的时间和金钱。特别是对于公有云情况下，Java开发者可以从Spring Data for Hadoop以及一些其它的GitHub用例中获益。大数据复杂性6. Hadoop对虚拟化无经济价值Hadoop被很多人认为，尽管在商用服务器上运行，添加一个虚拟层在带来额外支出的同时并不会有额外的价值收益，但其实这个说法并没有考虑到数据和数据分析事实上都是动态的。虚拟化基础设施同样可以减少物理硬件数量，让CAPEX（资本支出）直接等于商用硬件成本，而通过自动以及高效利用共享基础设施同样可以减少OPEX（运营成本）。7. Hadoop不能运行在SAN或NAS上尽管Hadoop在本地磁盘上运行，对于中小型集群一样可以在一个共享的SAN环境下体现良好的性能表现，而高带宽比如10GB以太网、PoE以及iSCSI对性能同样有很好的支持。由此，大数据成为行业追逐的热点，以上七大有关大数据“误解”问题的客观看待。如同不同项目需求不同，Hadoop是一个工具来帮助企业更好的应对大数据问题。无论是面对数据网格的GemFire或SQLFire，还是面向消息的RabbitMQ中间件，一个完整的SaaS解决方案如今比在Hadoop环境更容易实现。四、 6个优秀的开源文件系

展开阅读全文