自学笔记大数据－金锄头文库

资源描述

《自学笔记大数据》由会员分享，可在线阅读，更多相关《自学笔记大数据（29页珍藏版）》请在金锄头文库上搜索。

1、1 大数据1.1 知识点介绍1.1.1 阅读笔记l CIO与 CTO首席信息官（是Chief Information Officer的缩写）中文意思是首席信息官或信息主管，是负责一个公司信息技术和系统所有领域的高级官员。他们通过指导对信息技术的利用来支持公司的目标。他们具备技术和业务过程两方面的知识，具有多功能的概念，常常是将组织的技术调配战略与业务战略紧密结合在一起的最佳人选。首席技术官（英文Chief Technology Officer的缩写），即企业内负责技术的最高负责人。有时CTO和CIO（Chief Information Officer信息管理最高负责人）是同一个人（尤其在软件公

2、司），有时CTO归于比较精通科学技术的CIO手下。在国内CTO通常是由软件工程师（程序员）一步步成长起来的，而CIO通常是由IT工程师（网管）成长起来的，一个倾向于程序开发、一个倾向于IT管理。l 公有云通常指第三方提供商为用户提供的能够使用的云，公有云一般可通过 Internet 使用，可能是免费或成本低廉的，公有云的核心属性是共享资源服务。这种云有许多实例，可在当今整个开放的公有网络中提供服务。l IBM数据分析家族IBM 的数据分析平台家族（SPSS、Cognos、Smart Analytics Systems、Netezza、文本注释器、语音到文本转换等各种开源产品（Eclipse、非

3、结构化信息管理架构 (UIMA)、Apache Derby、Lucene、XQuery、SQL 和 Xerces XML 处理器）中使用的集成开发环境 (IDE)l M2Mmachine-to-machine, M2M不要将速度的概念限定为与您的数据存储库相关的增长速率，我们建议动态地将此定义应用到数据：数据流动的速度。1.1.2 NoSQLNoSQL，泛指非关系型的数据库。NoSQL数据库的四大分类l 键值(Key-Value)存储数据库这一类数据库主要会使用到一个哈希表，这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果D

4、BA只对部分值进行查询或更新的时候，Key/value就显得效率低下了。l 列存储数据库。这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在，但是它们的特点是指向了多个列。这些列是由列家族来安排的。l 文档型数据库文档型数据库的灵感是来自于Lotus Notes办公软件的，而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档，半结构化的文档以特定的格式存储，比如JSON。文档型数据库可以看作是键值数据库的升级版，允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。l 图形(Graph)数据库图形结构的数据库同其他行列以及刚性结构的SQL数据库不同，它是使用灵活的图形模

5、型，并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL)，因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。NoSQL数据库的四大分类表格分类Examples举例典型应用场景数据模型优点缺点键值（key-value）Tokyo Cabinet/Tyrant,Redis, Voldemort, Oracle BDB内容缓存，主要用于处理大量数据的高访问负载，也用于一些日志系统等等。3Key 指向 Value 的键值对，通常用hash table来实现3查找速度快数据无结构化，通常只被当作字符串或者二进制数据列存储数据库Cassan

6、dra, HBase, Riak分布式的文件系统以列簇式存储，将同一列数据存在一起查找速度快，可扩展性强，更容易进行分布式扩展功能相对局限文档型数据库CouchDB, MongoDbWeb应用（与Key-Value类似，Value是结构化的，不同的是数据库能够了解Value的内容）Key-Value对应的键值对，Value为结构化数据数据结构要求不严格，表结构可变，不需要像关系型数据库一样需要预先定义表结构查询性能不高，而且缺乏统一的查询语法。图形(Graph)数据库Neo4J, InfoGrid, Infinite Graph社交网络，推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。

7、比如最短路径寻址，N度关系查找等很多时候需要对整个图做计算才能得出需要的信息，而且这种结构不太好做分布式的集群方案。1.1.3 集群，负载均衡，分布式1.1.3.1 集群服务器集群：服务器集群就是指将很多服务器集中起来一起进行同一种服务，在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，从而使得任何一个机器坏了整个系统还是能正常运行。简而言之，就是一组相互独立的服务器在网络中表现为单一的系统，并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。一个服务器集群包含多台拥有共享数据存储空间的服务器，各服务器之间通

8、过内部局域网进行相互通信；当其中一台服务器发生故障时，它所运行的应用程序将由其他的服务器自动接管；在大多数情况下，集群中所有的计算机都拥有一个共同的名称，集群系统内任意一台服务器都可被所有的网络用户所使用。在集群系统中运行的服务器并不一定是高档产品，但服务器的集群却可以提供相当高性能的不停机服务；每一台服务器都可承担部分计算任务，并且由于群集了多台服务器的性能，因此，整体系统的计算能力将有所提高；同时，每台服务器还能承担一定的容错任务，当其中某台服务器出现故障时，系统可以在专用软件的支持下将这台服务器与系统隔离，并通过各服务器之间的负载转移机制实现新的负载平衡，同时向系统管理员发出报警信号。集

9、群系统的优势在于以下几点：l 解决所有的服务器硬件故障当某一台服务器出现任何故障，如：硬盘、内存、CPU、主板、I/O板以及电源故障，运行在这台服务器上的应用以及其他计算资源通过网络将任务分配到集群的其他正常的节点上,而不影响正常应用或者计算.l 解决软件系统问题我们知道，在计算机系统中，用户所使用的是应用程序和数据，而应用系统运行在操作系统之上，操作系统又运行在服务器上。这样，只要应用系统、操作系统、服务器三者中的任何一个出现故障，系统实际上就停止了向客户端提供服务，比如我们常见的软件死机，就是这种情况之一，尽管服务器硬件完好，但服务器仍旧不能向客户端提供服务。而集群的最大优势在于对故障服务

10、器的监控是基于应用的，也就是说，只要服务器的应用停止运行，其它的相关服务器就会接管这个应用，而不必理会应用停止运行的原因是什么。l 解决人为失误造成的应用系统停止工作例如，当管理员对某台服务器操作不当导致该服务器停机，因此运行在这台服务器上的应用系统也就停止了运行。由于集群是对应用进行监控，因此其它的相关服务器就会接管这个应用。实现集群务必要有以下两大技术：l 集群地址集群由多个服务实体组成，集群客户端通过访问集群的集群地址获取集群内部各服务实体的功能。具有单一集群地址（也叫单一影像）是集群的一个基本特征。维护集群地址的设置被称为负载均衡器。负载均衡器内部负责管理各个服务实体的加入和退出，外部

11、负责集群地址向内部服务实体地址的转换。有的负载均衡器实现真正的负载均衡算法，有的只支持任务的转换。只实现任务转换的负载均衡器适用于支持ACTIVE-STANDBY的集群环境，在那里，集群中只有一个服务实体工作，当正在工作的服务实体发生故障时，负载均衡器把后来的任务转向另外一个服务实体。l 内部通信为了能协同工作、实现负载均衡和错误恢复，集群各实体间必须时常通信，比如负载均衡器对服务实体心跳测试信息、服务实体间任务执行上下文信息的通信。具有同一个集群地址使得客户端能访问集群提供的计算服务，一个集群地址下隐藏了各个服务实体的内部地址，使得客户要求的计算服务能在各个服务实体之间分布。内部通信是

12、集群能正常运转的基础，它使得集群具有均衡负载和错误恢复的能力。1.1.3.2 负载均衡服务器负载均衡：负载均衡（Load Balancing）建立在现有网络结构之上，它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。一台普通服务器的处理能力只能达到每秒几万个到几十万个请求，无法在一秒钟内处理上百万个甚至更多的请求。但若能将多台这样的服务器组成一个系统，并通过软件技术将所有请求平均分配给所有服务器，那么这个系统就完全拥有每秒钟处理几百万个甚至更多请求的能力。这就是负载均衡最初的基本设计思想。1.1.3.3 分布式分布式服务器

13、：所谓分布式资源共享服务器就是指数据和程序可以不位于一个服务器上，而是分散到多个服务器，以网络上分散分布的地理信息数据及受其影响的数据库操作为研究对象的一种理论计算模型服务器形式。分布式有利于任务在整个计算机系统上进行分配与优化，克服了传统集中式系统会导致中心主机资源紧张与响应瓶颈的缺陷，解决了网络GIS 中存在的数据异构、数据共享、运算复杂等问题，是地理信息系统技术的一大进步。这个三种架构都是常见的服务器架构，集群的主要是IT公司在做，可以保障重要数据安全；负载均衡主要是为了分担访问量，避免临时的网络堵塞，主要用于电子商务类型的网站；分布式服务器主要是解决跨区域，多个单个节点达到高速访问的目

14、前，一般是类似CDN(CDN的全称是Content Delivery Network，即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节，使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络，CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容，解决 Internet网络拥挤的状况，提高用户访问网站的响应速度。CDN是构建在网络之上的内容分发网络，依靠部署在各地的边缘服务器，通过中心平台的负载

15、均衡、内容分发、调度等功能模块，使用户就近获取所需内容，降低网络拥塞，提高用户访问响应速度和命中率。CDN的关键技术主要有内容存储和分发技术)的用途的话，会采用分布式服务器。1.1.3.4 集群和分布式的区别简单说，分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。例如：如果一个任务由10个子任务组成，每个子任务单独执行需1小时，则在一台服务器上执行任务需10小时。采用分布式方案，提供10台服务器，每台服务器只负责处理一个子任务，不考虑子任务间的依赖关系，执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduc

16、e分布式计算模型）而采用集群方案，同样提供10台服务器，每台服务器都能独立处理这个任务。假设有10个任务同时到达，10个服务器将同时工作，10小后，10个任务同时完成，这样，整身来看，还是1小时内完成一个任务！1.2 背景常识1.2.1 结构化数据和非结构化数据在信息社会，信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号；而另一类信息无法用数字或统一的结构表示，如文本、图像、声音、网页等，我们称之为非结构化数据。结构化数据属于非结构化数据，是非结构化数据的特例。字段可根据需要扩充，即字段数目不定，可称为半结构化数据，例如Exchange存储的数据。随着网络技术的发展，特别是Internet和Int

展开阅读全文