数据分析历程.docx－金锄头文库

资源描述

《数据分析历程.docx》由会员分享，可在线阅读，更多相关《数据分析历程.docx（14页珍藏版）》请在金锄头文库上搜索。

1、数据分析历程目录数据分析计算11.并发22.并行32.1 概念32.2 并发 VS 并行43.分布式计算53.1特点53.2 优点63.3分布式VS并行73.3.1 相似点73.3.2 区别74. 集群计算(Cluster Computing)105. 网格计算（Grid Computing）125.1 集群计算与网格计算的区别126. 云计算（Cloud Computing）156.1云计算与并行、分布式、网格和集群计算的区别151.并发并发，在操作系统中，是指一个时间段中有几个程序都处于已启动运行到运行完毕之间，且这几个程序都是在同一个处理机上运行，但任一个时刻点上只有一个程序在处理机上运

2、行。在网络服务器上，并发是指同一时刻能处理的连接数，比如，服务器能建立1000个TCP连接，即服务器同时维护了1000个socket，这个服务器的并发量就是1000，但是服务器可能只有单核或者8核，16核等，总之对这1000个socket连接的处理也是分时来做的。每个socket服务器处理的时间如果是1s，那么该服务器1s内可以处理完1000个请求，如果每个socket处理100ms的话，那么该服务器1s内可以处理10000个请求。2.并行并行是指“并排行走”或“同时实行或实施”。在操作系统中是指，一组程序按独立异步的速度执行，不等于时间上的重叠（同一个时刻发生)。2.1 概念并行计算或称平行

3、计算是相对于串行计算来说的。并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程。为执行并行计算，计算资源应包括一台配有多处理机（并行处理）的计算机、一个与网络相连的计算机专有编号，或者两者结合使用。并行计算的主要目的是快速解决大型且复杂的计算问题。并行计算可以划分成时间并行和空间并行。时间并行即流水线技术，空间并行使用多个处理器执行并发计算，当前研究的主要是空间的并行问题。以程序和算法设计人员的角度看，并行计算又可分为数据并行和任务并行。数据并行把大的任务化解成若干个相同的子任务，处理起来比任务并行简单。并发可以理解为服务器最多维护多少个会话数，并行则不

4、一样，它关系的是有多少个会话是在同时进行，假如有两台服务器（进程），可能并行的数量是2，而并发的数量是1000。我们还可以对比下吞吐量和带宽的概念。2.2 并发 VS 并行并发的实质是一个物理CPU(也可以多个物理CPU) 在若干道程序之间多路复用，并发性是对有限物理资源强制行使多用户共享以提高效率。并行性指两个或两个以上事件或活动在同一时刻发生。在多道程序环境下，并行性使多个程序同一时刻可在不同CPU上同时执行。并发，是在同一个cpu上同时（不是真正的同时，而是看来是同时，因为cpu要在多个程序间切换）运行多个程序。并行，是每个cpu运行一个程序。3.分布式计算所谓分布式计算就是在两个或多个

5、软件互相共享信息，这些软件既可以在同一台计算机上运行，也可以在通过网络连接起来的多台计算机上运行。分布式计算这个研究领域，主要研究分散系统（Distributed system）如何进行计算。分散系统是一组计算机，通过计算机网络相互链接与通信后形成的系统。把需要进行大量计算的工程数据分区成小块，由多台计算机分别计算，在上传运算结果后，将结果统一合并得出数据结论的科学。目前常见的分布式计算项目通常使用世界各地上千万志愿者计算机的闲置计算能力，通过互联网进行数据传输。如分析计算蛋白质的内部结构和相关药物的Foldinghome项目，该项目结构庞大，需要惊人的计算量，由一台电脑计算是不可能完成的。即

6、使现在有了计算能力超强的超级电脑，但是一些科研机构的经费却又十分有限。3.1特点分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。首先, 要发现一个需要非常巨大的计算能力才能解决的问题。这类问题一般是跨学科的、极富挑战性的、人类急待解决的科研课题。其中较为著名的是:1. 解决较为复杂的数学问题，例如：GIMPS（寻找最大的梅森素数）。2. 研究寻找最为安全的密码系统，例如：RC-72（密码破解）。3. 生物病理研究，例如：Foldinghome（研究蛋白质折叠，误解

7、，聚合及由此引起的相关疾病）。4. 各种各样疾病的药物研究，例如：United Devices（寻找对抗癌症的有效的药物）。5. 信号处理，例如：SETIHome（在家寻找地外文明）。3.2 优点分布式计算比起其它算法具有以下几个优点：1、稀有资源可以共享。2、通过分布式计算可以在多台计算机上平衡计算负载。3、可以把程序放在最适合运行它的计算机上。其中，共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。3.3分布式VS并行3.3.1 相似点都是为了实现比较复杂的任务，将大的任务分解成小的任务，在多台计算机上同时计算。3.3.2 区别（1）区分并行计算与分布式计算都是运用并行来获得更高性

8、能，化大任务为小任务。简单说来，如果处理单元共享内存，就称为并行计算，反之就是分布式计算。也有人认为分布式计算是并行计算的一种特例。（2）应用的场合和解决的问题不一样：分布式的任务包互相之间有独立性，上一个任务包的结果未返回或者是结果处理错误，对下一个任务包的处理几乎没有什么影响。因此，分布式的实时性要求不高，而且允许存在计算错误（因为每个计算任务给好几个参与者计算，上传结果到服务器后要比较结果，然后对结果差异大的进行验证。并行程序并行处理的任务包之间有很大的联系，而且并行计算的每一个任务块都是必要的，没有浪费的分割的，就是每个任务包都要处理，而且计算结果相互影响，就要求每个的计算结果要绝对

9、正确，而且在时间上要尽量做到同步，而分布式的很多任务块可以根本就不处理，有大量的无用数据块，所以说分布式计算的速度尽管很快，但是真正的“效率”是低之再低的，可能一直在寻找，但是永远都找不到，也可能一开始就找到了；而并行处理不同，它的任务包个数相对有限，在一个有限的时间应该是可能完成的。分布式计算提出了一个让工作站端能够在后台持许工作的方法，而用户完全不需关心任何东西。这种实现基于两个原则，其一是任务连续分配和空闲优先权，其二是写一个屏幕保护程序。现在的调度程序已经不错了，而空闲优先任务将在人们完全不用关心任何东西的情况下自动执行。利用屏幕保护程序可以利用计算机闲置的时间计算工作任务。分布式要

10、处理的问题一般是基于“寻找”模式的。所谓的“寻找”，就相当于穷举法！为了尝试到每一个可能存在的结果，一般从0N（某一数值）被一个一个的测试，直到我们找到所要求的结果。事实上，为了易于一次性探测到正确的结果，我们假设结果是以某个特殊形式开始的。在这种类型的搜索里，我们也许幸运的一开始就找到答案；也许不够走运以至于到最后才找到答案，这都很公平。并行计算则比较倾向于一些海量数据进行分析处理的场合，每个节点的每一个任务块都是必要的，计算的结果相互影响，要求每个节点的计算结果要绝对正确，并且在时间上做到同步。举例来说，像MD5破解，就比较适合使用大规模的分布式计算来穷举，但对海量日志数据进行处理来分析

11、用户行为就比较适合并行计算处理。（3）实现方式区别比较大:分布式计算会是一个比较松散的结构，并行计算则是各节点之间通过高速网络或其它总线之类的东西连接。因此并行计算一般在企业内部进行，而分布式计算可能会跨越局域网，或者直接部署在互联网上，节点之间几乎不互相通信。很多公益性的项目，就是的使用分布式计算的方式在互联网上实现，比如以寻找外星人为目的的SETI项目。4. 集群计算(Cluster Computing)计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点，通常通过局域网连接，但也有其它

12、的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机，比如工作站或超级计算机性价比要高得多。根据组成集群系统的计算机之间体系结构是否相同，集群可分为同构与异构两种。集群计算机按功能和结构可以分为，高可用性集群（High-availability (HA) clusters）、负载均衡集群（Loadbalancing clusters）、高性能计算集群（High-performance (HPC)clusters）、网格计算（Grid computing）。1) 高可用性集群：一般是指当集群中有某个节点失效的情况下，其上的任务会自动转移到其他正

13、常的节点上。还指可以将集群中的某节点进行离线维护再上线，该过程并不影响整个集群的运行。2) 负载均衡集群：负载均衡集群运行时，一般通过一个或者多个前端负载均衡器，将工作负载分发到后端的一组服务器上，从而达到整个系统的高性能和高可用性。这样的计算机集群有时也被称为服务器群（Server Farm）。一般高可用性集群和负载均衡集群会使用类似的技术，或同时具有高可用性与负载均衡的特点。Linux虚拟服务器（LVS）项目在Linux操作系统上提供了最常用的负载均衡软件。3) 高性能计算集群：高性能计算集群采用将计算任务分配到集群的不同计算节点提高计算能力，因而主要应用在科学计算领域。比较流行的HPC采

14、用Linux操作系统和其它一些免费软件来完成并行运算。这一集群配置通常被称为Beowulf集群。这类集群通常运行特定的程序以发挥HPC cluster的并行能力。这类程序一般应用特定的运行库, 比如专为科学计算设计的MPI库。HPC集群特别适合于在计算中各计算节点之间发生大量数据通讯的计算作业，比如一个节点的中间结果或影响到其它节点计算结果的情况。5. 网格计算（Grid Computing）网格计算是分布式计算的一种，也是一种与集群计算非常相关的技术。如果我们说某项工作是分布式的，那么，参与这项工作的一定不只是一台计算机，而是一个计算机网络，显然这种“蚂蚁搬山”的方式将具有很强的数据处理能力

15、。网格计算的实质就是组合与共享资源并确保系统安全。网格计算通过利用大量异构计算机的未用资源（CPU周期和磁盘存储），将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群，为解决大规模的计算问题提供一个模型。网格计算的焦点放在支持跨管理域计算的能力，这使它与传统的计算机集群或传统的分布式计算相区别。网格计算的目标是解决对于任何单一的超级计算机来说仍然大得难以解决的问题，并同时保持解决多个较小的问题的灵活性。这样，网格计算就提供了一个多用户环境。5.1 集群计算与网格计算的区别（1）简单地，网格与传统集群的主要差别是网格是连接一组相关并不信任的计算机，它的运作更像一个计算公共设施而不是一个独立的计算机。网格通常比集群支持更多不同类型的计算机集合。（2）网格本质上就是动态的，集群包含的处理器和资源的数量通常都是静态的。在网格上，资源则可以动态出现，资源可以根据需要添加到网格中或从网格中删除。（3）网格天生就是在本地网、城域网或广域网上进行分布的。网格可以分布在任何地方。而集群物理上都包含在一个位置的相同地方，通常只是局域网互连。集群互连技术可以产生非常低的网络延时，如果集群距离很远，这可能会导致产生很多问题。物理临近和网络延时限制了集群地域分布的能力，而网格由于动态特性，可以提供很好的高可扩展性。（4）集群仅仅通过增加服务

展开阅读全文