先进性技术专题讲座报告-大数据云计算及分布式(共8页)

资源描述

《先进性技术专题讲座报告-大数据云计算及分布式(共8页)》由会员分享，可在线阅读，更多相关《先进性技术专题讲座报告-大数据云计算及分布式(共8页)（8页珍藏版）》请在金锄头文库上搜索。

1、精选优质文档-倾情为你奉上大数据、云计算及分布式浅析先进性技术专题报告目录摘要：大数据(big data science)和云计算(cloud computing)是当今信息时代下，最具发展前景的热门领域，无疑是信息工业革命中的又一次令人兴奋的技术浪潮，该领域的迅猛发展将会在相关的项目领域带来概念以及技术上的颠覆性改变，同时也会对人类的生活方式和对信息的认知模式带来巨大的冲击。分布式(distributed system)的发展为大数据与云计算在技术上奠定了实现的基础，大数据的处理分析需要庞大的计算能力，云计算为此提供强有力的支持，而云计算的本质就是分布式系统，将无数在空间上分离的计算机资源汇

2、聚到一起，形成一个巨大的资源池，用户根据自己的需要从中获取所需的云平台资源，这一过程运用到了虚拟化技术(virtualization),将无数物理上隔离的并且计算能力有限的计算机虚拟化成了一个计算能力相当可观的资源池，对于用户而言这些物理计算机是透明的，他们只需要关心自己实际获取到的资源。事实上这也正是阿里巴巴在去IOE化过程中应用的技术，采用开源软件在水平方向上进行拆分和分布式部署，具有很强的实际参考意义。1 大数据大数据由巨型数据集组成，这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变，截至2012年，单一数据集的大小从数太字节（TB）至数十兆亿字节

3、（PB）不等。在一份2001年的研究与相关的演讲中，麦塔集团（META Group，现为高德纳）分析员道格莱尼（Doug Laney）指出数据增长的挑战和机遇有三个方向：量（Volume，数据大小）、速（Velocity，数据输入输出的速度）与多变（Variety，多样性），合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司，都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义：“大数据是大量、高速、及/或多变的信息资产，它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外，有机构在3V之外定义第4个V：真实性（Veracity）为第四特点。大数据必须借

4、由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据，奥巴马更在同年投入2亿美金在大数据的开发中，更强调大数据会是之后的未来石油。大数据，或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。在总数据量相同的情况下，与个别分析独立的小型数据集（data set）相比，将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性，可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等；这样的用途正是大型数据集盛行的原因。截至2012年，技术上可在合理

5、时间内分析处理的数据集大小单位为艾字节（exabytes）。在许多领域，由于数据集过度庞大，科学家经常在分析处理上遭遇限制和阻碍；这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟，以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集，这些来源包括搭载感测设备的移动设备、高空感测科技（遥感）、软件记录、相机、麦克风、无线射频辨识（RFID）和无线感测网络。自1980年代起，现代科技可存储数据的容量每40个月即增加一倍；截至2012年，全世界每天产生2.5艾字节（2.51018字节）的数据。大数据几乎无法使用大多

6、数的数据库管理系统处理，而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力，以及其平常用来处理分析数据的软件之能力。“对某些组织来说，第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说，数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”随着大数据被越来越多的提及，有些人惊呼大数据时代已经到来了，2012年纽约时报的一篇专栏中写到，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。但是并不是所有人都对big data感兴趣，有些人甚至认为这是商学院或咨询

7、公司用来哗众取宠的buzzword，看起来很新颖，但只是把传统重新包装，之前在学术研究或者政策决策中也有海量数据的支撑，大数据并不是一件新兴事物。1.1 数据挖掘(Data Mining)数据挖掘（Data mining），又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现（英文：Knowledge-Discovery in Databases，缩写：KDD）中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Association rule learning）的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统

8、（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。数据挖掘有以下这些不同的定义：“从数据中提取出隐含的过去未知的有价值的潜在信息”“一门从大量数据或者数据库中提取有用信息的科学。”尽管通常数据挖掘应用于数据分析，但是像人工智能一样，它也是一个具有丰富含义的词汇，可用于不同的领域。它与KDD的关系是：KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程；而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上，在现今的文献中，这两个术语经常不加区分的使用。数据挖掘的方法包括监督式学习、非监督式学习、关系分组（Affinity Group

9、ing，作关系性的分析）与购物篮分析（Market Basket Analysis）或者称为关联规则分析、聚类（Clustering）与描述（Description）。监督式学习包括：分类、估计、预测。数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析，1960年代数字方式采集数据已经实现。1980年代，关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。因为面临处理数据库中大量数据的挑战，于是数据挖掘应运而生，对于这些问题，它的主要方法是数据统计分析和人工智能搜索技术。1.2 机器学习(Machine Learning)机器学习是

10、近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、D

11、NA序列测序、语音和手写识别、战略游戏和机器人等领域。机器学习有下面几种定义： “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its perfo

12、rmance at tasks in T, as measured by P, improves with experience E.机器学习可以分成下面几种类别：监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有聚类。半监督学习介于监督学习与无监督学习之间。增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反

13、馈来做出判断。具体的机器学习算法有：构造条件概率：回归分析和统计分类人工神经网络决策树高斯过程回归线性判别分析最近邻居法感知器径向基函数核支持向量机通过再生模型构造概率密度函数：最大期望算法graphical model：包括贝叶斯网和Markov随机场Generative Topographic Mapping近似推断技术：马尔可夫链蒙特卡罗方法变分法最优化：大多数以上方法，直接或者间接使用最优化算法。2 云计算云计算（英语：Cloud Computing），是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算是继1980年代大型计算机到客

14、户端-服务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节，不必具有相应的专业知识，也无需直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。在“软件即服务（SaaS）”的服务模式当中，用户能够访问服务软件及数据。服务提供者则维护基础设施及平台以维持服务正常运作。SaaS常被称为“随选软件”，并且通常是基于使用时数来收费，有时也会有采用订阅制的服务。推广者认为，SaaS使得企业能够借由外包硬件、软件维护及支持服务给服务提供者来降低IT营运费用。另外，由于应用程序是集中供应的，更新可以实时的发布，

15、无需用户手动更新或是安装新的软件。SaaS的缺陷在于用户的数据是存放在服务提供者的服务器之上，使得服务提供者有能力对这些数据进行未经授权的访问。用户通过浏览器、桌面应用程序或是移动应用程序来访问云的服务。推广者认为云计算使得企业能够更迅速的部署应用程序，并降低管理的复杂度及维护成本，及允许IT资源的迅速重新分配以因应企业需求的快速改变。云计算依赖资源的共享以达成规模经济，类似基础设施（如电力网）。服务提供者集成大量的资源供多个用户使用，用户可以轻易的请求（租借）更多资源，并随时调整使用量，将不需要的资源释放回整个架构，因此用户不需要因为短暂尖峰的需求就购买大量的资源，仅需提升租借量，需求降低时便退租。服务提供者得以将目前无人租用的资源重新租给其他用户，甚至依照整体的需求量调整租金。基本特征：互联网上汇聚的计算资源、存储资源、数据资源和应用资源正随着互联网规模的扩大而不断增加，互联网正在从传统意义的通信平台转化为泛在、智能的计算平台。与计算机系统这样的传统计算平台比较，互联网上还没有形成类似计算机操作系统的服务环境，以支持互联网资源的有效管理和综合利用。在传统计算机中已成熟的操作系统

展开阅读全文