课文参考译文

上传人:工**** 文档编号:564464813 上传时间:2023-02-21 格式:DOCX 页数:6 大小:20.30KB
返回 下载 相关 举报
课文参考译文_第1页
第1页 / 共6页
课文参考译文_第2页
第2页 / 共6页
课文参考译文_第3页
第3页 / 共6页
课文参考译文_第4页
第4页 / 共6页
课文参考译文_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《课文参考译文》由会员分享,可在线阅读,更多相关《课文参考译文(6页珍藏版)》请在金锄头文库上搜索。

1、Unit 16 大数据和云计算Unit 16-1第一部分:大数据当前,全世界迎来数据大爆炸的时代。行业分析师和企业把大数据视为下一件大事,将 其作为提供机会、见解、解决方案和增加业务利润的一种新途径。从社交网站到医院的记录, 大数据在改进企业和创新方面发挥了重要的作用。大数据一词指庞大或复杂的数据集,由于信息来自关系复杂且不断变化的多个异构的独 立源,并且不断增长,传统的数据处理应用软件都不足以处理它们。大数据挑战包括捕获数 据、数据存储、搜索、数据分析、共享、传输、可视化、查询、更新和隐私保护。数据集的快速增长,部分原因是因为数据越来越多地通过众多价格低廉的物联网信息感 知设备被收集起来,这

2、些设备包括移动设备、软件日志、摄像机、麦克风、射频识别(RFID) 阅读器和无线传感网等。自20 世纪80 年代,世界人均技术信息存储量大约每40 个月翻一 番;截至2012,每天产生2.5艾字节(2.5X1018)的数据。数据量不断增加,数据分析变得 更具竞争力。毫无疑问,现在可用的数据量确实很大,但这并不是这个新数据生态系统最重要的特征。 我们面临的挑战不仅是要收集和管理大量不同类型的数据,还要从中获取有效价值,这其中 包括了预测分析、用户行为分析和其他高级数据分析方法。大数据的价值正在被许多行业和 政府的认可。对数据集的分析可以找到新的关联性来发现商业趋势、预防疾病、打击犯罪等。大数据类

3、型大数据来自各种来源,可分为三大类:结构化、半结构化和非结构化。- 结构化数据:易于分类和分析的数据,例如数字和文字。这种数据主要由嵌入在智 能手机、全球定位系统(GPS)设备等电子设备中的网络传感器所产生。结构化数 据还包括交易数据、销售数据、帐户余额等。其数据结构和一致性使得它能够基于 机构的参数和操作需求来响应简单的查询,从而获取可用信息。- 半结构化数据:它是一种不符合显式和固定模式的结构化数据形式。数据本身可自 我描述,并且包含用于执行数据内记录和字段层次结构的标签或其他标记。半结构 化数据的例子包括博客和社交媒体。- 非结构化数据:它包含更复杂的信息,例如来自商业网站的客户评价、照

4、片和其他 多媒体,以及社交网站上的评论。这些数据不容易分类或进行数值分析。这种类型 的数据格式不易被索引到可查询分析的关系表。非结构化数据的例子包括图像、音 频和视频文件。大数据特征大数据需要从传统的数据分析向前迈出革命性的一步,其特点在于3V基本特征。3V 包括高速化(Velocity,数据快速增长和变化),多样化(Variety,数据有不同的格式和多种 格式)和大量化(Volume,每秒产生大量数据)。- 多样化:在过去,创建的所有数据都是结构化数据,可以整齐地排列在行和列中。 如今,生成的数据中有 90是非结构化数据。数据具有各种格式从传统数据 库中的结构化数字数据到非结构化文本文档、电

5、子邮件、视频、音频、股票行情数 据和金融交易。各种数据需要不同的方法和技术来存储所有原始数据。- 大量化:在过去 2 年中创建的数据占据了有史以来创建的全部数据的 90。从现在起,世界数据量将每两年翻一番。到2020年,我们将有50倍于2011年的数据 量。数据量是如此巨大,而为这个不断膨胀的数字世界提供数据的巨大贡献者正是物联网,它包含无数传感器,存在于遍布全球、每时每刻产生数据的所有设备中。一个拥有数以万亿计的传感器时代来临了。机构从各种来源收集数据,包括商业交 易、社会媒体和传感器或机器到机器的数据信息。现在的数据大小超过了 TB 和PB。数据的大规模和崛起超越了传统的存储和分析技术。在

6、过去,产生如此多的数据会造成严重问题。如今,新技术减轻了这个负担。随着存储成本的降低,类似Hadoop 这样更好的存储解决方案以及从所有数据中发掘意义的算法出现,这根本 不是问题。- 高速化:这里的速度指的是数据创建、存储、分析和可视化的速度。在过去,批处理是常见的做法,一般每晚甚至每周才会更新一次数据库。计算机和服务器需要大 量的时间来处理数据和更新数据库。而在大数据时代,数据是实时或接近实时的情况下创建的。随着互联网连接设备的可用性,无论无线或是有线,机器和设备可以在数据创建的瞬间传递该数据。目前创建数据的速度几乎是难以想象的。每分钟有100小时的视频上传到Youtube。此外,人们每分钟

7、发送超过2亿封电子邮件,查 看大约2000万张照片,上传了近30,000张照片到Flickr上,发送近300,000条推 文,并在Google上执行了近2,500万条查询。机构面临的挑战是应对数据创建和 实时使用的惊人速度。最近又增加了更多的V特征以更好地描述大数据:Vision (愿景,大数据挖掘所定义的 目的),Verification (验证,处理后的数据符合一定的规范),Value(价值,带给企业强有力 优势的商业价值),和Veracity (真实性,采集数据的质量差异很大,影响准确的分析)。大数据挑战企业在存储和处理大数据时遇到了许多问题和挑战。合理的数据管理实践,技术和基础 设施可

8、以帮助克服这些挑战和问题。不同行业的研究团体一直在努力为大数据开发新的、快 速的、动态的、用户友好的技术。如今,许多开源和专有的大数据解决方案都可用。其目标 是帮助决策者和数据科学家根据发现的模式、数据关系和大数据中提取的新知识,采取最佳 行动。我们在此介绍一些解决方案,以克服不同层面的大数据挑战。A. 大数据框架和平台 大数据有潜力提供能改变每一个行业的见解。大数据已经产生了一个支持 MapReduce 等架构的全新产业。MapReduce是一种分布式计算的编程框架,它由Google创建,采用分 而治之的方法,将复杂的大数据问题分解成小的工作单元并行处理。人们开发了几个MapReduce架构

9、(例如Apache Hadoop, Skynet和FileMap)来处理结 构化和非结构化的海量数据。这些架构基于众多坚实的概念,包括分布式存储、大规模并行 处理和容错系统,可以存储和处理大量不可变数据(如日志或大型二进制对象)及增量收集 的数据(如网页抓取,社交网络的用户评论,GPS数据和传感器事件)。这样的架构对于许 多用例来说是有效的,例如日志文件分析,科学模拟或金融预测。B. 大数据的知识发现数据知识发现(KDD)是从数据集合中发现有用知识的过程。KDD的主要应用领域包 括市场营销、欺诈检测、电信和制造业。 KDD 涉及到分布式编程、模式识别、数据挖掘、 自然语言处理、情感分析、统计和

10、可视化分析和人机交互等多种分析方法。C. 隐私和安全问题 大数据在许多网络、各种集群和数据中心之间共享,这增加了安全性和隐私风险。因此,部署高级安全机制来保护交换或存储在多个集群中的大数据非常重要。然而,由于数据量大、 速度快,难以保护所有的大数据集。因此,更为实用的是保护数据值及其关键属性而不是数 据本身。此外,增加安全层可能会降低系统性能并影响巨量增长数据的动态分析。现有几种 大数据的安全解决方案,如:- 匿名化技术:匿名化是保护数据隐私的重要手段。现有研究的目标是提高并行处理 能力,匿名化技术的性能和可扩展性。- 隐私保护技术:目前,许多项目正在努力开发基于隐私保护意识分析和大数据集调

11、度技术的新隐私保护技术。- 同态加密:用于确保信息机密性。与传统的加密技术不同,它允许在加密数据上进 行计算。- 认证机制:通过使用密钥加密技术,为客户端/服务器应用提供强大的认证。 第二部分:云计算云计算是信息技术领域最热门的话题之一。云计算是按需付费的模式,它可以通过互联 网轻松访问共享的 IT 资源。它是用来增强人类通信的新技术,利用存储、网络、服务器、 服务和应用程序等共享资源,而非物理获取资源。作为基于互联网计算的一种新形式,云计 算可以根据需要向计算机和其他设备提供共享的计算机处理资源和数据。它是一种能够对可 配置计算资源共享池进行无处不在、按需访问的模型(资源包括计算机网络,服务

12、器,存储, 应用和服务等)。这些资源能够被快速提供,只需投入极少的管理工作。计算基础设施被想象成一个“云”,个人和企业可以根据需要随时随地从中扩展其应用 程序的访问。云计算的主要原则是提供计算、存储和软件即服务。基本上,云计算允许具有各种功能的用户和企业在私有云或第三方服务器中存储和处理 其数据,以便使数据访问机制更加简单和可靠。数据中心可能远离用户从跨城市到世界 范围的距离。云计算依赖于资源共享来实现规模的一致性和规模经济性,类似于电力网中的 公用设施(如电网)类似。云计算的目标是让用户从所有这些技术中获益,且无需对每一项技术都有深入的了解或 专业知识。云旨在降低成本,帮助用户专注于其核心业

13、务,而不被IT障碍所阻碍。云计算 的主要支持技术是虚拟化。虚拟化软件将物理计算设备分成一个或多个“虚拟”设备,每个 设备都可以容易地使用和管理以执行计算任务。由于操作系统级虚拟化实质上创建了多个独 立计算设备的可伸缩系统,因此可以更有效地分配和使用空闲计算资源。虚拟化提供了加快 IT操作所需的灵活性,并通过提高基础设施利用率来降低成本。自主计算自动化了用户可以按需访问资源的过程。通过最大限度地减少用户参与,自动 化加快了流程,降低了人工成本,并减少了人为错误的可能性。用户经常面临业务难题。云 计算采用面向服务架构(SOA)的概念,可以帮助用户将这些问题分解成能够集成以提供解 决方案的服务。云计

14、算将其所有资源作为服务提供,并利用在SOA领域中获得的成熟标准 和最佳实践,从而以标准方式向全球提供便捷的云服务。云计算还利用效用计算的概念为所使用的服务提供度量指标。这些指标是公共云按使用 量付费模式的核心。此外,测量的服务是自主计算中反馈环路的重要组成部分,允许服务按 需扩展并执行自动故障恢复。云计算是网格计算的一种,它通过处理QoS (服务质量)和可 靠性问题演变而来。与传统的并行计算技术相比,云计算为构建数据密集/计算密集型并行 应用提供了更廉价的工具和技术。部署模型云计算采用了各种不同物理位置和分布的部署模型。根据部署模型,云可以分为公共、 私有、社区或混合类。客户端应该选择云的类型

15、取决于目的。当服务通过公开供公众使用的网络呈现时,云被称为“公共云”。 在技术上,公共和私 有云架构之间可能存在很小区别或没有差异,但是安全性考虑可能会大不相同。一般而言, 像亚马逊网络服务(AWS),微软和谷歌这样的公共云服务提供商在其数据中心拥有和运营 基础设施,通常通过互联网进行访问。私有云是只为单个机构运行的云基础设施,无论是内部管理还是由第三方管理、内部或 是外部托管。实施私有云项目需要相当高的参与程度使业务环境虚拟化,并要求机构重新评 估有关现有资源的决策。如果做对了,它可以改进业务,但项目中的每一步都会引发必须解 决的安全问题,以防止严重的漏洞。混合云是由两个或多个云(私有云、社

16、区云或公共云)组成的,它们保持不同的实体, 但绑定在一起,提供多种部署模型的好处。混合云还意味着能够将配置、管理和/或专用服 务与云资源连接起来。混合云组合存在多种用例。例如, IT 组织使用公共云计算资源来满 足私有云无法满足的临时容量需求。这种功能使得混合云能够使用云突发来实现跨云扩展。一切即服务(Xaas)虽然面向服务的体系结构,主张“一切即服务”(缩写EAAs或XaaS或简称aaS),云 计算供应商根据不同的模型提供他们的“服务”,其中三个标准模型分别是基础设施即服务 (IaaS)、平台即服务(PaaS),和软件即服务(SaaS)。这些模型提供了越来越多的抽象; 因此他们往往被描绘成堆栈中的层次:基础设施、平台和软件作为一种服务,但这些不需要 相关。例如,可以在不使用基础 PaaS 或 IaaS 层的情况下,在物理机器(裸机)上实现 SaaS, 反之也可以在 I

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号