大数据定义

上传人:小** 文档编号:58683224 上传时间:2018-11-01 格式:DOC 页数:2 大小:33.50KB
返回 下载 相关 举报
大数据定义_第1页
第1页 / 共2页
大数据定义_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据定义》由会员分享,可在线阅读,更多相关《大数据定义(2页珍藏版)》请在金锄头文库上搜索。

1、大数据(大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和 转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我 们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如 沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资 源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业 的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行 分析能揭示隐藏其中的信息,例如零售业

2、中对门店销售、地理和社会信息的分析能提升对 客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如 Facebook 通过结 合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过 大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和 Facebook,它们 都是大数据时代的创新者。大数据的特征大数据的特征作为一个包罗万象的术语, “大数据”相当的含糊不清。同样的, “云”这个概念也涵盖了不同 的技术。大数据系统的输入端可以列一个极长的表,包括了社会网络、Web 服务器日志、 流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐 MP3、网页的内容

3、、政府文件 扫描、GPS 路线、金融市场数据等等。而这些数据本质上并非是相同的东西。IBM 公司把大数据的特征概括成三个“V”,也就是规模(规模(Volume) ,快速(快速(Velocity)和多样多样 (Variety) 。这三个方面是观察数据本质和软件处理平台的有用视角。规模(规模(Volume)能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型,如果 你的预测模型可以考虑到 300 个变量而非仅仅 6 个变量,其预测能力多半能更为准确。大数据的规模是传统 IT 架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完 成查询。许多公司已经拥有大量的存档数据,但却

4、没有能力来处理它。传统的关系数据库 无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库、或类似 Greenplum 的数据库、以及 Apache Hadoop 解决方案。其中,数据仓库比较适合于预先确 定的数据结构和变化缓慢的数据。而 Apache Hadoop 则没有这些限制。Hadoop 的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并 发布,它是谷歌所提出的 MapReduce 方法的实现。 Hadoop 的 MapReduce 包括了两个阶 段:向多个服务器和操作系统分发数据,即 map 阶段,然后重组并行计算结果,即 reduce 阶段。Hadoop 利用自身的分布式文件系统(HDFS)来存储数据,这使得多个计算节点能获取数 据。一个典型的 Hadoop 使用模式包括三个阶段:加载数据到 HDFS、MapReduce 操作、从HDFS 检索结果。这个过程本质上是一个批处理,适合于分析或者是非交互式的计算任务。 正因为如此,Hadoop 本身不是一个数据库或数据仓库的解决方案,而是分析的辅助。最知名的 Hadoop 的用户之一是 Facebook。它的 MySQL 数据库存储核心数据。然后再反映 到 Hadoop 系统进行计算。计算结果会再次转移到 MySQL,以提供给用户的页面使用。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号