使用大数据技术实现企业数据仓库的现代化

上传人:蜀歌 文档编号:146062214 上传时间:2020-09-25 格式:PDF 页数:7 大小:977.44KB
返回 下载 相关 举报
使用大数据技术实现企业数据仓库的现代化_第1页
第1页 / 共7页
使用大数据技术实现企业数据仓库的现代化_第2页
第2页 / 共7页
使用大数据技术实现企业数据仓库的现代化_第3页
第3页 / 共7页
使用大数据技术实现企业数据仓库的现代化_第4页
第4页 / 共7页
使用大数据技术实现企业数据仓库的现代化_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《使用大数据技术实现企业数据仓库的现代化》由会员分享,可在线阅读,更多相关《使用大数据技术实现企业数据仓库的现代化(7页珍藏版)》请在金锄头文库上搜索。

1、 使用大数据技术实现企业 数据仓库的现代化 大多数组织的企业数据仓库是使用有 15-20 年历史的以在线事务处理 (OLTP) 为中心的技术和 体系结构构建的。近年来,这些系统中聚集了越来越多的数据,受传统和移动业务智能产品的推 动,查询负载呈指数级增长,这导致数据仓库容易崩溃、超负载运转、成本高昂,可能耗费数小 时才能返回查询结果。它们并不满足业务日益增长的数据需求,却管理着数量不断增加的结构化 和非结构化数据源,而不能在必需的粒度级别或以充分及时的方式解答运行业务所需的问题。是 的,我们已经对其投入了太多,而不能将其直接淘汰。 大数据市场动态已经促使形成了新的技术、产品和方法,可用于使这些

2、容易饱和、不灵活的数据 仓库现代化,并使它们对业务更敏捷地响应,而不必淘汰现有设备。本文描述了可以使用企业现 有技能快速实施并迅速实现投资回报的五种战术。 EMC 视点 战术战术 #1:使用基于使用基于 MPP 的体系结构加快数据仓库的速度的体系结构加快数据仓库的速度 基于大规模并行处理 (MPP) 的数据库提供高效利用成本、横向扩展的数据仓库环境,允许组织利 用摩尔定律1 针对通用系统的极高可扩展性 提高 x86 处理器的性能/成本比率。MPP 数据库提供非侵入性分析平台/数据仓库, 用于对海量数据执行数据发现和挖掘工作。MPP 数据库构建于并不昂贵的商用群集上,在管理海 量详细数据的同时,

3、可以扩展、补充或替代您现有数据仓库的某些部分,还能提供灵活的查询、 报告、控制面板和分析(请参见图 1)。 MPP 数据库不仅提供与您现有数据仓库相同的许多好处,还提供以下优势: 自动参数化 像任何其他数据库那样的加载和查询能力 并行扫描和处理所有节点 极高的可扩展性和优化的 I/O 易于添加节点和存储的线性可扩展性 改进的查询和加载性能 图图 1:MPP 数据仓库体系结构易于扩展,以加速查询结果和处理更多数据数据仓库体系结构易于扩展,以加速查询结果和处理更多数据 图图 1:MPP 数据仓库体系结构易于扩展,以加速查询结果和处理更多数据数据仓库体系结构易于扩展,以加速查询结果和处理更多数据 1

4、 摩尔定律是计算硬件历史上长期以来的观察结果,即集成电路上的晶体管数目每两年大约增加一倍。其结果是,同等成本的计算能力每 18-24 个月便会翻番一次。 http:/en.wikipedia.org/wiki/Moore%27s_law 好处好处 可利用更详细、更强大的维度数据可利用更详细、更强大的维度数据 具有预测零售状况和能源消耗 的季节性 通过本地化查明借贷或进行欺 诈曝光 可进行数字媒体归属或医疗保 健治疗分析的超维度 MPP 数据仓库将使更多精细数据用于查询、报告以及控制面板深入查看和横向查看挖掘。可以对详 细数据而非数据聚合进行分析。最新的发展现在允许您直接在 Hadoop 数据文

5、件系统 (HDFS) 上 构建您的数据仓库,以受益于 HDFS 提供的成本效益、横向扩展体系结构和本机并行度,同时使用 组织的基于 SQL 的标准 BI 工具提供访问。 从分析的角度而言,一旦开发了某个模型,并从这些数据集中点滴积累了业务洞察力,就可以直接 将该模型和/或分析洞察力迁移到现有数据仓库中,以便集成到当前的业务智能环境中。另外,分析 建模也可以在 MPP 平台上执行,使其成为生产流程的一部分。 战术战术 #2:停止移动数据以进行分析的做法;主动对数据停止移动数据以进行分析的做法;主动对数据执执 行分析行分析 大数据最具有影响的一个发展是数据库内分析的出现。数据库内分析解决了执行高级

6、分析中一个最 大的缺点,即,需要将大量数据移来移去。这种需要导致许多组织和数据科学家不得不被迫使用聚 合表,因为分析发掘和发现流程中非常容易发生数据传输问题。数据库内分析通过将分析算法移至 存储数据的位置,逆转了这一流程,从而加快了建模的开发和部署。数据移动的消除带来了相当多 的好处: 移动几个 TB 的数据,可能会耗费数小时。而使用数据库内分析,移动数据的时间直降为零。 由于数据移动在逻辑处理时间上是最耗时间的活动,减少数据移动则会将处理时间减少至原来 的 1/N,其中,N 是处理单元的数量。对于仅有 5 个处理器的系统,1 TB 的处理时间可以减 少至原来的 1/16,从 193 分钟降为

7、 12 分钟(参见图 2)。 图图 2:数据库内分析大大加快处理时间数据库内分析大大加快处理时间 好处好处 利用低延迟(高速)数据访问利用低延迟(高速)数据访问 推动实时客户购置、预见性维 护或网络优化决策 根据当前市场或当地天气情况 按需更新分析模型 战术战术 #3:将您所有的数据用于新一代操作数据存储区将您所有的数据用于新一代操作数据存储区 Hadoop 分布式文件系统 (HDFS) 提供功能强大但价格实惠的方案,以实现操作数据存储区 (ODS) 和数据转移区域的现代化。HDFS 是一个高效利用成本的大型存储系统,具备固有的计算 和分析功能 (MapReduce)。HDFS 构建于商用群集

8、上,简化了各种数据源的采集和存储,这些数 据包括结构化数据、半结构化数据(例如,Web 日志和传感器馈送)或者非结构化数据(例如, 社交媒体、图像、视频和音频)。一旦纳入 Hadoop 文件系统,MapReduce 和商用的基于 Hadoop 的工具就可用于准备要加载到现有数据仓库中的数据。“根据查询定义架构”和“根据负 载定义架构”的功能简化了从众多源积累数据的过程,即使您并不确定以后何时以及如何使用这些 数据也是如此(参见图 3)。 一旦采用 Hadoop,用户就可以通过采纳新的 ELT(提取/加载/转换)模式,极大地强化现有的 ELT(提取/加载/转换)例程和开发新的 ELT 例程。现有

9、的 ETL 例程可通过 Hadoop 的本机并行 特性大大加速,而新的“数据浓缩”过程则可以进行开发,以生成新的指标(频率、时间跨度、顺 序),这些指标可能成为更好的业务绩效预测系数。 最终的结果就是一个为数据仓库和分析环境同时馈送数据的单一平台。这种价格实惠、横向扩展的 解决方案可用于存储您的所有数据。 图图 3:使用使用 Hadoop 作为操作数据存储区并分析所有数据作为操作数据存储区并分析所有数据 战术战术 #4:利用非结构化数据将新指标添加到企业数据仓利用非结构化数据将新指标添加到企业数据仓库库 使用 Hadoop 和 MapReduce 开始构建体验的一种简易方式就是,使用这些技术从

10、非结构化数据 源生成新的指标,这些指标可以馈送到企业数据仓库中。这将提供一种功能,即,利用社交媒体、 手机、消费者评论、医生便条或索赔描述等数据确定可以成为更好的绩效预测因素的新指标。 最新的发展使得组织可以使用其基于 SQL 的标准 BI 工具直接在本机并行的 HDFS 平台中访问组 织的结构化表。性价比令人难以置信。 好处好处 管理众多的结构化和非结构化数据源管理众多的结构化和非结构化数据源 集成非结构化的索赔描述,以 减少欺诈性索赔 利用移动数据生成实时促销 利用传感器读数优化收益和 定价 好处好处 利用从非结构化数据源中点滴积累利用从非结构化数据源中点滴积累 的新指标、维度和维度属性的

11、新指标、维度和维度属性 利用客户的兴趣、热情、关 联和隶属关系改善微细分 将传感器生成的性能数据添 加到您的制造、供应链或者 产品预见性维护模型中 它还大大简化了组织处理和分析非结构化数据(日志文件、文本文件、研究出版物)的能力,从而 找出非结构化数据中的主要度量单位,并将该数据在同一个 Hadoop 环境中加载为结构化(表 格)格式。使用日志文件分析示例: 将日志文件按原样载入(流入)Hadoop,可采用的文件格式为:.csv 格式的 HDFS 文件, 可直接作为外部表映射到查询,或者作为 HBase 数据库文件用于存放“粉碎的”事件列表。 在这种用途中,HAWQ 可以使用 HBase 引擎

12、过滤结果集,然后再响应 使用 MapReduce 分析每个日志记录,以确定“会话 ID”、“用户 ID”、“开始时间”、 “停止时间”、“传输的数据”等字段 将这些字段加载到仍处于同一个 hadoop 环境下的表结构中 使用基于 SQL 的标准 BI 工具查询该表(参见图 4)。 图图 4:使用使用 Hadoop/MapReduce 分析非结构化数据并将结果整合到企业数据仓库中分析非结构化数据并将结果整合到企业数据仓库中 这些新指标是从您的详细结构化数据或新的非结构化数据源(例如,社交媒体、手机或传感器生 成的数据)中收集的,现在可以很容易地集成到现有业务智能查询、报告、控制面板和分析(参 见

13、图 5)。 图图 5:将社交媒体指标集成到现有将社交媒体指标集成到现有 BI 环境中环境中 注意注意:随着 Hadoop 继续融入关系数据库市场,实施此战术可以使公司立于不败之地。能够在 Hadoop 上生成指标和处理数据,利用发展很快的 HBase 和 Hive 等工具,以及让 BI 工具直接 连接到 HDFS,这可能会使数据仓库专业人员产生疑问:为什么他们需要将数据移动到一个关系数 据库。 战术战术 #5:利用数据联合虚拟地扩展数据仓库利用数据联合虚拟地扩展数据仓库 数据联合领域的持续发展现已允许组织根据需要将数据仓库扩展到访问非数据仓库和外部数据源。 这种“虚拟数据仓库”或扩展的数据结构

14、可以支持组织快速访问不常引用的数据源的需求,而无需 花费数周或数月的时间将这类数据移动到企业数据仓库。这种数据可让用户以虚拟方式访问和分 析,如果系统确定需要以更高的频率访问这种数据源,会将其置于数据仓库环境中(参见图 6)。 注意:对于大规模的统计和计算机学习建模,则需要将大型数据集馈送给模型,因而数据联合将不 再适用。 好处好处 快速地将您的数据仓库环境 扩展到使用不常访问的数据源 支持一次性业务分析请求 在移入企业数据仓库前测试 和验证业务使用情形 图图 6:利用数据联合工具对利用数据联合工具对 EDW 之外的源进行按需访问之外的源进行按需访问 让您当前的数据仓库实现现代化让您当前的数据

15、仓库实现现代化 在革命性的、改变游戏规则的大数据开发领域,数据仓库现代化听起来有点像进化发展。但是,它 目前可以使用现有数据仓库技能来执行,这代表着以通过大数据技术获取立即实现的商业价值和实 现企业灵活性为目标的万里长征第一步。您还在等什么? EMC 全球服务组织交付结果全球服务组织交付结果 EMC 全球服务提供组织所需的战略指导和技术专业知识,用于解决组织面临的业务和信息基础架构 难题,并从其信息资产和投资中挖掘最大价值。我们承诺通过卓越的服务提供优异的总体客户体 验。我们有遍及世界各地的 15,000 多名专业人员和支持服务专家,并有一个全球联盟和合作伙伴 网络,他们利用 EMC 以信息为中心的优良传统中取得的经验证的方法体系、行业最佳做法、经验 和知识,满足客户在整个信息生命周期中的全部需要:战略制定、建议、架构设计、实施、管理和 支持。 联系我们联系我们 如欲详细了解 EMC 产品、服务和解 决方案如何帮助您解决业务和 IT 难 题,请与当地代表或授权分销商联 系,或者访问我们的网站 。 EMC2、EMC 和 EMC 徽标是 EMC Corporation 在美国和其他国家/地区的注册商

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号