大数据架构面临技术集成的巨大障碍_光环大数据培训

上传人:gua****an 文档编号:50302200 上传时间:2018-08-07 格式:DOCX 页数:5 大小:42.24KB
返回 下载 相关 举报
大数据架构面临技术集成的巨大障碍_光环大数据培训_第1页
第1页 / 共5页
大数据架构面临技术集成的巨大障碍_光环大数据培训_第2页
第2页 / 共5页
大数据架构面临技术集成的巨大障碍_光环大数据培训_第3页
第3页 / 共5页
大数据架构面临技术集成的巨大障碍_光环大数据培训_第4页
第4页 / 共5页
大数据架构面临技术集成的巨大障碍_光环大数据培训_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据架构面临技术集成的巨大障碍_光环大数据培训》由会员分享,可在线阅读,更多相关《大数据架构面临技术集成的巨大障碍_光环大数据培训(5页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训大数据培训&人工智能培训人工智能培训http:/ 光环大数据光环大数据 http:/大数据架构面临技术集成的巨大障碍大数据架构面临技术集成的巨大障碍_ _光环大数据培训光环大数据培训企业可以利用 Hadoop 以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。IT 团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求。但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务。在不断扩展的 Hadoop 生态系统中,选择和部署合适的大数据技术是一个长期反复的过

2、程,周期要以年计。除非公司管理者愿花大量财力和资源来加速推动项目。选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图不一定适用于另一家组织,即便是完全相同的行业也不行。Bryan Lari 是美国德克萨斯州大学 MD 安德森癌症研究中心(位于休斯顿)研究分析主任,他说:“我经常跟人说,这不是像你在亚马逊下个订单或者从苹果商店买个东西那么简单的事。这是一件复杂的事,它需要一个过程。我们在半年或者一年之内是做不完的。这也不是可以套用公式就能应用的技术,尽管有很多案例或者用户有成功经验,但我们也可能用不同的工具来满足我们的需求。 ”MD 安德森的大数据环境集中在 Hadoop 集群中,在三月份

3、的时候投入了生产环境,初步打算用来处理病人房间监视设备传输回来的重要信号数据。不过,数据湖平台还包括 HBase(与 Hadoop 配合的 NoSQL 数据库) ,Hive(Hadoop 支持 SQL 的软件) ,还有各种其他 Apache 开源技术,例如:Pig、Sqoop、Oozie和 Zookeeper。此外,这家癌症治疗和研究组织还部署了 Oracle 数据仓库作为信息库来支持分析和报表应用,还有 IBM 的 Watson 认知计算系统提供自然语言光环大数据光环大数据-大数据培训大数据培训&人工智能培训人工智能培训http:/ 光环大数据光环大数据 http:/处理和机器学习功能。未来

4、出现新的数据可视化、治理和安全工具也必然会参与进来。MD 安德森癌症中心的 IT 团队在 2015 年初就开始使用 Hadoop。为了演示可能的应用情况同时熟悉该技术,该中心首先使用基本的 Apache Hadoop 软件构建了试点集群环境。后来,他们部署了 Hadoop Hortonworks 分布式架构用于生产环境。Vamshi Punugoti 是 MD 安德森癌症中兴研究信息系统的副主任,他说从这次试点项目中得到的经验可以使他们处理架构调整更容易。随着新的大数据工具出现,总会有调整架构的可能性,一定需要功能增强或者替换组件。Punugoti 说:“这是个持续更新的过程,包括我们收集到的

5、数据都在不断变化着。如果我们认为(现有架构)可以处理一切那就太天真了。 ”演进更好的架构Uber 平台工程师团队花了大约一年时间设计了多层大数据架构,但是这么多技术组件搭建的有点仓促。Uber 公司 Hadoop 团队高级工程师 Vinoth Chandar 说,该公司的现有系统跟不上业务运营带来的快速增长的数据量。结果,大部分数据不能进行实时分析,Chandar 认为这对于 Uber 公司倡导实质性“实时叫车”理念来说是个大问题。为了帮助运营经理实现数据驱动,Chandar 和他的同事们搭建了 Hadoop 数据湖环境,其中包括 HBase、Hive、Spark 处理引擎、Kafka 消息队

6、列系统,还有其它一些技术。其中一些技术是内部构建的,例如:有一款数据提取工具Streamific。有了该架构之后,Uber 公司将追赶大数据和分析的艺术状态。但是,这并光环大数据光环大数据-大数据培训大数据培训&人工智能培训人工智能培训http:/ 光环大数据光环大数据 http:/不是容易做到的。他半开玩笑地补充说:“为了把这些技术组件整合到一起,我们十个人几乎一年没有睡觉。 ”架构的挑战对于组织来说可不是闹着玩的。Gartner 咨询公司预测,到2018 年,70%的 Hadoop 部署将无法实现他们节约成本和收入增长的目标,主要原因是技能不足和技术整合困难。Gartner 公司分析师 M

7、erv Adrian 说,整合障碍还在加剧,Hadoop 分发商与大数据技术有关的数字还在稳步攀升,这代表了部署 Hadoop 的公司对 Hadoop 技术支持的需求量趋势。在 2016 年太平洋西北地区 BI 峰会上,Adrian 列举了 46 种 Hadoop 相关的开源技术创新,这些产品都是由一家或者多家分发商提供支持服务的。但是,要把这些组件放到大数据架构中却是留给使用方的工作。 “大多数 Hadoop 项目都像是艺术工作,我们都要把这些技术组件整合到一起使用。 ”执行过程中的变化这种整合拼凑工作是非常艰巨的任务,即便 Hadoop 不是框架中的一部分。Celtra 公司提供了一个平台

8、可以设计在线显示和视频广告,有几部分已经在基于云的处理架构中陆续部署了,现在正把 Spark 及其 SQL 模块整合到 Amazon 简单存储服务(S3)、MySQL 关系型数据库和 Snowflake 计算的数据仓库系统。Grega Kespret 是这家波士顿公司的分析总监,他说:“我们经历了许多尝试和错误。比较有挑战的是要设计一套架构满足业务需求,但还不能过度设计。 ”他提醒说,如果你做了,可能会以一片混乱而告终。最开始的时候,Celtra 公司通过网站访问者和 S3 中的其它可跟踪事件收集广告交互数据,然后使用 Spark 作为 ETL 引擎(抽取、转换和加载)聚合信息,分析 MySQ

9、L 中的运营数据用于报表。但是,原始的事件数据是很难分析的。光环大数据光环大数据-大数据培训大数据培训&人工智能培训人工智能培训http:/ 光环大数据光环大数据 http:/Celtra 公司增加了一套独立的基于 Spark 的分析系统,但是仍然需要该公司的数据分析师们团结一致去清理和验证事件数据,这个过程的工作是很容易出错的。在 2015 年底的时候,Kespret 和他的团队经过各种尝试最终放弃了其它技术,选择了 Snowflake 作为事件数据存储系统,然后把数据按用户会话进行组织之后会存储到 MySQL,这样数据分析师用起来更方便。Snowflake 系统在去年四月份投入生产使用,比

10、该软件软发布较早一点。Kespret 说,下一步是要在 Snowflake 中存储数据,评估第二步 ETL 过程,然后处理数据存储到另一套 MySQL 数据库中。大数据开发的“狂野西部日”Hadoop 合作设计者 Doug Cutting 认为,技术选择方案过多导致了构建大数据架构过程的复杂化。对于许多希望利用 Hadoop 及其同生技术的用户组织,“这真像是狂野西部时期的泡沫” 。Cutting 现在是 Hadoop 供应商 Cloudera 公司的首席架构师。不过 Cutting 认为,大数据系统的益处也正体现于此这种多样性带来了架构灵活性,支持各种新的分析应用,而且 IT 成本更低。因此

11、,费一番周折实现集成也是值得的。他认为大多数问题是因为对这些开源软件的开发和部署流程不熟悉引起的。他说:“Hadoop 很快就不会令人生畏,人们会习惯使用它的。 ”或许是这样吧,不过雅虎公司(据声称是最大的 Hadoop 用户群)的 IT 经理们表示,他们并没有完全消除压力。Cutting 曾在雅虎总部工作(位于美国加州Sunnyvale),那时候 Hadoop 在 2006 年刚启动。雅虎这家 web 搜索和互联网服光环大数据光环大数据-大数据培训大数据培训&人工智能培训人工智能培训http:/ 光环大数据光环大数据 http:/务公司是该技术的第一家生产环境用户。目前,该公司(雅虎)的大数

12、据环境有40 个集群,混杂了 HBase、Spark、Storm 实时处理引擎和其它 Hadoop 相关技术。Sumeet Singh 是雅虎公司负责云计算和大数据平台产品开发的高级总监。他说,总的来说,围绕 Hadoop 建立的巨大技术生态体系对用户是有利的。Singh 表示,Hadoop 这个开源框架加速了技术开发的步伐,使 IT 团队可以集中精力规划和创造对他们公司有用的工具,而不必自己完成所有工作。 “我知道有许多开源项目,不过不是每个人都能广泛接触采纳,这其中会有真正明确获益的赢家。 ”大数据的世界并不总是阳光明媚的,Singh 说:“总会有各种问题随之而来” ,他的头脑快要被各种开源框架和大数据框架涉及的数不清的技术撑爆了。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据挖掘与识别

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号