大数据下的数据分析平台架构

上传人:枫** 文档编号:487206402 上传时间:2023-11-07 格式:DOCX 页数:6 大小:107.16KB
返回 下载 相关 举报
大数据下的数据分析平台架构_第1页
第1页 / 共6页
大数据下的数据分析平台架构_第2页
第2页 / 共6页
大数据下的数据分析平台架构_第3页
第3页 / 共6页
大数据下的数据分析平台架构_第4页
第4页 / 共6页
大数据下的数据分析平台架构_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《大数据下的数据分析平台架构》由会员分享,可在线阅读,更多相关《大数据下的数据分析平台架构(6页珍藏版)》请在金锄头文库上搜索。

1、大数据下的数据分析平台架构作者: baiyuzhong 分类:选题策划, 高端视点 阅读:14,562 次 添加评论文/谢超随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代, 数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非 常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需 求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。Hadoop 在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已

2、成为当前互联网企业主 流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。大数据分析的分类Hadoop 平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分 析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而 达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集 群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都

3、需要比较高的软硬件成本。目前比 较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、 推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对 海量数据,传统的 ETL 工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量 数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、 淘宝开源的Timetunnel、Hadoop的Chukwa 等,均可以满足每秒数百

4、MB的日志数据采集和传输需求, 并将这些数据上载到 Hadoop 中央系统上。 按照大数据的数据量,分为内存级别、BI级别、海量级别三种。这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内 存的Memcached中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。因此可以采用一 些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。图1 是一种实际可行的 MongoDB 分析架构。图 1 用于实时分析的 MongoDB 架构MongoDB 大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步

5、失效,但仍不失为一种潜 力十足的可以用于高速数据分析的 NoSQL。此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到 内存分析的性能。随着SSD的发展,内存数据分析必然能得到更加广泛的应用。BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据 库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多,就不具体列举了。海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产 品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop

6、的HDFS分布式文件系统来 存储数据,并使用MapReduce进行分析。本文稍后将主要介绍Hadoop上基于MapReduce的一个多维 数据分析平台。数据分析的算法复杂度根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。举个 例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合, 如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存 加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的分析性能。还有很多易并行问题(Embarrassin

7、gly Parallel),计算可以分解成完全独立的部分,或者很简单地就能 改造出分布式算法,比如大规模脸部识别、图形渲染等,这样的问题自然是使用并行处理集群比较适合。而大多数统计分析,机器学习问题可以用MapReduce算法改写。MapReduce目前最擅长的计算领域有 流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。?= 1 Sis in in1K 1W 13*2 I3J 闵 IO is IM 104 1U1341D51 屿 IM 3&TB BytHNufihAfEM*轉0和诵幅胛图2 RCFile的行列混合存面对大数据OLAP分析的一些问题OLAP 分析需要进行

8、大量的数据分组和表间关联,而这些显然不是 NoSQL 和传统数据库的强项,往往必须使用特定的针对BI优化的数据库。比如绝大多数针对BI优化的数据库采用了列存储或混合存储、压缩、 延迟加载、对存储数据块的预统计、分片索引等技术。Hadoop平台上的OLAP分析,同样存在这个问题,Facebook针对Hive开发的RCFile数据格式,就是 采用了上述的一些优化技术,从而达到了较好的数据分析性能。如图2所示。然而,对于Hadoop平台来说,单单通过使用Hive模仿出SQL,对于数据分析来说远远不够,首先Hive 虽然将HiveQL翻译MapReduce的时候进行了优化,但依然效率低下。多维分析时依

9、然要做事实表和维 度表的关联,维度一多性能必然大幅下降。其次, RCFile 的行列混合存储模式,事实上限制死了数据格式, 也就是说数据格式是针对特定分析预先设计好的,一旦分析的业务模型有所改动,海量数据转换格式的代 价是极其巨大的。最后,HiveQL对OLAP业务分析人员依然是非常不友善的,维度和度量才是直接针对 业务人员的分析语言。而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和 度量一旦发生变化,技术人员需要把整个Cube (多维立方体)重新定义并重新生成,业务人员只能在此 Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,

10、从而使所谓的BI系统成为死板 的日常报表系统。使用Hadoop进行多维分析,首先能解决上述维度难以改变的问题,利用Hadoop中数据非结构化的特征, 采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中,这样可 以在冗余维度下灵活地改变问题分析的角度。其次利用 Hadoop MapReduce 强大的并行化处理能力,无 论 OLAP 分析中的维度增加多少,开销并不显著增长。换言之, Hadoop 可以支持一个巨大无比的 Cube, 包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显著影响 分析的性能。UK3用户1 口nn学B5

11、fl-ax1禺H50050285OOTi710M4务XHX1WJIA5立550CO女7立次学分折命普:tfttf AESdfirt 石段曲上11 srs Glumn.女chi towt烦:大学cm Rd mi.IMPMwMine Caun1UsrlD!iHiKtMpMapReduceF. ft urn ? a is户mfrni2VP图3 MDXMapReduce简略示意图因此,我们的大数据分析架构在这个巨大Cube的支持下,直接把维度和度量的生成交给业务人员,由业 务人员自己定义好维度和度量之后,将业务的维度和度量直接翻译成MapReduce运行,并最终生成报表。 可以简单理解为用户快速自定义

12、的“MDX”(多维表达式,或者多维立方体查询)语言一MapReduce的转 换工具。同时OLAP分析和报表结果的展示,依然兼容传统的BI和报表产品。如图3所示。图 3 可以看出,在年收入上,用户可以自己定义子维度。另外,用户也可以在列上自定义维度,比如将性 别和学历合并为一个维度。由于Hadoop数据的非结构化特征,维度可以根据业务需求任意地划分和重组。可0?峪ILL*图4 Hadoop多维分析平台架构图孜M畢鞍嵐冗余軍復宦文口石甘析一种 Hadoop 多维分析平台的架构 整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分析模块。如图4所示。数据采集模块采用了 Cloud

13、era的Flume,将海量的小日志文件进行高速传输和合并,并能够确保数据的 传输安全性。单个 collector 宕机之后,数据也不会丢失,并能将 agent 数据自动转移到其他的 colllecter 处理,不会影响整个采集系统的运行。如图 5所示。数据冗余模块不是必须的,但如果日志数据中没有足够的维度信息,或者需要比较频繁地增加维度,则需 要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源(数据库、文件、内存等), 并指定扩展方式,将信息写入数据日志中。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,建议 使用一些比较快的内存 NoSQL 来冗余原始数据,并采用尽可能多的

14、节点进行并行冗余;或者也完全可以 在Hadoop中执行批量Map,进行数据格式的转化。图 5 采集模块闵仝的Htj昱眾 件 WJW.gsw;认的tttIH fn&ft底户自应义的JabConf ift-Z 举数HadoopMapReduceJRWMMft| Reduceml山h加种折装图 6 核心模块的逻辑三j=-ix. 图 7 MapReduce WorkFlow 例子维度定义模块是面向业务用户的前端模块,用户通过可视化的定义器从数据日志中定义维度和度量,并能 自动生成一种多维分析语言,同时可以使用可视化的分析器通过 GUI 执行刚刚定义好的多维分析命令。并行分析模块接受用户提交的多维分析命

15、令,并将通过核心模块将该命令解析为Map-Reduce,提交给 Hadoop 集群之后,生成报表供报表中心展示。核心模块是将多维分析语言转化为MapReduce的解析器,读取用户定义的维度和度量,将用户的多维分 析命令翻译成MapReduce程序。核心模块的具体逻辑如图6所示。图6中根据JobConf参数进行Map和Reduce类的拼装并不复杂,难点是很多实际问题很难通过一个 MapReduce Job解决,必须通过多个MapReduce Job组成工作流(WorkFlow),这里是最需要根据业 务进行定制的部分。图7是一个简单的MapReduce工作流的例子。MapReduce的输出一般是统计分析的结果,数据量相较于输入的海量数据会小很多,这样就可以导入传 统的数据报表产品中进行展现。结束语当然,这样的多维分析架构也不是没有缺点。由于MapReduce本身就是以蛮力去扫描大部分数据进行计 算,因此无法像传统 BI 产品一样对条件查询做优化,也没有缓存的概念。往往很多很小的查询需要“兴师 动众”。尽管如此,开源的Hado

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号