云计算在数据分析与商业智能分析中的应用研究1

上传人:夏** 文档编号:460867993 上传时间:2023-01-12 格式:DOC 页数:11 大小:191.01KB
返回 下载 相关 举报
云计算在数据分析与商业智能分析中的应用研究1_第1页
第1页 / 共11页
云计算在数据分析与商业智能分析中的应用研究1_第2页
第2页 / 共11页
云计算在数据分析与商业智能分析中的应用研究1_第3页
第3页 / 共11页
云计算在数据分析与商业智能分析中的应用研究1_第4页
第4页 / 共11页
云计算在数据分析与商业智能分析中的应用研究1_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《云计算在数据分析与商业智能分析中的应用研究1》由会员分享,可在线阅读,更多相关《云计算在数据分析与商业智能分析中的应用研究1(11页珍藏版)》请在金锄头文库上搜索。

1、云计算在电信数据分析与商业智能分析中的应用研究龚德志,段勇(中国电信股份有限公司上海研究院 上海 200122)摘要:本文通过对电信数据分析与商业智能分析系统的应用现状进行分析,结合云计算技术的优势及特点,对云计算技术在数据分析与商业智能分析中的应用架构进行研究和分析,并对其应用模式、技术难点及应用前景进行探讨关键词:云计算;电信;数据分析;商业智能1. 引言云计算是近年来新兴的信息技术之一,它将能更好地使用计算资源,更智能地进行大规模数据处理。基于高效的虚拟计算资源,应用程序能以一种灵活且安全的方式实现快速扩展和缩减,从而交付高品质服务。云计算使得IT管理更加轻松,保证快捷响应业务需求。业务

2、或客户服务以极为简化的方式交付,这将大大推进创新和高效决策。云计算是一种新型业务交付模式,同时也是新型IT基础设施管理方法。通过新型的业务交付模式,用户将通过网络充分利用优化的硬件、软件和网络资源,并以此为基础提供创新的业务服务。新型IT基础设施管理方法让IT部门可以把海量资源作为一个统一的大资源进行管理,支持IT部门在大量增加资源的同时无需显著增加相应的人员进行维护和管理。云计算通过简单的方式给业务服务和终端消费者服务快速提供计算资源,提供无限扩展和有保障的高品质服务,因此用户可以更加专注于服务本身的创新和决策。云计算是一种成本高效的模式,用于提供流程、应用和服务,并让IT管理更加简单,更快

3、的响应业务需要。这些服务,如计算服务,存储服务,网络服务等,都通过一种简化的方式按需提供,无论用户及用户使用的设备是属于哪种类型。2. 云计算相关技术1) 虚拟化虚拟化可以大幅度提高组织中资源和应用程序的效率和可用性。虚拟化把物理资源和最终呈现给用户的资源进行了分离,实际是一个替代过程,在具有统一良好架构设计的物理资源上创建出多个替代资源(也就是虚拟资源),替代资源和物理资源具有相同的接口和功能,对于用户来说虚拟资源具备与物理资源相同的使用功能,同时还可以有着不同的属性,如价格,容量,可调整性等。下图是虚拟化的示意图。图1 虚拟化2) 自动化部署云计算的一个核心思想是通过自动化的方式尽可能地简

4、化任务,使得用户可以通过自助服务方式快捷地获取所需的资源和能力。部署是基础设施管理中十分重要,也是需要花费很大工作量的一部分,包括操作系统、中间件和应用等不同层次的部署。自动化部署提供简化流程,用户提出申请后由自动化部署平台根据调度和预约自动完成相应的部署,因此用户只需花十几分钟,甚至几分钟就可以得到一个完整的环境,极大地提高了工作效率。3) 应用规模扩展云计算提供了一个巨大的资源池,而应用的使用又有不同的负载周期,根据负载对应用的资源进行动态伸缩将可以显著提高资源的有效利用率,即高负载时动态扩展资源,低负载时释放多余的资源,这就是应用规模扩展技术所解决的问题。该技术以应用为基本单位,为不同的

5、应用架构设定不同的集群类型,每一种集群类型都有特定的扩展方式,然后通过监控负载的动态变化,自动为应用集群增加或者减少资源。4) 分布式文件系统分布式存储的目标是利用云环境中多台服务器的存储资源来满足单台服务器所不能满足的存储需求。其特征是,存储资源能够被抽象表示和统一管理,并且能够保证数据读写与操作的安全性、可靠性、性能等各方面要求。云计算催生了一些优秀的分布式文件系统和云存储服务。最典型的云平台分布式文件系统是Google的GFS(Google File System)和开源的Hadoop。这两种可伸缩的分布式文件系统利用容错和故障恢复机制,有效的克服单节点故障导致的系统故障;实现了大规模海

6、量级的文件存储。以Hadoop文件系统为例,Hadoop文件系统(HDFS)是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统 的区别也是很明显的:HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程 序,HDFS放开一些POSIX的需求去实现流式地访问文件数据。一个HDFS集群由一个管理文件系统元数据的Name Node,和存储实际数据的一些Data Node组成。5) 分布式数据库与非结构化数据存储在分布式文件系统之上,是存储海量结构化数据的分布式存储系统。典型包括,

7、Google的BigTable,开源的HBase等。这些系统可将非结构化数据,例如网页等,存储为分布式的、多维的、有序的图。以HBase为例。HBase是一个分布式的、面向列的开源数据库。HBase是Apache的Hadoop 项目的子项目,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是,HBase基于列的而不是基于行的模式。 HBase使用和Bigtable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此 用户可以给行定义各

8、种不同的列。HBase主要用于需要随机访问,实时读写大数据。在系统架构上,HBase 分成 Master 与 Region Server 两部份。Master负责告知 client对一个表访问时,应该转向哪台 Region Server;而 Region Server 就是实际上提供数据的节点。6) 分布式计算基于云平台的最典型的分布式计算模式是MapReduce编程模型。MapReduce将大型任务分成很多细粒度的子任务,这些子任务分布式的在多个计算节点上进行调度和计算,从而在云平台上获得对海量数据的处理能力。概念Map(映射)和Reduce(化简),和他们的主要思想,都是从函数式编程语言里

9、借来的,还有从矢量编程语言里借来的特性。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。简单说来,一个映射函数就是对一些独立元素组成的概念上的列表的每一个元素进行指定的操作。事实上,每个元素都是被独立操作的,而原始列表没有被更改,因 为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。而Reduce操作指的是对一个列表的元素进行适当的合并。虽然他不如映射函数那么并行,但是因为化简总是有一个简单的答案

10、,大规模的运算相对独立,所以化简函数在高度并行环境下也很有用。3. 应用分析1) 问题和现状对于EDC和业务支撑系统而言,大量的业务涉及到数据分析和商业智能。例如,以上海电信为例,相关系统,按大类划分,为BSS、MSS、OSS、EDI等;按照具体应用系统,则为计费、CRM、DW、综合结算、网厅、OA、 ERP、 门户、EDW、 全息视图、计费分析、营销分析、资源管理、综合保障、综合报警等。彼此独立的系统,占用了大量的硬件资源。然而,由于资源彼此隔离,服务器的平均利用率非常低。由于生产要求,月初出帐(主要是报表)期,计算扎堆严重,资源又明显不足。数据分析和商业智能云平台,作为公共计算平台,用于支

11、撑EDC和业务支撑系统中的数据分析和商业智能计算。因此,云平台的客户也即上述系统的客户,同时辐射到电信各种业务的决策层。通过对电信EDC和业务支撑系统的分析,我们可以总结出以下几个业务特性: 高性能计算的需求数据量大、运算量大的系统如计费、CRM、EDW等对高性能计算有需求。四川电信数据分析都架构在小型机上,CPU资源仍然不够。 虽然有一系列扩容优化计划,但计算与资源一直有矛盾。 上海电信EDA/WS部门,也面临针对海量数据做分析报表的压力;由于计算资源分离,不能共享,资源利用率低下,目前主要通过不断扩容应对压力。 时间窗口问题需求数据分析的一个突出问题是时间窗口问题,这在上海电信和四川电信都

12、很突出。由于生产要求,月初出账(主要是报表)期,计算扎堆严重,资源明显不足。目前对策主要是,对于阶段性以及突发性的作业需求进行动态调整以满足作业对计算能力的要求。即,对于重要业务需预留资源,对于其它业务则进行调度管理;在出账前,根据资源需要,停掉低优先级的计算,从而满足高优先级计算的需求。然而,在时间窗口之外,计算资源又相对空闲。云计算在数据分析与商业智能分析中的应用有两种应用模式:为电信内部EDC和业务支撑系统提供数据分析和商业智能业务,实现传统数据分析与商业智能应用的云化。要实现此类应用模式需要完成后述工作:利用虚拟化和自动化等云计算关键技术整合现有硬件资源; 部署云模式数据分析与商业智能

13、平台;遵照云模式选择性地重构现有业务系统中用到的数据分析与商业智能服务;将上述用户人物调度到云平台上进行计算,获得云模式带来的好处。采用云模式开发新的数据分析与商业智能服务,实现企业数据分析云。要实现此类业务应用模式需要依托整合共享的硬件资源,在云模式数据分析与商业智能平台上开发新的服务,以支持各类新兴的应用模式和需求(如移动社交网络,基于客户社交网络的客户价值发现和营销,客户分群,基于用户地理位置和轨迹的信息服务和广告推送等)。2) 典型应用场景本节阐述几个典型利用数据分析和商业智能云平台的新数据分析业务,包括客户流失分析,客户社群发现,客户多重身份识别,客户价值发掘。上述典型应用涵盖了云模

14、式数据分析与商业智能平台提供的数据挖掘和社会网络分析功能。然而,该平台并不仅限于支持上述业务,传统的各类数据分析业务均可通过定制化开发,移植到该平台上。 客户流失分析针对当前中国电信的C网客户流失严重的现象,利用云数据分析平台提供的CHAID(Chi-squared Automatic Interaction Detector)等客户分群算法,将客户划分为“稳定客户”和“潜在流失客户”,从而可以让中国电信将营销资金投入到挽留“潜在流失客户”上,有效地提高营销资金的使用效率。经过清洗和预处理的客户数据会被提交给这个应用,加以分析。分析过程包括CHAID模型的建立和评估两个步骤。评估结果会以预测准

15、确度和LIFT两个指标的形式展现 客户社群发现针对性营销不仅需要了解单个顾客的特征,更需要识别和理解顾客形成的各种社群。例如,识别家庭用户形成的社群结构,对于特定种类的业务营销会有很大的帮助。然而,传统的统计方法往往只对代表社群规模的一些简单指标进行统计和比较,无法分析客户社群内在结构上的差异。利用云平台BI算法库中的连通分量,K-core和极大团等算法,可深入分析客户社群的组成,发现具有商业价值的特殊结构。例如, K-core和极大团算法分析一个网络社区,可以通过分析结果发现,不同社群的内部联系紧密差异是否很大;K-core算法可以获得清晰的坍缩序列,极大团算法进而发现了该社群内部一些联系紧

16、密的小团体。对于电信业务,潜在的应用场景有:发掘家庭客户,也即哪些客户是家庭客户,哪些客户可能是同一个家庭;发掘商业关联。 客户多重身份识别在各类客户分析应用中,往往需要识别单一客户的多重身份。例如,在电信网中需要识别重入网客户,在广告营销管理中需要识别虚假好评。云平台算法库提供的个体中心网和极大团等算法,可以辅助识别用户的多重身份。 电信网中的重入网客户识别。利用网络分析算法库提供的个体中心网算法,可以计算得到每个客户的朋友以及朋友之间的联系,这一信息可以被看作是该客户的社会关系指纹。将这一分析工具同时态分析等工具相结合,可以有效地判断一个客户是否是该运营商过去某个用户再入网的身份。 虚假好评/马甲的识别。云平台网络分析算法库提供的极大团等社群发现算法可以识别客户社群中一些有趣的小团体。以网络社区数据为例,可发现一些包含两个用户的强极大团实际上是一些用户的多

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号