云计算在数据分析与商业智能分析中的应用研究概要

上传人:ni****g 文档编号:487544999 上传时间:2023-04-30 格式:DOC 页数:16 大小:112.51KB
返回 下载 相关 举报
云计算在数据分析与商业智能分析中的应用研究概要_第1页
第1页 / 共16页
云计算在数据分析与商业智能分析中的应用研究概要_第2页
第2页 / 共16页
云计算在数据分析与商业智能分析中的应用研究概要_第3页
第3页 / 共16页
云计算在数据分析与商业智能分析中的应用研究概要_第4页
第4页 / 共16页
云计算在数据分析与商业智能分析中的应用研究概要_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《云计算在数据分析与商业智能分析中的应用研究概要》由会员分享,可在线阅读,更多相关《云计算在数据分析与商业智能分析中的应用研究概要(16页珍藏版)》请在金锄头文库上搜索。

1、云计算在电信数据分析与商业智能分析中的应用研究 龚德志,段勇(中国电信股份有限公司上海研究院 上海 200122摘要:本文通过对电信数据分析与商业智能分析系统的应用现状进行分析 , 结合云计算技术的优势及特点 , 对云计算技术在数据分析与商业智能分析中的应用架构进行研究和分析,并对其应用模式、技术难点及应 用前景进行探讨关键词:云计算;电信;数据分析;商业智能1. 引言云计算是近年来新兴的信息技术之一, 它将能更好地使用计算资源, 更智能地进行大规 模数据处理。 基于高效的虚拟计算资源, 应用程序能以一种灵活且安全的方式实现快速扩展 和缩减,从而交付高品质服务。云计算使得 IT 管理更加轻松,

2、保证快捷响应业务需求。业 务或客户服务以极为简化的方式交付,这将大大推进创新和高效决策。云计算是一种新型业务交付模式,同时也是新型 IT 基础设施管理方法。通过新型的业 务交付模式, 用户将通过网络充分利用优化的硬件、 软件和网络资源, 并以此为基础提供创 新的业务服务。 新型 IT 基础设施管理方法让 IT 部门可以把海量资源作为一个统一的大资源 进行管理,支持 IT 部门在大量增加资源的同时无需显著增加相应的人员进行维护和管理。 云计算通过简单的方式给业务服务和终端消费者服务快速提供计算资源, 提供无限扩展 和有保障的高品质服务, 因此用户可以更加专注于服务本身的创新和决策。 云计算是一种

3、成 本高效的模式, 用于提供流程、 应用和服务, 并让 IT 管理更加简单,更快的响应业务需要。 这些服务,如计算服务,存储服务,网络服务等,都通过一种简化的方式按需提供,无论用 户及用户使用的设备是属于哪种类型。2. 云计算相关技术1 虚拟化虚拟化可以大幅度提高组织中资源和应用程序的效率和可用性。 虚拟化把物理资源和最 终呈现给用户的资源进行了分离, 实际是一个替代过程, 在具有统一良好架构设计的物理资 源上创建出多个替代资源 (也就是虚拟资源 , 替代资源和物理资源具有相同的接口和功能, 对于用户来说虚拟资源具备与物理资源相同的使用功能, 同时还可以有着不同的属性, 如价 格,容量,可调整

4、性等。下图是虚拟化的示意图。 图 1 虚拟化2 自动化部署云计算的一个核心思想是通过自动化的方式尽可能地简化任务, 使得用户可以通过自助 服务方式快捷地获取所需的资源和能力。 部署是基础设施管理中十分重要, 也是需要花费很 大工作量的一部分, 包括操作系统、 中间件和应用等不同层次的部署。 自动化部署提供简化 流程, 用户提出申请后由自动化部署平台根据调度和预约自动完成相应的部署, 因此用户只 需花十几分钟,甚至几分钟就可以得到一个完整的环境,极大地提高了工作效率。3 应用规模扩展云计算提供了一个巨大的资源池, 而应用的使用又有不同的负载周期, 根据负载对应用 的资源进行动态伸缩将可以显著提高

5、资源的有效利用率, 即高负载时动态扩展资源, 低负载 时释放多余的资源, 这就是应用规模扩展技术所解决的问题。 该技术以应用为基本单位, 为 不同的应用架构设定不同的集群类型, 每一种集群类型都有特定的扩展方式, 然后通过监控 负载的动态变化,自动为应用集群增加或者减少资源。4 分布式文件系统分布式存储的目标是利用云环境中多台服务器的存储资源来满足单台服务器所不能满 足的存储需求。 其特征是, 存储资源能够被抽象表示和统一管理, 并且能够保证数据读写与 操作的安全性、可靠性、性能等各方面要求。云计算催生了一些优秀的分布式文件系统和云存储服务。 最典型的云平台分布式文件系 统是 Google 的

6、 GFS(Google File System和开源的 Hadoop 。 这两种可伸缩的分布式文件系统利 用容错和故障恢复机制, 有效的克服单节点故障导致的系统故障; 实现了大规模海量级的文 件存储。以 Hadoop 文件系统为例, Hadoop 文件系统(HDFS 是一个运行在普通的硬件之上的 分布式文件系统, 它和现有的分布式文件系统有着很多的相似性, 然而和其他的分布式文件 系统 的区别也是很明显的:HDFS 是高容错性的,可以部署在低成本的硬件之上, HDFS 提供高吞吐量地对应用程序数据访问, 它适合大数据集的应用程 序, HDFS 放开一些 POSIX 的 需求去实现流式地访问文件

7、数据。 一个 HDFS 集群由一个管理文件系统元数据的 Name Node, 和存储实际数据的一些 Data Node组成。5 分布式数据库与非结构化数据存储在分布式文件系统之上, 是存储海量结构化数据的分布式存储系统。典型包括, Google 的 BigTable , 开源的 HBase 等。 这些系统可将非结构化数据, 例如网页等, 存储为分布式的、 多维的、有序的图。以 HBase 为例。 HBase 是一个分布式的、 面向列的开源数据库。 HBase 是 Apache 的 Hadoop 项目的子项目, HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。 HBas

8、e 不同于一般的关 系数据库 , 它是一个适合于非结构化数据存储的数据库 . 另一个不同的是, HBase 基于列的而 不是基于行的模式。 HBase 使用和 Bigtable 非常相同的数据模型。用户存储数据行在一个 表里。一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此 用户可 以给行定义各种不同的列。 HBase 主要用于需要随机访问, 实时读写大数据。 在系统架构上, HBase 分成 Master 与 Region Server 两部份。 Master 负责告知 client 对一个表访问时,应 该转向哪台 Region Server;而 Region Server

9、 就是实际上提供数据的节点。6 分布式计算基于云平台的最典型的分布式计算模式是 MapReduce 编程模型。 MapReduce 将大型任 务分成很多细粒度的子任务, 这些子任务分布式的在多个计算节点上进行调度和计算, 从而 在云平台上获得对海量数据的处理能力。概念 Map (映射 和 Reduce (化简 ,和他们 的主要思想, 都是从函数式编程语言里借来的, 还有从矢量编程语言里借来的特性。 当前的 软件实现是指定一个 Map (映射函数,用来把一组键值对映射成一组新的键值对,指定 并发的 Reduce (化简函数,用来保证所有映射的键值对中的每一个共享相同的键组。简 单说来, 一个映射

10、函数就是对一些独立元素组成的概念上的列表的每一个元素进行指定的操 作。事实上,每个元素都是被独立操作的,而原始列表没有被更改,因 为这里创建了一个 新的列表来保存新的答案。这就是说, Map 操作是可以高度并行的,这对高性能要求的应 用以及并行计算领域的需求非常有用。而 Reduce 操作指的是对一个列表的元素进行适当的 合并。 虽然他不如映射函数那么并行, 但是因为化简总是有一个简单的答案, 大规模的运算 相对独立,所以化简函数在高度并行环境下也很有用。3. 应用分析1 问题和现状对于 EDC 和业务支撑系统而言,大量的业务涉及到数据分析和商业智能。例如,以上 海电信为例,相关系统,按大类划

11、分,为 BSS 、 MSS 、 OSS 、 EDI 等;按照具体应用系统,则为计费、 CRM 、 DW 、综合结算、网厅、 OA 、 ERP 、 门户、 EDW 、 全息视图、计费分析、 营销分析、资源管理、综合保障、综合报警等。彼此独立的系统,占用了大量的硬件资源。 然而,由于资源彼此隔离,服务器的平均利用率非常低。由于生产要求,月初出帐 (主要是 报表 期,计算扎堆严重,资源又明显不足。数据分析和商业智能云平台,作为公共计算平台,用于支撑 EDC 和业务支撑系统中的 数据分析和商业智能计算。 因此, 云平台的客户也即上述系统的客户, 同时辐射到电信各种 业务的决策层。通过对电信 EDC 和

12、业务支撑系统的分析,我们可以总结出以下几个业务特性: 高性能计算的需求数据量大、运算量大的系统如计费、 CRM 、 EDW 等对高性能计算有需求。四川电信数 据分析都架构在小型机上, CPU 资源仍然不够。 虽然有一系列扩容优化计划,但计算与资 源一直有矛盾。 上海电信 EDA/WS部门,也面临针对海量数据做分析报表的压力;由于计 算资源分离,不能共享,资源利用率低下,目前主要通过不断扩容应对压力。 时间窗口问题需求数据分析的一个突出问题是时间窗口问题, 这在上海电信和四川电信都很突出。 由于生 产要求,月初出账 (主要是报表 期,计算扎堆严重,资源明显不足。目前对策主要是,对于 阶段性以及突

13、发性的作业需求进行动态调整以满足作业对计算能力的要求。 即, 对于重要业 务需预留资源, 对于其它业务则进行调度管理;在出账前,根据资源需要, 停掉低优先级的 计算,从而满足高优先级计算的需求。然而,在时间窗口之外,计算资源又相对空闲。 云计算在数据分析与商业智能分析中的应用有两种应用模式:为电信内部 EDC 和业务支撑系统提供数据分析和商业智能业务,实现传统数据分析与 商业智能应用的云化。 要实现此类应用模式需要完成后述工作:利用虚拟化和自动化等云计 算关键技术整合现有硬件资源; 部署云模式数据分析与商业智能平台;遵照云模式选择性 地重构现有业务系统中用到的数据分析与商业智能服务; 将上述用

14、户人物调度到云平台上进 行计算,获得云模式带来的好处。采用云模式开发新的数据分析与商业智能服务, 实现企业数据分析云。 要实现此类业务 应用模式需要依托整合共享的硬件资源,在云模式数据分析与商业智能平台上开发新的服 务, 以支持各类新兴的应用模式和需求 (如移动社交网络, 基于客户社交网络的客户价值发 现和营销,客户分群,基于用户地理位置和轨迹的信息服务和广告推送等 。2 典型应用场景本节阐述几个典型利用数据分析和商业智能云平台的新数据分析业务, 包括客户流失分 析,客户社群发现, 客户多重身份识别, 客户价值发掘。 上述典型应用涵盖了云模式数据分析与商业智能平台提供的数据挖掘和社会网络分析功

15、能。 然而, 该平台并不仅限于支持上述 业务,传统的各类数据分析业务均可通过定制化开发,移植到该平台上。 客户流失分析针对当前中国电信的 C 网客户流失严重的现象,利用云数据分析平台提供的 CHAID (Chi-squared Automatic Interaction Detector等客户分群算法,将客户划分为“稳定客户” 和“潜在流失客户” ,从而可以让中国电信将营销资金投入到挽留“潜在流失客户”上,有 效地提高营销资金的使用效率。经过清洗和预处理的客户数据会被提交给这个应用,加以分析。分析过程包括 CHAID 模型的建立和评估两个步骤。评估结果会以预测准确度和 LIFT 两个指标的形式

16、展现 客户社群发现针对性营销不仅需要了解单个顾客的特征, 更需要识别和理解顾客形成的各种社群。 例 如,识别家庭用户形成的社群结构, 对于特定种类的业务营销会有很大的帮助。然而, 传统 的统计方法往往只对代表社群规模的一些简单指标进行统计和比较, 无法分析客户社群内在 结构上的差异。利用云平台 BI 算法库中的连通分量, K-core 和极大团等算法,可深入分析客户社群的 组成,发现具有商业价值的特殊结构。例如, K-core 和极大团算法分析一个网络社区,可 以通过分析结果发现, 不同社群的内部联系紧密差异是否很大; K-core 算法可以获得清晰的 坍缩序列, 极大团算法进而发现了该社群内部一些联系紧密的小团体。 对于电信业务, 潜在 的应用场景有:发掘家庭客户, 也即哪些客户是家庭客户,哪些客户可能是同一个家庭;发 掘商业关联。 客户多重身份识别在各类客户分析应用中,往

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号