中国电信全国计费结算中心 BI系统建设情况介绍

资源描述

《中国电信全国计费结算中心 BI系统建设情况介绍》由会员分享，可在线阅读，更多相关《中国电信全国计费结算中心 BI系统建设情况介绍（8页珍藏版）》请在金锄头文库上搜索。

1、中国电信全国计费结算中心中国电信全国计费结算中心 BIBI 系统建设情况介绍系统建设情况介绍中国电信集团公司全国计费结算中心 BI 系统建设项目组李连祥卜小明刘晓亮一、引言电信市场开放、竞争的不断加剧，促使电信运营商下大力气进行运营支撑系统建设，以保证企业核心竞争力方面的优势，最终确定在未来电信市场竞争过程中的有利地位。中国电信集团公司全国计费结算中心（以下简称全国中心）做为中国电信总部直属的计费清算部门，清醒地认识到数据仓库、商业智能（BI）技术在电信领域利用后所产生的重要作用，始终将电信市场经营决策支持系统（以下简称 BI 系统）的建设做为中国电信未来发展的生命线来抓。早在

2、 1996 年底，全国中心的技术人员就开始追踪数据仓库技术，并尝试在电信计费领域加以应用，对于相关市场预测、经营分析工作起到了显著的支撑作用，促进了电信市场经营决策科学化的力度。1999 年底，利用全国中心小规模 BI 系统进行了国际电话资费调整工作的预测，对于选择资费优惠的国家、费率优惠的通话时长门限值等的确定，起到了良好的作用。2000 年初，全国中心结合市场经营部门的需求，开始国际通信结算摊分系统的规划、设计、建设工作，其中包括 BI 系统建设的内容。根据几年来实际工作中摸索的经验及响应的体会，全国中心提出了如下建设目标： 1 建设中国电信行业第一个真正意义上的电信市场经营决策

3、支持系统。其内涵为：以 DATA MINING 技术的实际应用为建设重点，以辅助和支撑市场预测工作为目标，以发现海量数据中的隐含信息为立足点。2 建设独立的、综合性的、涵盖全业务的 BI 系统。其内涵为：BI 系统建设作为独立与应用系统的系统；在支撑国际通信计费结算系统的同时，能够支持国家骨干智能网计费系统、国家骨干 IP 网计费系统、国内长途计费系统、网间结算系统等专业。3 以详细数据处理为基础。各专业系统一律向 BI 系统提供原始详细话单（或经处理后的最小粒度统计数据），并经星型模式转储，在此基础上支持 DAMA MINING 处理、OLAP 处理。各专业详细数据保存两份，一份

4、存入关系数据库供业务系统使用，一份存入多维数据库供 BI 系统使用。 BI 系统建设于 2001 年 5 月开始。在中国电信集团公司总部的正确领导和各省公司计费结算中心的协助下，经过全国中心 BI 系统建设项目组与服务厂商的共同努力，该系统于 2001 年 7 月开始提供在线数据展示及其他功能的试运行，2001 年 9 月通过初验。目前该系统运行稳定，效果良好，完全达到了工程建设预期要求。二、系统结构全国中心承建的 BI 系统的总体架构如下图所示。略图 1.系统总体架构该系统包含数据模型管理模块、数据转移模块、数据仓库模块、决策支持应用平台等组成部分，下面分别介绍各个部分的功能

5、：2.1 数据模型管理模块数据仓库和决策支持系统的性能、可用性和扩展能力与其模型设计质量具有紧密的联系。在需求分析定义、系统设计和详细设计阶段，需要在深入理解电信的业务流程和需求的基础上，将业务规则转换为逻辑模型，并逐渐细化为针对特定目标数据库的物理模型。数据仓库模型是决策支持系统中最主要的元数据类型之一，是数据仓库建库和管理、定义数据转移规则和流程以及设计数据仓库和前端应用接口的重要依据。当需要对决策支持系统结构进行更改时，必须首先检查相应的数据模型是否需要变化以及怎样变化，再对决策支持系统的其他模块进行修改。2.2 数据转移模块数据转移模块将原有各专业计费系统所提供的详

6、细数据和外部数据源的数据按照数据仓库模型整合到数据仓库系统中去，在这个过程中需要完成数据的抽取、清洗、转换、整合、传输、加载等操作，是决策支持系统构建过程中最为复杂的一个环节。数据转移模块主要解决以下问题：确定要抽取的源数据，这里主要从以下业务系统中抽取数据，如国际通信计费结算系统、国家骨干智能网计费系统、国家骨干 IP 网计费结算系统、各省国内长途集中计费系统、网间结算系统等等。在本系统中，国际通信专业集中了经由中国电信北京、上海、广州三个国际出入口局、哈尔滨、青岛、福州三个边境局出入的国际来、去、转电话全部详细话单（每月约为 1.1 亿张）；国家骨干智能网专业集中了全网

7、省际漫游的智能网业务全部详细话单（每月约为 2000 万张）、国家骨干 IP 网专业集中了全网省际漫游、国际漫游的全部详细结算话单（每月约为 2000 万张）。上述数据在经各专业计费系统完成相关计费处理的同时，经过相应的清洗、整理，进入 BI 系统的多维数据库转储。确定如何抽取数据：抽取数据可以采用文件方式或数据库直接抽取两种方式，而文件方式又可以分为主动文件抽取和被动文件抽取。目前全国中心一律采用文件方式抽取；经一段时间后后台运行维护质量将得以稳定，那时将采用数据库直接抽取方式工作。确定抽取数据的频率和时间，这里必须设置为业务系统不繁忙的时段。目前各专业数据抽取的频度基本上

8、与相关计费系统处理的频度相同，只是将处理时间做适当的分离，避免内部计费生产网络出现较高负荷。对来自不同数据源的数据进行一致性转换；合并来自不同数据源的信息，去除重复行；定义取值范围；匹配和清除；对同组或相关数据进行聚合或汇总计算；将数据源中的单一信息按照数据仓库的需要进行分解；对数据进行重组或重构；统一计量单位；将代码转换为完整的有实际意义的描述；确定数据加载的目标数据库；确定数据加载类型（批量装载、增量更新、原位更新、删除等）；对数据加载进行时间调度。2.3 数据仓库模块数据仓库模块包括三个数据存储部件，简述如下：2.3.1 分段存储区分段存储区是为了保证数据移

9、动的顺利进行而开设的阶段性数据存储空间，需要进入数据仓库的各专业计费数据首先直接快速传输到分段存储区，再从分段存储区经过清洗、转换、映射等复杂的数据移动处理转移到目标数据仓库中。从各专业计费系统到分段存储区的数据传输，尽量避免进行数据处理，以保证数据的快速导入而尽量减小对计费系统造成的压力。分段存储区的数据也可以作为数据仓库系统的备份数据。在开始加载数据后，首先将各个系统的历史数据转移到数据仓库中，以后系统运行过程中就只需要定期地增量加载数据。2.3.2 基础数据仓库基础数据仓库的数据直接来源于对分段存储区数据的抽取，但数据结构完全按照决策支持的需求而设计成星型结构（或雪花

10、结构），在设计中兼顾系统未来的发展变化和数据查询、访问的效率。在抽取过程中，对数据进行了完整性和有效性检查，对冗余和不一致的数据进行了清洗和转换。基础数据仓库中的数据量将非常庞大。2.3.3 数据集市数据集市是数据仓库的子集，通常已经将详细数据聚合为汇总数据，其主要目的是支持各种不同的前端决策支持应用和其他业务系统的信息需求。数据集市的数据通过对基础数据仓库中数据的复制、分布或聚合而得到，数据结构设计为星型结构，可以直接支持通过 R-OLAP 服务器的多维分析。2.4 多维数据库模块在分析各专业计费结算数据时，从不同的角度来审视业务的衡量数值是一种很自然的思考模式。例如，考虑

11、商品的销售额，有时需要比较不同商品在同一地区的销售额。有时需要比较同一商品在不同地区的销售额，如此等等。这种分析方式叫做“多维分析“。简单地说就是，每一维即是一个分析的角度。在数据仓库技术及其提供的工具出现之前，每一个不同角度的分析都需要信息技术（IT）人员制作相应的报表。这样做不单耗费资源，而且决策人员也不能对业务上的变化及时采取相应的行动。现在的数据仓库产品中提供的 OLAP（在线分析）工具就是为这种需要而产生的。这种工具的主要功能是根据用户所选择的分析角度，事先计算好一些辅助结构，以及每一维各层次所需的汇总，以便在查询时能尽快抽取到所要的记录，并快速地从一维转变到另一维。

12、这样一来，用户就可以在较短的时间内从各种不同的角度来审视其业务的经营情况。“在线“一词形容的就是这种机动的、快速显现的功能。2.5 决策支持应用平台决策支持应用平台后端连结数据仓库模块，向决策支持系统用户提供 OLAP 分析、灵活查询、固定格式报表、灵活报表等不同层次的应用，满足电信的业务人员多种多样的信息需求，促进企业决策的科学化。决策支持应用平台主要包括分析模块和报表模块等组成部分。2.5.1 分析模块分析模块是电信决策支持系统的主要数据展现和分析手段，企业用户通过客户端或浏览器与 OLAP 服务器连接，快速、一致、交互地访问各种可能的信息视图，洞察数据深处，掌握隐于其中

13、的规律。分析模块能够帮助企业中的决策人员、业务分析人员、数据分析人员完成各种 OLAP 需求，如：在不同层次之间计算和建模；从不同角度切割数据集合进行分析；从宏观到微观，对数据进行深入分析；从微观到宏观，对数据进行汇总分析；查询底层细节数据；对不同数据集合进行基于多个角度的比较。2.5.2 报表模块决策支持系统的总体需求中除对分析功能提出要求外，也对完成各种固定格式的或灵活的报表提出了需求。报表模块根据电信的需要生成大量的企业内部使用或上报的规定格式报表，同时也可以根据需要生成用户临时要求的不同格式的报表。这些报表的数据来源多种多样，报表的复杂程度也各不相同。在报表生成

14、周期上，既有年报、季报、月报、周报、日报等固定时间间隔的报表，也有一次性或临时生成的报表。三、数据挖掘模块数据挖掘又称为 KDD（数据库中的知识发现），就是使用各种计算及分析方法（如聚类分析、预测分析等），从大量的数据中找寻数据与数据之间的关系。一个细心的决策人员，往往能从这些挖掘出来的关系得到意想不到的启示，从而帮助他在激烈的市场竞争中取得成功。数据挖掘的一般步骤如下图所示：略图 2. 数据挖掘的步骤数据挖掘过程首先要从数据仓库中选择要分析的数据，并对这些数据进行转换（如将某些字段离散化等）。然后选择挖掘的算法对转换后的数据进行处理，并对得到的结果进行分析得到可理解的

15、信息。由上图可以发现数据挖掘的几个特点： 2 对挖掘所得到的信息必须再经过整合和验证，才能变成可以作为决策支持之用的报告；3 数据挖掘要得到一个有用的结果，必须经过多次反复，不断地修正数据、模型等等要素。由此可见，数据挖掘是个动态的过程。数据挖掘提供了各种各样的算法来解决不同的商业问题，如聚类算法、关联分析、预测、时间序列分析等等。下面就结合全国中心 BI 系统建设过程中存在的现实问题和需要，对不同的算法的应用进行详细的分析。3.1 聚类分析聚类就是对所有的数据记录划分到几个类（或组），使相似程度大的记录归入同一个记录，而不相似的记录归入不同的类。聚类的目的就是把所有的数

16、据记录划分为几个类，而每个类中的记录具有共同或相近的属性特征。它在客户分群中有着广泛的应用。利用各种业务系统中的数据对客户进行聚类，不仅可以得到不同类别的客户具有那些不同的消费特点，还可以发现我们的老客户都具有怎样的特点，某项业务的客户具有什么特点，新出现某项业务后最应该向哪个类别中的用户进行推广等等。这样就使电信企业可以根据不同种类的客户采用不同的策略（即提供个性化的服务）。聚类分析算法种类繁多，这里就介绍一种利用神经网络进行聚类的算法。神经网络聚类算法大多采用自组织特征映射（SOM）神经网络。在 SOM 网络中，邻近的各个神经元通过彼此侧向交互作用，相互竞争，自适应发展成检测不同信号（或模式）的特殊检测器。当外界输入不同的样本到 SOM 网络中，一开始时，输入样本引起输出兴奋神经元的位置各不相同，但经过自组织形成一些神经元群，他们分布反映了输入样本的特征。这些神经元群，如果在二位输出空间，则是一个平面区域，样本自学习后，在输出神经元层中排列成一张二维的映照图，

展开阅读全文

中国电信全国计费结算中心 BI系统建设情况介绍

最新文档