论轨道交通信息管理系统中的数据仓库 张丽英(沈阳新松机器人自动化股份有限公司,辽宁沈阳110168)摘 要:结合轨道交通AFC运营管理数据分析系统(简称“AFC数据分析系统”)的实际需求及其总体研制目标,研究了数据仓库及其相关技术在AFC数据分析系统中的应用研究了基于Oracle/Linux PC服务器环境设计和实现对Oracle/Unix宿主数据库系统执行数据的优化抽取技术关键词:轨道交通;信息管理系统;数据仓;数据分析TP311.1:A:1672-7800(2010)03-0156-02O 引言随着我国城市公共交通的高速发展,轨道交通作为城市公共交通中的重要组成部分,其环保、低能耗和快捷、准时的运输特点,在城市繁忙的公共交通运输中越来越受到青睐但目前,轨道交通自动售检票(Automatic Fare CollectionAFC)系统在计算机应用技术方面还停留在自动售检票票务处理、设备监控、分类统计汇总报表和运营信息管理的业务层面,对轨道交通AFC系统周期循环存储沉淀的海量票务交易数据、设备状态记录和维护日志等缺乏进一步的挖掘、发现、分析和利用。
把数理统计和数据仓库技术应用于轨道交通AFC运营管理数据分析是目前国外相关IT集成公司高度关注的技术热点,也是我国轨道交通AFC行业研究的主要方向之一针对轨道交通AFC运营管理特点和线路中央处理主机的处理性能及其联机存储限制,必须设计和开发资源占有优化、操作界面友好、统计分析模型适用的辅助决策应用软件,为轨道交通AFC运营管理提供一个可靠、安全及易用的数据分析和图、表生成工具1 AFC系统存在的问题目前,各个公司设计、开发的轨道交通AFC系统都各具特色,但都有一个共同的不足,即不具有强大的数据挖掘和数据分析功能这是由于轨道交通AFC系统本身是一个集控制和票务信息管理于一体的综合信息管理平台,主要用于控制和管理轨道交通自动售检票系统的正常运营和票务交易的管理及业务报表,不是一个用于数据挖掘和分析的应用软件实际上,在自动售检票过程中产生的数据具有很大的潜在使用价值,但是目前国内外专门针对AFC运营数据的统计分析软件还是一个空白相信在AFC系统使用一个阶段后,轨道交通运营管理部门对这方面的要求将会越来越迫切2 数据仓库主要技术研究与实现2.1 数据仓库的关键技术创建和维护数据仓库系统涉及到3个关键环节,即:源数据的抽取和转换,转换后的数据存储在目标数据库以及支持用户对目标数据库的透明访问。
与此相对应,在数据仓库的设计过程中必须注意实现这3个关键环节的技术路线与方法,即:选择数据仓库的目标数据库,数据抽取和转换,以及支持表示层的透明访问和联机分析处理( OI_AP)服务层的相关分析2.2轨道交通数据源分析为数据仓库提供的源数据(source data)可以是各种生产系统的数据库联机事物处理( OLTP)的操作型(operational)数据,以及系统所需的各种外部数据数据源格式可以包括文本文件、XML文档、电子表格和关系数据库记录等数据抽取程序应能获取和重组分散在各个数据源中与某一主题或分析目的有关的数据,同时运用数据预处理方法规范重组数据中同类属性的不一致性描述及去掉重复组,使之符合某主题的联机分析处理或具有分析目的地加载到数据仓库在城市轨道交通自动售检票系统中,一条客流量达2百万人次的线路,其一天的售票和进、出站交易记录数约达300万条,若以存储1年计算,存储的票务交易记录约11亿条,因此必需设计和实现周期性存储策略,以保证OLTP的效率和系统持续7×24h运行的可靠性实现OLTP周期性的联机存储策略会导致存储周期外的数据信息不能用于联机分析处理01AP,另一方面在OLTP系统中各种计算和存储资源在设计阶段均被量化分析和分配,一般不允许OLAP占用OLTP系统的计算资源,因此本文通过在计算机生产系统中增加Oracle/Linux计算服务器的方法,采用数据仓库技术实现OLAP是一个可行的解决方案。
数据仓库技术可以很好地解决OLTP和OLAP系统在计算资源和存储信息方面的不同应用要求,通过建模(或明确的分析目的)、抽取数据、清洗、转换和加载到数据仓库后,能够支持更有效的挖掘和分析2.3数据仓库应用参考模型在AFC系统中,其构架模式可以分为4层:设备层、车站计算机层、线路中央计算机层和票务清分系统层轨道交通线路的一个车站需根据其预计时间单位内进出站的乘客数配置相关的AFC终端设备,如自动售票机、半自动售票机和进出站检票机等,少则数十台、多则上百台不等因此,一条具有10个站的轨道交通线路AFCS,一般由400至500台AFC终端设备组成每台设备在预设的时间间隔[如Ss)自动采集设备关键部件的状态信息,经车站计算机系统传送给线路中央计算机系统有些状态信息属常规运行维护性信息,如票箱满、钱币箱空等;有些则属于故障性状态信息,如票槽卡、钱币槽卡、读卡无反应、三杆不转等对故障性状态信息需进行分类统计,以便找出不同故障影响终端设备正常工作的作用程度,从而为备品备件和定时维修提供量化依据,是轨道交通AFC运营管理的重点工作之一根据实际情况,本文研究的数据仓库的数据来源为某线路中央主机系统的数据库AfcCooked。
该数据库系统联机存储整个线路AFC设备的所有票务和设备状态信息并支持OLTP及各种运营查询报表2.4粒度设计数据仓库开发需要解决的最重要的一个设计问题是数据仓库中的粒度确定当数据仓库的粒度合理确定后,设计和实现的其他问题就会非常容易地解决,相反如果没有合理地确定粒度的话,就会影响其他每个方面在数据仓库中的数据分为4个级别:早期细节级、当前细节级、轻度综合级和高度综合级源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级数据仓库中存在着不同的综合级别,这就是“粒度”的直观表现粒度模型是数据仓库设计中需要解决的十分重要的问题之一所谓粒度是指数据仓库中数据单元的详细程度和级别数据越详细,粒度就越小,级别也就越低;数据综合度越高,粒度就越大,级别也就越高由于数据仓库的主要作用是决策分析,因而大多数查询都基于一定程度的综合数据之上,而只有少数查询涉及到细节(在AFC数据分析系统中把这类分析应用归纳为通用数据分析应用范畴)因此在数据仓库中,设计多重粒度是必不可少的2.5 基于Linux/Oraclc的ETL数据采集( ETL),即数据抽取(Extract)、转换(Trans-form)、清洗(Cleaning),装载((Loading)的过程,是构建数据仓库的重要环节。
本文基于Linux/Oracle研究与应用的抽取技术的运行环境为Red Hat Linux4.O PC服务器,并安装OraclelOg作为i层计算构架中数据仓库和XML解析执行管理库的宿主系统着重研究基于()racle/LInux运行环境中对宿主系统为Oracle/Unix的大数据量、多表连接和优化的数据抽取技术数据抽取是带有目的的,本文研究的本数据抽取技术针对两类应用目的:①响应前台表示层的统计分析请求;②根据专用统计分析目的定时获取CCS的相关交易数据,经转换、分类统计后加载到数据仓库后台的OLAP和专用统计模块只对数据仓库的存储数据进行挖掘和分析,以避免占用CCS的计算资源用户可以在前台以中文描述展现的数据集市中选取欲分析的表字段和相关的统计方法,经系统自动生成XML格式的请求文件传输给Linux计算服务器Linux计算服务器根据解析XML后的数据源请求,采用两种策略获取欲分析的数据源:①对仅涉及单表或多表间不存在主、外键关联的数据表请求,将以单表方式和请求的限制条件获取相关数据记录;②对同一数据库的多表请求,通过比对Oracle数据字典中关于主、外键索引结构的描述,对隐含的表间关联经增加主、外间字段后自动执行多表数据的获取。
抽取后的数据可以以文本或动态建立数据库表的方式存储,根据请求、数据特征和转换定义等,经清洗、转换和关系运算后形成定义一致的两维数据供统计分析使用或加载到数据仓库2.6数据聚合在数据仓库建立之后,即可利用OLAP复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析之所以称其为探测式数据分析,用户在选择相关维后可以进行上钻、下钻、旋转等操作,可以程不同粒度层次上对数据进行分析得到不同形式的结果联机分析处理是一种软件技术,它使分析人员能够快速、一致、交互地从多种角度观察信息,以达到对数据进行更深入地理解这些信息是从原始数据中转化过来的,它们以用户容易理解的方式反映企业的真实状况2.7前端展现本文研究采用soL Server 2005 Reporting Services作为报表展现工具Reporting Services是一个基于服务器的企业级报表环境,可通过Web services进行管理报表可以用不同的格式发布,并可带多种交互选项和打印选项通过将报表以数据源的形式分发至下游BI,复杂分析可以为更广泛的用户使用参考文献:[1]赵时昊,王绍银,苏厚勤.轨道交通自动售检票系统[M].上海:同济大学出版社,2007.[2] W.H-Inmon. Building The Data Warehouse. John Wiley &.Sons,lnc.2002.[3] 刘翔.数据仓库与数据挖掘技术[M].上海:上海交通大学出版社,2005.[4] Panos Vassiliedi. Data Warehouse Process Management} Information systems 26(2001).[5] W.H.Inmon. Data Warehouse Architecture. http: //www. bil-lirunon.Cona,1999.[6]熊忠阳,张玉芳,吴中福.数据仓库数据加载技术[J].重庆大学学报(自然科学版),2002 (2).[7] 苏厚勤,苏金泉,三层计算构架报表系统的技术实现 [J].扬州职业大学学报,2006(1).(责任编辑:杜能钢) -全文完-。