第9章 电子政务中的数据挖掘技术课件

上传人:我*** 文档编号:141262342 上传时间:2020-08-05 格式:PPT 页数:31 大小:93.50KB
返回 下载 相关 举报
第9章 电子政务中的数据挖掘技术课件_第1页
第1页 / 共31页
第9章 电子政务中的数据挖掘技术课件_第2页
第2页 / 共31页
第9章 电子政务中的数据挖掘技术课件_第3页
第3页 / 共31页
第9章 电子政务中的数据挖掘技术课件_第4页
第4页 / 共31页
第9章 电子政务中的数据挖掘技术课件_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《第9章 电子政务中的数据挖掘技术课件》由会员分享,可在线阅读,更多相关《第9章 电子政务中的数据挖掘技术课件(31页珍藏版)》请在金锄头文库上搜索。

1、第九章 电子政务中的数据挖掘技术,一、数据仓库 二、数据挖掘技术 三、电子政务中的数据挖掘 本章问题,一、数据仓库的概念和特点,数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的建立数据仓库一书中。 (一)数据仓库与传统数据库的区别 1、数据仓库的关键技术 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。 数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,其关键技术表现等三个基本方面。 (

2、1)数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。,返 回 下一页,(2)存储和管理储,数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库

3、的核心,则需要从数据仓库的技术特点着手分析。 (3)数据的表现 数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。 2、传统数据库和数据仓库的区别主要表现为 (1)面向主题 传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、

4、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。,上一页 下一页,(2)与时间相关,数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。 (3)不可修改 数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此

5、,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。 数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 (二)数据仓库的定义和特点 1、定义 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。,上一页 下一页,2、特点,根据数据仓库概念的含义,数据仓库拥有以下四个特点: (1)面向主题。操作型数据库的数据组

6、织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 (2)集成的。面向事务处理的操作型数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 (3)相对稳定的。操作型数据库中的数据通常实时更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,一般有大量的查询

7、操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 (4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据。而数据仓库中的数据通常包含历史信息,系统记录了从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对发展历程和未来趋势做出定量分析和预测。,上一页 下一页,(三)数据仓库的结构,1、数据仓库的基本体系结构 数据仓库的体系结构分为数据获取层、数据存储层、数据挖掘层等多个部分。 (1)数据获取层 数据获取层把决策主题所需要的数据(当前的、历史的),从各种相关的业务数据库或数据文件等外部数据源中抽取出来,进行各种必要的清洗、整合和转换处理,再将这

8、些数据集成存储到仓库中。数据获取层在数据仓库的整体系统应用中占有非常重要的地位。 (2)数据存储层 数据存储层以一定的组织结构存储各种主题数据。数据仓库包括多个主题,一个主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。 (3)数据挖掘层 数据挖掘层集成各种数据挖掘的算法,包含具有很强功能的数据挖掘工具,可以提供灵活有效的任务模型、组织形式,以支持各项决策的数据挖掘任务。数据挖掘是数据仓库应用的关键。,上一页 下一页,2、数据仓库的基本体系结构中的几个基本组成部分,(1)数据源:指为数据仓库提供最底层数据的运作数据库系统及外部

9、数据。 (2)监视器:负责感知数据源发生的变化,并按数据仓库的需求提取数据。 (3)集成器:将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。 (4)数据仓库:存贮已经按企业级视图转换的数据,供分析处理用。 根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。 (5)客户应用:供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。 在实施智能化决策时,一般分两个步骤:第一步实现数据仓库和多维分析,构造智能决策的基础,实现分析应用;第二步实现数据挖掘,再发挥智能化决策的

10、特色。数据挖掘是数据利用价值的再发现,它突破了传统意义上的数据查询,是在更大的尺度上、更深的层次中对数据提高利用的价值,是数据仓库应用的关键。,上一页 下一页,数据仓库的基本体系结构,上一页 下一页,(四)数据仓库的功能,1、数据获取 2、数据储存和管理 3、信息访问 (五)数据仓库建设的重点 数据仓库性能指标评估包括以下几个方面: (1)管理大数据量数据的能力; (2)进行灵活数据存取的能力; (3)根据数据模型重组数据的能力; (4)数据发送和接收能力; (5)周期性成批装载数据的能力; (6)可设定完成时间的作业管理能力。等等。 这些内容,很多都与数据清理、预加工等处理流程有密切关系,因

11、为这些流程是数据仓库“原料”问题的保障。只有进入仓库的原料质量有所保障,仓库才能更好地发挥作用。因此,成功建设数据仓库,一定要特别重视数据抽取、数据冲突以及数据集成等方面的工作。,上一页 下一页,1、重视集成、转换程序开发,数据仓库是一个独立的数据环境,它需要通过抽取过程将数据导入。的过程,包括:数据清理、预加工工作,包括删除对决策应用没有意义的数据段、转换到统一的数据名称、计算统计和衍生数据、给缺值数据赋缺省值以及把不同的数据定义方式统一等内容。 数据清理、预加工所需的集成、转换程序用于从操作性信息系统、数据库中移植数据给数据仓库,还包括数据仓库运行起来之后的定时数据补充。 2、解决数据冲突

12、 要确定可能存在的各种语法和语义上的冲突,在导入数据的时候,要对突数据进行转换。这些冲突可能包括: 格式冲突:同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。 命名冲突:即数据源中数据的某些标识符可能是目的模型中的保留字,这时就需要重新命名。 结构冲突:如果两种数据库系统之间的数据定义模型不同,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。,上一页 下一页,3、引入新的访问控制机制,在进行数据转换后,一方面数据源中所有需要载入的信息都转换到数据仓库中,另一方面这种转换又不能包含冗余的关联信息。需要进一步研究的问题是:如果数据转换的同时进行数据定义

13、模式转换,就可能引起同一数据集合在异构数据库系统中存在多个副本。因此需要引入新的访问控制机制,对于数据仓库提供全局的访问控制、并发机制和安全控制。 4、确定数据抽取周期以及数据总量 数据仓库中的数据,一般不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行。但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性至关重要。在规划数据仓库项目明确企业需求的时候,就要特别注意与业务人员协商好间隔多久抽取一次新数据以及保留多久的历史数据。不同类型的数据,抽取周期也不同。 例如证券登记公司按照法律规定,要保存20年的过户历史数据;西方大型零售业企业的数据仓库里一般保存最新23年来自

14、集团各个商店的原始销售数据和库存数据;世界上从事航空运输业历史最悠久的公司之一澳大利亚QANTAS航空公司建成数据仓库时原始数据量不到100GB,不到五年的时间即扩展到1500GB。因此,企业应该在自身系统性能、可扩张性许可的范畴内抽取数据,切忌“贪大。,上一页 下一页,(六)数据仓库的应用,1、证券 证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等。在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而在获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、

15、习惯等关键信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。 2、银行 如何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。,上一页 下一页,3、税务,通过应用数据仓库技术,对税收部门的内部和外部数

16、据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。 数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行,投入回报率达到115。 4、保险 随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息应用案例上的首要难题。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号