马鞍山中行数据挖掘的设计与实现

上传人:li45****605 文档编号:46407255 上传时间:2018-06-26 格式:PDF 页数:57 大小:1.69MB
返回 下载 相关 举报
马鞍山中行数据挖掘的设计与实现_第1页
第1页 / 共57页
马鞍山中行数据挖掘的设计与实现_第2页
第2页 / 共57页
马鞍山中行数据挖掘的设计与实现_第3页
第3页 / 共57页
马鞍山中行数据挖掘的设计与实现_第4页
第4页 / 共57页
马鞍山中行数据挖掘的设计与实现_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《马鞍山中行数据挖掘的设计与实现》由会员分享,可在线阅读,更多相关《马鞍山中行数据挖掘的设计与实现(57页珍藏版)》请在金锄头文库上搜索。

1、摘要数据花掘是从大童的数据中提取隐含的、事先未知的、 并且潜在有用知识的技术, 是当 前数据库和人工智能研究领城的热.P 之一。 中国 银行马鞍山分行数据抢掘模块使用了 基于O L A P的数据挖掘技术,运用决策树分析、关联分析、聚集分析和预浏分析等数据抢掘方法,从海童的网上银行交易数据中发掘有价值的知识, 并运用到中国银行马鞍山分行业务开发和市场拓展中。本文的工作主要包括: 数据仓库及数据抢掘技术在银行客户关系管理及市场营钻方面的运用; 中国银行马鞍山分行数据仓库的设计构架; 中国银行马鞍山分行数据挖掘模块实现技术, 其中又包 括数据预处理, O L A P 数据岸的建立, 基于。 L A

2、P的交易特征抢掘( 徽软朵合) ,基于关系数据库的交易特征挖掘 ( 橄软决策树) ,关联交易分析、线性回归交易趋势预浏等算法的设计思想与具体实现。在数据抢掘模块的帮助下取得了以下成果: 储蓄客户和公司客户交易的特性、高度相关的关联交易、交易发展趋势的预测模型。 这些重要知识为中国银行马鞍山分行的客户分析、 潜在客户发现、 市场拓展和战略决策提供了 有重要的信息,并带来了巨大的经济效益。关键字数据仓库;数据抢掘;联机分析处理;决策树;聚集Ab s t r a c tD a t a M i n i n g i s a h o t s p o t i n t h e s t u d y o f D

3、a t a b a s e a n d A r t if ic ia l I n t e ll ig e n c e w h ic h a b s t r a c t s in t e r e s t in g ( n o n - t r iv ia l , im p l ic it , p r e v io u s ly u n k n o w n a n d p o t e n t ia l ly u s e f u l) in f o r m a t io n o r p a t t e r n s f r o m d a t a i n l a r g e d a t a b a s

4、e s . D a t a M i n i n g M o d u l e u s e d i n M a a n s h a n B r a n c h B a n k o f C h i n a i s b a s e d o n O L A P t e c h n o l o g y . It u s e s C h a r a c t e r iz a t i o n , C o mp a r i s o n , A s s o c i a t i o n , C l u s t e r a n d P r e d i c t i o n t o f i n d t h e i n t

5、 e r e s t i n g k n o w l e d g e f r o m a g r e a t a mo u n t o f t r a n s a c t i o n d a t a o f Ma a n s h a n B r a n c h .T h i s t h e s is i n c l u d e s t h e f o l lo w i n g c o n t e n t s t h e a p p l i c a t i o n o f D a t a M i n i n g o n C R M a n d M a r k e t in g i n b a n

6、 k s , t h e d e s i g n a n d c o n s t r u c t i o n o f D a t a Wa r e h o u s e o f B a n k o f C h i n a Ma a n s h a n B r a n c h , t h e imp l e me n t io n o f t h e mo d u l e , s u c h a s t h e d a t a c le a n i n g , c h a r a c t e r iz a t io n b a s e d o n O L A P ( M ic r o s o f

7、t C lu s t e r i n g ) , c h a r a c t e r iz a t i o n b a s e d o n R e l a t i o n d a t a b a s e ( M ic r o s o f t D e c i s i o n T r e e ) , c u s t o m e r c lu s t e r a n d t r a n s a c t io n d e v e lo p in g p r e d ic t io ne t c.B y me n t h e s o f t h is D a t a M i n i n g mo d u

8、 l e , u s e r s c a n f i n d lo t s o f i n t e r e s t i n g k n o w l e d g e f r o m t h e d a t a b a s e , f o r e x a mp l e , t h e c h a r a c t e r iz a t i o n o f s a v i n g a n d le n d i n g t r a n s a c t i o n s , t ig h t ly a s s o c i a t e d t r a n s a c t i o n s , t h e s t

9、 a n d a r d o f c l a s s in g c u s t o me r a n d t h e p a t t e r n o f p r e d ic t in g t r a n s a c t io n d e v e l o p me n t e t c . T h a t k n o w l e d g e p l a y s a n i mp o r t a n t r o l e i n ma r k e t d e v e lo p i n g a n d b u s in e s s e x p a n d i n g o n t h e d a t a

10、 b a s e . It w i l l b r i n g t h e b a n k mo r e p r o f it .KEYWORDSDa t a Wa r e h o u s e ; d a t ami nin g ;o l a p; D e c i s i o n T r e e ; C l u s t e r i n g1 、序言1 . 1 数据仓库的定义和特点目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家WH .I n m o n 在其著作 B u i l d i n g t h e D a t a W a r e h o u s e 一 书中 给予如下描述:

11、数 据仓库( D a t a W a r e h o u s e ) 是 一个面向 主题的( S u b j e c t O r i e n t e d ) 、 集成的( I n t e g r a t e ) ,相对稳定的 ( N o n - V o l a t i l e ) 、 反映历史变化 ( T i m e V a r i a n t )的数据集合, 用于支持管理决策。 对于数据仓库的概念我们可以从两个层次予以理解, 首先, 数据仓库用于支持决策, 面向分析型数据处理, 它不同于企业现有的操作型数据库: 其次, 数据仓库是对多个异构的数据源有效集成, 集成后按照主题进行了重组, 并包

12、含历史数据, 而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的 含义, 数据仓库拥有以 下四个特点:1 、 面向 主题。 操作型数据库的 数据组织面向 事务处理任务, 各个业务系统之间各自 分离, 而数据仓库中的数据是按照一定的主题域进行组织。 主题是一个抽象的概念, 是指用户使用数据仓库进行决策时所关心的重点方面, 一个主题通常与多个操作型信息系统相关。2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立, 并且往往是异构的。 而数据仓库中的数据是在对原有分散的数据库数据抽取、 清理的基础上经过系统加工、 汇总和整理得到的, 必须消除源数据中的不一致

13、性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供企业决策分析之用, 所涉及的数据操作主要是数据查询, 一旦某个数据进入数据仓库以 后, 一般情况下将被长期保留, 也就是数据仓库中一般有大量的查询操作, 但修改和删除 操作很少, 通常只需要定期的加载、刷新。4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数 据仓库中的 数据 通常包 含历史 信息,系 统记 录了 企业从过去 某一时 点 ( 如开 始应用数据仓库的时点 ) 到目 前的各个阶段的 信息, 通过这些信息,可

14、以 对企业的发展历程和未来趋势做出定量分析和预测。1 . 2 数据挖掘的定义与发展历程数据挖掘 ( D a t a M i n in g ) 技术的定义就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中, 提取隐含在其中的、 人们事先不知道的、 但又是潜在有用的信息和知识的过程。 与数据挖掘相近的同义词有数据融合、 数据分析和决策支持等。 这个定义包括好几层含义: 数据源必须是真实的、 大量的、 含噪声的;发现的是用户感兴趣的知识:发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆 准的知识,仅支持特定的发现问题数据挖掘其商业上的定义是一种新的商业信息处理技术, 其主要特

15、点是对商业数据库中的大量业务数据进行抽取、 转换、 分析和其他模型化处理, 从中提取辅助商业决策的关键性数据。早在数据挖掘出现之前, 它所完成的功能就被人们认识到。 随着计算机在事务处理工作上的运用, 尤其是数据库系统的普及, 人们在近几十年间收集和保存的数据比人类文明几千年以 来积累的数据总和还要多。 数据的丰富带来了对强有力的数据分析工具的需求, 大量的数据使得人们处在 “ 数据丰富,但信息贫乏”z 1 的窘境。 为了 满足此类需求, 某些数据库系统增加了 数据汇总和分析工具, 但是这些工具和方法的功能有限, 对于异构和分布式的数据库, 数据往往存在有重复和不一致的清 况, 更不具有智能数

16、据清洗的功能, 另外其致命的弱点就是所有的汇总分析工作都是人们事先设计好的, 其结果都是预料中的, 缺乏智能的知识发现功能。 同样人工智能专家也提出了 他们的解决方法专家系统, 它能从现有知识中发现新的未知知识, 但这种系统依赖用户人工地将知识输入知识库。 不幸的是, 这一过程常常有偏差和错误, 并且耗时、 费用高。由 此数据挖掘结合了数据库系统的海量处理能力和人工智能的知识发现和表示功能应运而生。数据挖掘诞生至今已 有十几年的历史了。 K D D一词首次出 现在1 9 8 9 年8月举行的第 1 1 届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的K D D国际研讨会己 经召开了7 次, 规模由原来的专题讨论会发展到国际学术大会, 人数由二三十人到七八百人, 研究重点也逐渐从发现方法转向 系统应用,并且注重多种发现策略和技术的集成,以 及多种学科之间的相互渗透。其他内 容的专题会议也把数据挖掘和知识发现列为议题之一, 数据挖掘成为当前计算机科学界的一大热点。1 . 3 数据挖掘与数据仓库的关系大部分情况下, 数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号