数据挖掘在保险中的研究与应用

资源描述

《数据挖掘在保险中的研究与应用》由会员分享，可在线阅读，更多相关《数据挖掘在保险中的研究与应用（70页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘在保险中的研究与应用摘要数据挖掘是一项较新的数据库技术，它基于大量数据所构成的数据库，从中发现潜在的、有价值的信息称为知识，用于支持决策。数据挖掘是一项数据库应用技术，存在广泛的实际应用需求，因此，无论数据挖掘的理论研究，还是数据挖掘的应用实践，都是有意义的。关联规则在数据挖掘中是一个重要的研究领域，已有一些较成功的算法，其主要任务是发现大量数据中项集之间的关联或相关联系。产生频繁集是产生关联规则的第一步。在多数以前的实现中，普遍采用了A p r i o r i 算法来寻找频繁项集。但是，该算法的时间效率有待提局。在巨型数据库中产生频繁项集的代价是很大的。本文提出

2、并且实现了一个改进的关联规则算法:F M F I算法，它利用回溯查询枚举出所有的最大频繁项集。算法利用预测技术来剪切非最大频繁项集和计算存储差集技术快速计算支持度，因此能快速剪切查询空间中不需要的子集，有效提高了原A p r i o r i 算法的时间效率。论文在对数据挖掘在保险业中的应用进行研究分析的基础上，给出了一个数据挖掘系统的设计，并用它对挖掘模型进行了预测。关键字:数据挖掘关联规则最大频繁项集F M F 工算法预测保险Ab s t r a c tTHE RES EARCH AND APP LI CATI ON OFM I NI NG I N I NS URANCEAb

3、s t r a c tD a t a Mi n i n g i s a n e w e r d a t a b a s e t e c h n i q u e w h i c h a i m s a td i s c o v e r i n g p o t e n t i a l a n d v a l u a b l e p a tt e rn t h a t i s c a l l e d a s k n o w l e d g e .T h ek n o w l e d g e d i s c o v e r e d c a n b e u s e d f o r d e c i s i

4、 o n - m a k i n g . D a t a Mi n i n g i sw i d e l y n e e d e d i n p r a c t i c a l f i e l d , t h e r e f o r ; e i t h e r t h e t h e o r i c a l r e s e a r c h o rt h e p r a c t i c e o f D a t a Mi n i n g i s s i g n i f i c a t i v e .Mi n i n g f o r a s s o c i a t i o n r u l e s i

5、 s a n i m p o r t a n t e m b r a n c h m e n t o f D a t aMi n i n g . S o m e s u c c e s s f u l a l g o r i t h m s h a v e b e e n d i s c o v e r e d i n t h i s f i e l d .T h e m a i n s u b j e c t i s t o f i n d i n t e r e s t i n g a s s o c i a t i o n o r c o r r e l a t i o nr e l a

6、 t i o n s h i p s a m o n g a l a r g e s e t o f d a t a i t e m s . F i n d i n g a l l fr e q u e n ti t e m s e t s i s t h e f i r s t s t e p o f a s s o c i a t i o n r u l e m i n i n g . T h e m a i n m e t h o d o fr e a l i z a t i o n u s u a l l y u s e d i s a l g o r i t h m l i k e

7、A p r i o r i t o f i n d f r e q u e n t i t e m s e t s .B u t , e f f i c i e n c y o f t h e A p r i o r i a l g o r i t h m n e e d s t o b e i m p r o v e d .I n s o m e h u g e d a t a b a s e s t h e c o s t o f f i n d i n g a l l fr e q u e n t i t e m s e t s i sv a s t . I n t h i s p a

8、p e r , I a n a l y s e s a n d r e a l i z e s a n i m p r o v e d a s s o c i a t i o n r u l ea l g o r i t h m , t h e a l g o r i t h m F MF I . F MF I i s b a c k t r a c k s e a r c h b a s e da l g o r i t h m f o r m i n i n g m a x i m a l f r e q u e n t i t e m s e t s . I t u s e s a t

9、e c h n i q u eAb s t r a c tc a l l e d p r o g r e s s i v e f o c u s i n g t o p e r f o r m m a x i m a l i t y c h e c k i n g , a n d d i f f s e tp r o p a g a t i o n t o p e r f o r m f a s t f r e q u e n c y c o m p u t a t i o n . S o , I t c a n f a s t p r u n et h e s e a r c h s p a

10、 c e .I n t h i s p a p e r , We d i s c u s s t h e u s e o f d a t a m i n i n g i n I n s u r a n c ee n t e r p r i s e . a n d g i v e a n e x a m p l e h o w t o d e s i g n a d a t ami n i n g s y s t e m,a n du s i n gi t t o p r e d i c t w i t h a m o d e l .K e y w o r d s : D a t a Mi n

11、i n g ; A s s o c i a t i o n R u l e ; Ma x i m a l F r e q u e n t I t e m S e t ;F MF I A l g o r i t h m ; P r e d i c t i o n ; I n s u r a n c eI I I关于学位论文使用授权的说明本人完全了解广西大学有关保留、使用学位论文的规定，即:广西大学拥有在著作权法规定范围内学位论文的使用权，其中包括: ( 1 )己获学位的研究生必须按学校规定提交学位论文，学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文; t 2 ) 为教学和科研

12、目的，学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读，或在校园网上供校内师生浏览部分内容。本人保证遵守上述规定。( 保密的论文在解密后遵守此规定)作者签名袜钟导师签名日期:日期:第一章引言第一章引言1 . 1问题提出一切新技术的产生都是由需求驱动的。比如，股票经纪人需要从日积月累的大量股票行情历史记录中发现其变化规律，以预测未来趋势; 超级市场的经理人员希望能从过去几年的销售记录中分析出顾客的消费习惯和行为，以便及时变换营销策略; 地质学家想通过分析地球资源卫星发回的大量数据和照片来发现有开采价值的矿物资源，等等。由此，希望让计算机智能地分析数据

13、库中的大量数据以获取有用的信息给数据挖掘 ( D a t a M i n i n g . D M) 技术产生和发展提供了强大动力。数据丰富，同时又伴随着对强有力的数据分析工具需求，被描述为“ 数据丰富，信息贫乏” 。快速增长的海量数据被收集、存放在大型和大量数据库中，没有强有力的工具，理解它们已经远远超出了人的能力。结果，在大型数据库中的数据变成了“ 数据坟墓” 难得再访问的数据档案，重要的决定常常不是基于数据库中信息丰富的数据，而是根据决策者的直观。数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识的 “ 金块” 。因而，数据挖掘技术应运而生，并显示

14、出强大的生命力，它己成为一个具有迫切现实需要的很有前途的热点研究课题。其中，挖掘大型事务数据库中的关联规则是数据挖掘研究的重要问题之一。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。该问题自被A g r a w a l 等提出以来，一直受到广泛关注与重视，成了研究的热点。如今，国内一些保险公司正在建设客户关系管理 ( C R M)，C R M崇尚 “ 以客户为中心”的经营管理理

15、念，是一个集计算机管理信息系统、网络技术和数据分析技术为一体的综合研究领域。它通过建立客户数据库和对客户数据库进行深层分析，旨在实现以正确的方式、在正确的时间、向正确的客户提供正确的个性化产品或服务。其中控制风险、维持老客户、发展新客户等都是C R M 研究的重要方面。但由于缺乏对潜在客户特征的全面准确认识，使得许多公司虽然投入了较高成本，但却没能得到较高的客户响应率，没能得到应有的回报。为提高客户响应率， C R M 强调应利用数据挖掘技术，通过对客户数据库中的客户人口和历史消费第一章引言数据的分析，对客户投保情况的分析，准确把握客户的主要特征，并以此作为

16、选择营销对象的重要依据，将有可能得到较高的客户响应率。因此，研究关联规则挖掘技术在保险行业中的应用有实际的意义。1 . 2关联规则现状数据挖掘的发展和挖掘过程以及任务的演变紧密相关，即数据挖掘的发展离不开算法与应用，一方面必须体现数据挖掘过程循环迭代的本质，另一方面必须实现各种复杂的数据挖掘任务，经过多年工作，相关研究与应用己取得了很大的成果。下面从算法与挖掘软件两方面来讨论关联规则挖掘的研究重点和现状。1 . 2 . 1关联规则算法关联规则致力于发现满足支持度/ 可信度要求的关联规则，它分为频繁集发现和规则生成两个步骤。频繁集发现就是从目标数据库中找出所有支持度大于预先给定的最小支持度的项集，它在关联规则发现、相关性发现、事务间关联规则发现等领域起着关键作用。由于频繁集发现是关联规则算法提高性能的瓶颈，所以几乎所有对关联规则算法的研究都致力于在保证精度的基础上提高算法的运行效率，其中精度是指所发现频繁集的满足要求的程度。1 9 9 3 年， A g r a w a l 提出关联规则问题，同时提出第一个频繁集发现算法。此后，在各种问题背景下，

展开阅读全文

数据挖掘在保险中的研究与应用

最新文档