数据挖掘技术及应用(我见过的最全面的理论最佳案例组合)

资源描述

《数据挖掘技术及应用(我见过的最全面的理论最佳案例组合)》由会员分享，可在线阅读，更多相关《数据挖掘技术及应用(我见过的最全面的理论最佳案例组合)（586页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术及应用,最全面理论+最佳实践,目录,理论：南航李静教授实践：广东移动案例,（仅供学习交流，如需引用，请注明以上来源单位，谢谢！）,内容提纲,1. 概述2. 数据仓库与OLAP技术3. 数据挖掘技术4. 数据挖掘在电信领域的应用数据挖掘工具6. 数据挖掘实例,内容提纲,数据挖掘介绍数据挖掘系统数据挖掘算法国际会议和期刊课后研读的论文主要参考资料,数据挖掘介绍,数据挖掘的由来数据挖掘的应用基本概念区分数据挖掘基本内容数据挖掘基本特征数据挖掘的其他主题,数据挖掘的由来,背景网络之后的下一个技术热点数据爆炸但知识贫乏从商业数据到商业信息的进化,背景,人类已进入一

2、个崭新的信息时代数据库中存储的数据量急剧膨胀二十世纪末以来，全球信息量以惊人的速度急剧增长据估计，每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据（信息）。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源，从海量数据中找出隐藏的知识，数据挖掘技术应运而生并显示出强大的生命力。产生了一个新的研究方向：基于数据库的知识发现（Knowledge Discovery in Database），以及相应的数据挖掘（Data Mining）理论和技术的研究,随着大数据库的建

3、立和海量数据的不断涌现，必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富，而信息相当贫乏。” 快速增长的海量数据收集、存放在大型数据库中，没有强有力的工具，理解它们已经远远超出人的能力。因此，有人称之为：“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中，而且分析结果往往带有偏差和错误，再加上耗时、费用高，故不可行。,数据矿山,信息金块,数据挖掘工具,网络之后的下一个技术热点,大量信息在给人们带来方便的同时也带来了一大堆问题：信息过量，难以消化信息真假难以辨识信息安全难以保证信息形式不一致，难以统一处理,数据爆炸但知识贫乏,随着数据库技术

4、的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。,从商业数据到商业信息的进化,KDD的出现,数据挖掘是八十年代投资AI研究项目失败后，AI转入实际应用时提出的。它是一个新兴的，面向商业应用的AI研究。基于数据库的知识发现（KDD）一词首次出现在1989年举行的第十一届AAAI学术会议上。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议（KDD95）。由Kluwers

5、 Publishers出版，1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。,KDD的出现,随后，在1991年、1993年和1994年都举行KDD专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初，数据挖掘是作为KDD中利用算法处理数据的一个步骤，其后逐渐演变成KDD的同义词。,数据挖掘,数据库技术,统计学,高性能计算,人工智能,机器学习,可视化,数据挖掘是多学科的产物,KDD已经成为人工智能研究热点,目前，关于KDD的研究工作已经被众多领域所关注，如过程控制、

6、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具，KDD的研究已经成为数据库及人工智能领域研究的一个热点。,数据挖掘的应用,电信：流失银行：聚类（细分）, 交叉销售百货公司/超市：购物篮分析（关联规则）保险：细分，交叉销售，流失（原因分析）信用卡：欺诈探测，细分电子商务：网站日志分析税务部门：偷漏税行为探测警察机关：犯罪行为分析医学：医疗保健,英国电信需要发布一种新的产品，需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,电信,GUS日用品零售商店需要准确的预测未来的商品销售量，降低库存成本。,通过数据挖掘的方法使库存成本比原

7、来减少了3.8%,零售商店,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作，为纳税人提供更迅捷、更准确的服务,税务局,银行,金融事务需要搜集和处理大量的数据，由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国商业银行是发达国家商业银行的典范，许多地方值得我国学习和借鉴。,数据挖掘在银行领域的应用,美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量；建立利

8、润评测模型；客户关系优化；风险控制等,Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。美国Firstar银行使用数据挖掘工具，根据客户的消费模式预测何时为客户提供何种产品。,汇丰银行需要对不断增长的客户群进行分类，对每种产品找出最有价值的客户。,营销费用减少了30,银行,基本概念区分,数据挖掘与知识发现数据挖掘和数据仓库数据挖掘与信息处理数据挖掘与联机分析数据挖掘与人工智能、统计学,数据挖掘和知识发现,数据挖掘（Data Mining）从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和

9、知识的过程。与之相似的概念称为知识发现。知识发现（Knowledge Discovery in Databases）是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。,数据挖掘和数据仓库,大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要再清理一次了，而且所有的数据不一致的问题都已经解决了。,数据挖掘库可能是数据仓库的一个逻辑上的子集，而不一定非得是物

10、理上单独的数据库。但如果数据仓库的计算资源已经很紧张，那么最好还是建立一个单独的数据挖掘库。当然为了数据挖掘也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在它上面进行数据挖掘。,数据挖掘与信息处理,信息处理信息处理基于查询，可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库

11、中的规律。,数据挖掘与联机分析,OLAP分析过程在本质上是一个演绎推理的过程，是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么（what happened），OLAP则更进一步告诉你下一步会怎么样（What next）和如果采取这样的措施又会怎么样（What if）。用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘在本质上是一个归纳推理的过程，与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前，OLAP工具能起辅助决

12、策作用。而且在知识发现的早期阶段，OLAP工具用来探索数据，找到哪些是对一个问题比较重要的变量，发现异常数据和互相影响的变量。这都有助于更好地理解数据，加快知识发现的过程。,数据挖掘与人工智能、统计学,数据挖掘利用了人工智能和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反，它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在

13、知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，它们几乎不需人工干预就能自动完成许多有价值的功能。数据挖掘就是充分利用了统计学和人工智能技术的应用程序，并把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。,数据挖掘与统计学,数据挖掘分析海量数据许多数据库都不适合统计学分析需要,数据挖掘基本内容,数据挖掘的定义数据挖掘的数据来源数据挖掘的过程数据挖掘的功能数据挖掘的过程模型数据挖掘的分类数据挖掘的主要问题,数据挖掘的定义,数据挖掘是从大量数据中提取或“挖掘”知识。与数据挖掘类似但稍有不同含

14、义的术语有：从数据库中发现知识（Knowledge Discovery from/in Database, KDD）知识提取（Knowledge extract）数据 /模式分析（Data / Model analysis ）。数据考古数据捕捞技术上的定义商业角度的定义,技术上的定义,数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,商业角度的定义,数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，

15、从中提取辅助商业决策的关键性数据。,数据挖掘的定义（续）,人们给数据挖掘下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现（KDD）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。,数据挖掘的数据来源,关系数据库数据仓库事务数据库,高级数据库系统和高级数据库应用,面向对象数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库 WWW,数据挖掘过程,数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，数据挖掘过程主要由三个部分组

16、成，即数据整理、数据挖掘和结果的解释评估。,（1）定义商业问题要想充分发挥数据挖掘的价值，必须要对目标有一个清晰明确的定义，即决定到底想干什么。否则，很难得到正确的结果。（2）建立数据挖掘库数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一般来说，直接在公司的数据仓库上进行数据挖掘是不合适的，最好建立一个独立的数据集。建立数据挖掘库可分成如下几个部分： a) 数据收集 b) 数据描述 c) 选择,d) 数据质量评估和数据清理 e) 合并与整合 f) 构建元数据 g) 加载数据挖掘库 h) 维护数据挖掘库（3）分析数据数据分析的目的：是找到对预测输出影响最大的数据

17、字段，并决定是否需要定义导出字段。（4）准备数据这是建立模型之前的最后一步数据准备工作。可分成4个部分： a)选择变量; b)选择记录; c)创建新变量; d) 转换变量。,（5）建立模型对建立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。为了保证得到的模型具有较好的精确度和健壮性，需要一个定义完善的“训练验证”协议。有时也称此协议为带指导的学习。验证方法主要分为：a)简单验证法b)交叉验证法：首先把原始数据随机平分成两份，然后用一部分做训练集另一部分做测试集计算错误率，做完之后把两部分数据交换再计算一次，得到另一个错误率，最后再用所有的数据建立一个模型，把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的错误率。 c)自举法：是另一种评估模型错误率的技术。在数据量很小时尤其适用。与交叉验证一样模型是用所有的数据建立。,

展开阅读全文