202X年数据挖掘的模型及计算方式

资源描述

《202X年数据挖掘的模型及计算方式》由会员分享，可在线阅读，更多相关《202X年数据挖掘的模型及计算方式（125页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘导论相关的参考文献1 M. Berry and G. Linoff, Data Mining Techniques, John Wiley, 19972 William S. Cleveland, The Elements of Graphing Data, revised, Hobart Press, 19943 Howard Wainer, Visual Revelations, Copernicus, 19974 R.Kennedy, Lee, Reed, and Van Roy, Solving Pattern Recognition Problem , Prentice-Ha

2、ll, 19985 U. Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Advances in KnowledgeDiscovery and Data Mining, MIT Press, 19966 Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, 19997 C. Westphal and T. Blaxton, Data Mining Solutions, John Wiley, 19988 Vasant Dhar and Roger Stein, Seve

3、n Methods for Transforming Corporate Data intoBusiness Intelligence, Prentice Hall 19979 Brieman, Freidman, Olshen, and Stone, Classification and Regression Trees,Wadsworth, 198410 J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1992目录介绍什么是数据挖掘数据挖掘：不能干什么数据挖掘和数据仓库数据挖掘和在线分析处理（OLAP

4、）数据挖掘，机器学习和统计软硬件发展对数据挖掘的影响数据挖掘应用成功的数据挖掘描述型数据挖掘统计和可视化聚集（分群）关联分析预言型数据挖掘你需要选择的一些术语分类（Classification）回归（Regression）时间序列（Time series）数据挖掘模型和算法神经网络（Neural networks）决策树（Decision trees）数据挖掘过程介绍什么是数据挖掘当今数据库的容量已经达到上万亿的水平（T）- 1,000,000,000,000个字节。在这些大量数据的背后隐藏了很多具有决策意义的信息，那么怎么得到这些“知识”呢？也就是怎样通过一颗颗的树木了解到整个森林的情况？计

5、算机科学对这个问题给出的最新回答就是：数据挖掘，在“数据矿山”中找到蕴藏的“知识金块”，帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略（把产品推广给最需要他们的人），以用最小的花费得到最好的销售。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。数据挖掘的第一步是描述数据 - 计算统计变量（比如平均值、均方差等），再用图表或图片直观的表示出来，进而可以看出一些变量之间的相关性（比如有一些值经常

6、同时出现）。选择正确的数据源对整个数据挖掘项目的成败至关重要，在后面数据挖掘的步骤中我们会着重强调这一点。单单是数据描述并不能为人们制订行动计划提供足够的依据，你必须用你的这些历史数据建立一个预言模型，然后再用另外一些数据对这个模型进行测试。一个好的模型没必要与数据库中的数据100%的相符（城市交通图也不是完全的实际交通线路的等比缩小），但他在你做决策时是一个很好的指南和依据。最后一步是验证你的模型。比如你用所有对你的产品推广计划做出回应的人的数据库做了一个模型，来预测什么样的人会对你的产品感兴趣。你能在得到这个模型后就直接利用这个模型做出决策或采取行动吗？还是更稳妥一点先对一小部分客户做一个

7、实际的测试，然后再决定？数据挖掘：不能干什么数据挖掘是一个工具，而不是有魔力的权杖。它不会坐在你的数据库上一直监视着数据库，然后当他发现有意义的模型时给你发一封电子邮件。他仍然需要了解你的业务，理解你的数据，弄清分析方法。数据挖掘只是帮助商业人士更深入、更容易的分析数据 - 他无法告诉你某个模型对你的企业的实际价值。而且数据挖掘中得到的模型必须要在现实生活中进行验证。注意数据挖掘中得到的预言模型并不会告诉你一个人为什么会做一件事、采取某个行动，他只会告诉你他会这样做，为什么要人去考虑。比如，数据挖掘可能会告诉你，如果这个人是男的、年收入在5万到6万之间，那么他可能会买你的商品/服务。你可能会利

8、用这条规则，集中向这类人推销你的商品而从中获益，但是数据挖掘工具不会告诉你他们为什么会买你的东西，也不能保证所有符合这条规则的人都会买。为了保证数据挖掘结果的价值，你自己必须了解你的数据，这一点至关重要。输入数据库中的异常数据、不相关的字段或互相冲突的字段（比如年龄和生日不一致）、数据的编码方式等都会对数据挖掘输出结果的质量产生影响。虽然一些算法自身会对上面提到的这些问题做一些考虑，但让算法自己做所有这些决定是不明智的。数据挖掘不会在缺乏指导的情况下自动的发现模型。你不能这样对数据挖掘工具说，“帮我提高直接邮件推销的响应率”，你应该让数据挖掘工具找(1)对你的推销回应的人，或(2)即回应又做了

9、大量订单的人的特征。在数据挖掘中寻找这两种模型是很不相同的。虽然数据挖掘工具使你不必再掌握艰深的统计分析技术，但你仍然需要知道你所选用的数据挖掘工具是如何工作的，他所采用的算法的原理是什么。你所选用的技术和优化方法会对你的模型的准确度和生成速度产生很大影响。数据挖掘永远不会替代有经验的商业分析师或管理人员所起的作用，他只是提供一个强大的工具。每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型，这些模型可能是管理人员花了很长时间，作了很多调查，甚至是经过很多失误之后得来的。数据挖掘工具要做的就是使这些模型得到的更容易，更方便，而且有根据。数据挖掘和数据仓库大部分情况下，数据挖掘都

10、要先把数据从数据仓库中拿到数据挖掘库或数据集市中（见图1）。从数据仓库中直接得到进行数据挖掘的数据有许多好处。就如我们后面会讲到的，数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要在清理一次了，而且所有的数据不一致的问题都已经被你解决了。数据源数据仓库各分公司数据集市分析数据集市数据挖掘数据集市图1：数据挖掘库从数据仓库中得出数据挖掘库可能是你的数据仓库的一个逻辑上的子集，而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张，那你最好还是建立一个单独的数据挖掘库。当然为了数据挖掘你也不必非得建立一个数据仓库，数

11、据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。数据源数据挖掘库图2：数据挖掘库从事务数据库中得出数据挖掘和在线分析处理（OLAP）一个经常问的问题是，数据挖掘和OLAP到底有何不同。下面将会解释，他们是完全不同的工具，基于的技术也大相径庭。OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么（what happen

12、ed），OLAP则更进一步告诉你下一步会怎么样（What next）、和如果我采取这样的措施又会怎么样（What if）。用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。比如，一个分析师想找到什么原因导致了贷款拖欠，他可能先做一个初始的假定，认为低收入的人信用度也低，然后用OLAP来验证他这个假设。如果这个假设没有被证实，他可能去察看那些高负债的账户，如果还不行，他也许要把收入和负债一起考虑，一直进行下去，直到找到他想要的结果或放弃。也就是说，OLAP分析师是建立一系列的假设，然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理

13、的过程。但是如果分析的变量达到几十或上百个，那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。数据挖掘与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比如，一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素，甚至还可能发现一些分析师从来没有想过或试过的其他因素，比如年龄。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前，你也许要验证一下如果采取这样的行动会给公司带来什么样的影响，那么OLAP工具能回答你的这些

14、问题。而且在知识发现的早期阶段，OLAP工具还有其他一些用途。可以帮你探索数据，找到哪些是对一个问题比较重要的变量，发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据，加快知识发现的过程。数据挖掘，机器学习和统计数据挖掘利用了人工智能（AI）和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反，他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功

15、能。一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，他们几乎不用人的关照自动就能完成许多有价值的功能。数据挖掘就是利用了统计和人工智能技术的应用程序，他把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。软硬件发展对数据挖掘的影响使数据挖掘这件事情成为可能的关键一点是计算机性能价格比的巨大进步。在过去的几年里磁盘存储器的价格几乎降低了99%，这在很大程度上改变了企业界对数据收集和存储的态度。如果每兆的价格是￥10，那存放1TB的价格是￥10,000,000，但当每兆的价格降为1毛钱时，存储同样的数据只有￥100,000！计算机计算能力价格的降低同样非常显著。每一代芯片的诞生都会把CPU的计算能力提高一大步。内存RAM也同样降价迅速，几年之内每兆内存的价格由几百块钱降到现在只要几块钱。通常PC都有64M内存，工作站达到了256M，拥有上G内存的服务器已经不是什么新鲜事了。在单个CPU计算能力大幅提升的同时，基于多个CPU的并行系统也取得了很大的进步。目前几乎所有的服务器都支持多个CPU，这些SMP服务器簇甚至能让成百上千个CPU同时

展开阅读全文

202X年数据挖掘的模型及计算方式

最新文档