尿布与啤酒与数据挖掘技术fgfl

资源描述

《尿布与啤酒与数据挖掘技术fgfl》由会员分享，可在线阅读，更多相关《尿布与啤酒与数据挖掘技术fgfl（16页珍藏版）》请在金锄头文库上搜索。

1、尿布与与啤酒与数据据挖掘技技术 20077年011月133日 000:552:225 来源：中国传传媒科技技窗体顶端端窗体底端端进入入传媒图图库更多多主持人人图片原标题题:数据据挖掘技技术数据据的含含义很广广，不仅仅指3221、8897这这样一些些数字，还还指aabc、李李明、96/10/11等符号号、字符符、日期期形式的的数据。我我们讨论论的数据据是指存存放在计计算机系系统中的的任何东东西，如如：数数字、字符、声声音、图像、照照片、等等，甚至处理数据的计算机程序本身也作为计算机的数据。随着国民经济和社会信息化的发展，人们在计算机系统中存放的数据量越来越大。我们发现这些数据是人们工作、生活和其

2、他行为的记录，是企业和社会发展的记录，也是人与自然界本身的描述。这就是说在计算机系统中形成了庞大的数据资源。因此，发现这些数据所含的规律也就是发现我们工作、生活和社会发展中的规律，发现人与自然界的规律，就相当于在数据资源中发现金矿。这就是数据资源的开发利用，是非常有价值的工作。而数据挖掘是目前最先进的数据资源开发利用技术。 1、什什么是数数据挖掘掘我们先先来看一一个数据据挖掘的的故事，尿布布与啤酒酒的故故事是关关于数据据挖掘最最经典和和流传最最广的故故事。总部位位于美国国阿肯色色州的世世界著名名商业零零售连锁锁企业沃沃尔玛（WWal Marrt）拥拥有世界界上最大大的数据据仓库系系统。为为

3、了能够够准确了了解顾客客在其门门店的购购买习惯惯，沃尔尔玛利对对其顾客客的购物物行为进进行购物物篮分析析，想知知道顾客客经常一一起购买买的商品品有哪些些。沃尔尔玛数据据仓库里里集中了了其各门门店的详详细原始始交易数数据。在在这些原原始交易易数据的的基础上上，沃尔尔玛利用用NCRR数据挖挖掘工具具对这些些数据进进行分析析和挖掘掘。一个个意外的的发现是是：跟跟尿布一一起购买买最多的的商品竟竟是啤酒酒！这是数数据挖掘掘技术对对历史数数据进行行分析的的结果，反反映数据据内在的的规律。那那么这个个结果符符合现实实情况吗吗？是否否是一个个有用的的知识？是否有有利用价价值？于是，沃沃尔玛派派出市场场调查

4、人人员和分分析师对对这一数数据挖掘掘结果进进行调查查分析。经经过大量量实际调调查和分分析，揭揭示了一一个隐藏藏在尿尿布与啤啤酒背背后的美美国人的的一种行行为模式式：在美美国，一一些年轻轻的父亲亲下班后后经常要要到超市市去买婴婴儿尿布布，而他他们中有有30%400%的人人同时也也为自己己买一些些啤酒。产产生这一一现象的的原因是是：美国国的太太太们常叮叮嘱她们们的丈夫夫下班后后为小孩孩买尿布布，而丈丈夫们在在买尿布布后又随随手带回回了他们们喜欢的的啤酒。既然尿尿布与啤啤酒一起起被购买买的机会会很多，于于是沃尔尔玛就在在其一个个个门店店将尿布布与啤酒酒并排摆摆放在一一起，结结果是尿尿布与啤啤酒的销

5、销售量双双双增长长。按常规规思维，尿尿布与啤啤酒风马马牛不相相及，若若不是借借助数据据挖掘技技术对大大量交易易数据进进行挖掘掘分析，沃沃尔玛是是不可能能发现数数据内在在这一有有价值的的规律的的。那么数数据挖掘掘是什么么样的技技术呢？数据挖挖掘是从从大量数数据中寻寻找其规规律的技技术，主主要有数数据准备备、规律律寻找和和规律表表示三个个步骤。数数据准备备是从各各种数据据源中选选取和集集成用于于数据挖挖掘的数数据；规规律寻找找是用某某种方法法将数据据中的规规律找出出来；规规律表示示是用尽尽可能符符合用户户习惯的的方式（如如可视化化）将找找出的规规律表示示出来。但在具具体实施施数据挖挖掘应用用

6、时，还还要有一一个步骤骤就是结结果评价价。这是是因为数数据算法法寻找出出来的是是数据的的规律，其其中有些些是人们们感兴趣趣的有用用的，还还有一些些可能是是不感兴兴趣的没没有用的的。这就就要对寻寻找出的的规律进进行评估估。例如如：跟跟尿布一一起购买买最多的的商品是是啤酒这样一一条规律律是否有有用呢？这就需需要市场场调查和和评估工工程师根根据实际际情况做做出评估估判断。这这是一个个人工步步骤，还还难以自自动化。数据挖挖掘在自自身发展展的过程程中，吸吸收了数数理统计计、数据据库和人人工智能能中的大大量技术术。数据挖掘掘分为描描述性和和预测性性两类。描描述性数数据挖掘掘提供数数据的一一般规律律；预测

7、测性数据据挖掘产产生关于于数据的的预测。数数据挖掘掘的主要要内容有有: 关联分分析：寻寻找数据据项之间间感兴趣趣的关联联关系。例例如：我我们可以以通过对对交易数数据的分分析可能能得出86%买啤啤酒的的人同时时也买尿布这样样一条啤酒和尿尿布之之间的关关联规则则。演变分分析：描描述时间间序列数数据随时时间变化化的数据据的规律律或趋势势，并对对其建模模。包括括时间序序列趋势势分析、周周期模式式匹配等等。例如如：通过过对交易易数据的的演变分分析，可可能会得得到889%情情况股票票X上涨涨一周左左右后，股股票Y会会上涨这样一一条序列列知识。聚类分分析：根根据最大大化类内内的相似似性、最最小化类类间的

8、相相似性的的原则将将数据对对象聚类类或分组组，所形形成的每每个簇（聚聚类）可可以看作作一个数数据对象象类，用用显式或或隐式的的方法描描述它们们。也就就是我们们常说的的物以类类聚人以以群分。分类分分析：找找出描述述并区分分数据类类的模型型（可以以是显式式或隐式式），以以便能够够使用模模型预测测给定数数据所属属的数据据类。例例如：信信用卡公公司可以以将持卡卡人的信信誉度分分类为：良好、普普通和较较差三类类。分类类分析通通过对这这些数据据类的分分析给出出一个信信誉等级级的显式式模型：信誉誉良好的的持卡人人是年收收入在3300000元到到500000元元之间，年年龄在330至445岁之之间，居居住面

9、积积达900M2 左右的的人。这这样对于于一个新新的持卡卡人，就就可以根根据他的的特征预预测其信信誉度。异常分分析：一一个数据据集中往往往包含含一些特特别的数数据，其其行为和和模式与与一般的的数据不不同，这这些数据据称为异常。对异常数据的的分析称称为异异常分析析。它它在欺诈诈甄别、网网络入侵侵检测等等领域有有着广泛泛的应用用。 2、数数据挖掘掘与数理理统计差差异数理统统计和数数据挖掘掘有着共共同的目目标：发发现数据据中的规规律。并并且，有有许多数数据挖掘掘工作还还用了数数理统计计的算法法或模型型，还有有，一些些市场上上所谓的的数据挖挖掘工具具软件却却是统计计软件或或是从统统计软件件演变过过来

10、的。正正因为如如此，二二者就成成了最混混淆的概概念。我我们认为为二者在在做法上上是有很很大不同同的。手工工与计算机机由于统统计学基基础的建建立在计计算机的的发明之之前，所所以许多多统计学学方法是是可以手手工实现现的。对对于很多多统计学学家来说说，几百百个数据据或几十十个变量量就已经经是很大大的了。但但这个大对对于现在在计算机机中GBB级的交交易记录录或几千千万个客客户信息息来说相相差太远远了。很很明显，面面对这么么多的数数据，设设计原原则上可可以用手手工实现现的统统计方法法和设计计原则则上有计计算机数数据仓库库支持的数据据挖掘方方法是有有很大不不同的,很多统统计模型型和算法法在处理理大数据据

11、量时可可能就会会失去意意义。这这意味这这计算机机对于数数据的分分析和处处理是关关键的，而而手工直直接处理理数据将将变得不不可行。用样样本推断断总体规规律与与直接接找出总总体的规规律用样本本推断总总体规律律是统计计学的核核心方法法之一，而而数据挖挖掘由于于采用了了计算机机技术更更关注对对总体规规律的分分析。当当然，数数据挖掘掘也常常常关注样样本。例如我我们的数数据库中中有某厂厂历年生生产的110000万台电电视机和和对应110000万个客客户的全全部信息息。在这这种情形形下，用用样本构构造某种种模型或或某个估估计值来来推断110000万台电电视机的的使用情情况就没没有价值值了，我我们可以以通

12、过数数据挖掘掘直接找找出总体体的规律律。但在一一些预测测性分析析中，数数据挖掘掘也常常常使用样样本。例例如：对对一个新新产品的的广告宣宣传活动动进行响响应率分分析。对对10000万人人做该广广告，实实际应该该有100万人响响应。但但通过一一个样本本分析发发现：其其中有三三类人群群对该广广告的响响应率较较高。因因此，就就有针对对性地对对高响应应率的1100万万人做了了该广告告，结果果获得了了8万人人的响应应。普遍遍规律与特特定规律律统计学学研究问问题的结结果常常常会得到到一个统统计模型型，而这这个模型型是普遍遍适用的的，而数数据挖掘掘得到的的是某个个数据集集的规律律，常常常不具有有普遍意意义

13、。例例如：掷硬币币出现正正反面的的概率都都是500%。但但在某个个赌场，一一年中每每天掷出出硬币，其其正面出出现的次次数在668%-93%之间，统统计学中中正反反面出现现的概率率是500%的的推断在在这样一一个总体体中就没没有价值值了。模型型和实验由于数数学背景景，统计计学追求求精确，建建立一个个模型并并证明之之，而不不是象数数据挖掘掘那样注注重实验验。这并并不意味味着数据据挖掘工工作者不不注重精精确，而而只是说说明如果果精确的的方法不不能产生生结果的的话就会会被放弃弃。例如如：证券券公司的的一个业业务回归归模型可可能会把把保证金金作为一一个独立立的变量量，因为为一般认认为大的的保证金金会导

14、致致大的业业务，所所以花费费高成本本开设了了大户室室。但事事实上经经过对一一年来的的交易情情况进行行数据挖挖掘却发发现：交交易频度度和赢利利情况才才是最重重要的。说明：虽然有有上述的的差异，很很多时候候我们仍仍然可以以这样说说：将将很多数数理统计计算法或或模型写写成计算算机程序序并能够够用于大大规模数数据分析析就变成成了数据据挖掘技技术。 3、数数据挖掘掘技术研研究首先出出现的术术语是知知识发现现（Knnowlledgge DDisccoveery in Dattabaase，KKDD）而而不是数数据挖掘掘。后来来的相关关学术会会议也大大都以KKDD为为名，个个别使用用数据据挖掘和和知识发发

15、现，但但在数据据库领域域和工业业界一直直使用数据挖挖掘。在在这一节节，我们们分别介介绍数据据挖掘研研究、数数据挖掘掘系统和和数据挖挖掘应用用的发展展状况，并并且在数数据挖掘掘研究介介绍中同同时使用用数据挖挖掘和知知识发现现术语。知识发现现（KDDD）一一词首次次出现在在19889年88月举行行的第111届国国际联合合人工智智能学术术会议上上。随着着KDDD在学术术界和工工业界的的影响越越来越大大，国际际KDDD组委会会于19995年年把专题题讨论会会更名为为国际会会议，在在加拿大大蒙特利利尔市召召开了第第一届KKDD国国际学术术会议，以以后每年年召开一一次。迄迄今为止止，由美美国人工工智能协协会主办办的KDDD国际际研讨会会已经召召开了77次（见见表），规规模由原原来的专专题讨论论会发展展到国际际学术大大会，人人数由二二三十人人到七八八百人，论论文收录录比例从从2X11到6XX1，研

展开阅读全文