信息管理专题——数据挖掘

资源描述

《信息管理专题——数据挖掘》由会员分享，可在线阅读，更多相关《信息管理专题——数据挖掘（41页珍藏版）》请在金锄头文库上搜索。

1、信息管理专题数据挖掘 (Data Mining)1啤酒与尿布问题美国加州某个超级连锁店通过数据挖掘发现：该超市啤酒与尿布的销售量成正相关关系。后来发现，在下班后，来购买婴儿尿片的多数是男性，他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架，把啤酒与尿布放置在邻近的货架上，并且在两者之间放上土豆片之类的佐酒小吃，这样一来，上述几种商品的销量几乎马上成倍上涨。2信息管理专题数据挖掘n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘3数据丰富与知识匮乏据粗略估计，20世纪80年代，全球信息量每隔20个月就要增加一倍。而进入90年代，全球所拥有的数

2、据库及其所存储的数据规模增长更快。据估计，1993年全球数据存储容量为2000TB，2000年增加到300 万TB。但是目前一个大型企业数据库中的数据，约只有7%得到很好的应用。4数据库数据库数据仓库特定数据集清洗与集成选择与转换数据挖掘评估与表示模式知识数据清洗是指消除数据噪音将多个数据源中的相关数据组合到一起数据挖掘模式有用性、确定性、简洁性、新颖性将数据转换成易于进行数据挖掘的描述形式利用智能方式挖掘智能模式或规律知识处理数据预模式评估规则挖掘5数据仓库数据仓库是用以支持企业和组织的决策分析处理、面向主题、集成的、不可更新、随时间变化的数据集合6

3、数据泛化将数据抽象到更高的层次概念来取代低层次的数据。如：某个客户的地址（安徽省合肥市桐城南路375号），这样的数据可以泛化到“安徽省”。如年龄属性，可以映射到青年、中年、老年。7数据挖掘功能1、概念描述：定性与对比 2、关联分析 3、分类分析 4、聚类分析 5、异类分析 6、演化分析对所分析数据进行概要总结对两类所分析数据的特点进行对比并对对比结果给出概要性总结从给定的数据集中发现频繁出现的关联规则找出一组能够描述数据集合典型特性的模型，以便能够识别未知数据的归属聚类基本思路：“各聚集（clusters）内部数据之间的相似程度最大化，各聚集对象间相似程度最小化”。聚

4、类与分类的不同之处在于，后者所学习获取分类模型所使用的数据是已知类别归属，属于有教师监督学习，而聚类所分析处理的数据无归属类别不符合大多数数据对象所构成的规律的数据对象称为异类。在一些场合，如商业欺诈行为的自动检测，小概率发生的事件往往比经常发生的事件更具价值对随时间变化的数据对象的变化规律和趋势进行建模描述8概要描述示例【示例1 】一个数据挖掘系统需要从我校职工数据库中，挖掘出我校讲师情况的概要总结，并给出我校讲师概念描述: “62%（age24)”9概要描述示例【示例2 】一个数据挖掘系统需要从我校职工数据库中，针对我校副教授情况（对比数据集），对我校讲师情况（

5、目标数据集）进行对比概要总结，并给出我校讲师对比概念描述： “讲师：78%（papers=3）and (teaching course=2)”10关联分析【示例3 】一个数据挖掘系统可以从一个商场的销售记录数据中，挖掘出如下所示的关联规则： buy(X，”computer”) =buy (X， ”software”)支持度=1%,信任度=60%11支持度和信任度有用性确定性12分类分析 -第一步：学习建模姓名年龄收入信用评估汪明40高？王敏30低？李勇30 40高？测试数据分类规则新数据：李勇， 30 40，收入高，信用评估如何？良14异类分析【示例4 】异类分析可以用于从大量

6、商品购买记录中，依据各账户平常所发生的购买行为，发现正在进行信用卡诈骗的购买行为（异类行为）。例如：可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为（异类数据）15演化分析【示例5 】利用演化分析方法可对股市主要股票交易数据（时序数据，time series data）进行分析，以便获得整个股票市场的股票演化规律，以及一个特定股票的变化规律16信息管理专题数据挖掘 (Data Mining)n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘17聚类分析 - 均值（-means ）算法聚类基本思想：将数据集划分成若干组，并使得同一个组内的数据对

7、象具有较高的相似度，而不同组中的数据对象则不相似。相似不相似通常利用各对象间的距离来描述。聚类分析是人类活动中的一个重要内容，早在儿童时期，一个人就是通过不断完善潜意识中的分类模式，来学会识别不同的物体，如猫跟狗；动物和植物等。在商业方面，聚类分析可以帮助市场人员发现客户群众所存在的不同组群。18聚类分析 -距离表示19聚类分析 - 均值（-means ）算法-means算法思想：首先从n个数据对象中任选个对象作为初始聚类中心，而对所剩下的对象，则根据它们与这些聚类中心的距离，分别将它们分配给与其最相似的聚类；然后再计算每个新聚类的聚类中心（该聚类对象中所有对象的均值），

8、不断循环直到标准测度函数开始收敛为止。20聚类分析 - 均值（-means ）算法+21信息管理专题数据挖掘 (Data Mining)n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘22关联挖掘【示例6 】挖掘常在一起被购买的商品（关联知识）将帮助商家制定有针对性的市场营销策略。比如：顾客在购买牛奶时，是否也可能同时购买面包，显然能够回答这些问题将会帮助商家进行合适的货架商品摆放。牛奶果酱面包糖鸡蛋面包黄油牛奶牛奶鸡蛋面包糖顾客1顾客2顾客3顾客n23关联挖掘 -相关概念项集：一个数据项的集合，如面包、黄油、牛奶项集：一个包含个数据项的项集。如集合电脑，

9、金融软件就是一个2项集频繁项集：若一个项集出现频度大于最小支持阈值(threshold)（最小支持度）乘以交易记录集中的记录数24关联挖掘 -相关概念Apriori性质：1)一个频繁项集中任一子集也是频繁项集2)如果一个集合不是频繁项集，则其所有超集也不可能是频繁项集25关联挖掘 -步骤I.发现所有的频繁项集II.根据所获得的频繁项集，产生强关联规则，这些规则必须满足最小信任度阈值26单维布尔关联规则挖掘 -Apriori算法【示例7 】基于数据和Apriori算法进行数据挖掘。Tid交易记录中各商品列表T1G1、G2、G5T2G2、G4T3G2、G3T4G1、G2、G4T5G1、

10、G3T6G2、G3T7G1、G3T8G1、G2、G3、G5T9G1、G2、G3交易数据库27单维布尔关联规则挖掘 -Apriori算法假设最小支持度为22% ,则最小支持频度为22%*9=2第一步：项集支持频度G16G27G36G42G52项集支持频度G16G27G36G42G52候选1-项集C1频繁1-项集L1扫描数据库与最小支持度相比获得频繁项集28单维布尔关联规则挖掘 -Apriori算法第二步：连接步骤29单维布尔关联规则挖掘 -Apriori算法第二步：频繁项集L2产生项集支持频度G1、G24G1、G34G1、G41G1、G52G2、G34G2、G42G2、G52G3、

11、G40G3、G51G4、G50频繁2-项集L2根据频繁项集 L1产生C2与最小支持度相比获得频繁项集项集支持频度G1、G24G1、G34G1、G52G2、G34G2、G42G2、G5230单维布尔关联规则挖掘 -Apriori算法第三步：连接步骤31单维布尔关联规则挖掘 -Apriori算法第三步：频繁项集L3产生项集支持频度G1、G2、 G32G1、G2、 G52频繁3-项集L3根据频繁项集 L2产生C3与最小支持度相比获得频繁项集项集支持频度G1、G2、 G32G1、G2、 G52候选3-项集C332单维布尔关联规则挖掘 -Apriori算法第四步：连接步骤33单维布

12、尔关联规则挖掘 -Apriori算法第四步：频繁项集L4产生项集支持频度0频繁4-项集L4根据频繁项集 L3产生C4与最小支持度相比获得频繁项集项集支持频度0候选4-项集C434单维布尔关联规则挖掘 -Apriori算法挖掘结果：G1、G2、G3支持频度为2 ，满足最小支持度阈值，是频繁项集； G1、G2、G5支持频度为2；满足最小支持度阈值，是频繁项集。信任度如何计算？（课后作业）35信息管理专题数据挖掘 (Data Mining)n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘36互联网数据挖掘 -挖掘难度互联网过大而无法有效的构造数据仓库和进行数据挖掘网页的复杂性要

13、远远大于任何传统的文本文档互联网是一个高度动态的信息源互联网所服务用户群体的多样性互联网上的信息只有一小部分是真正有用或相关的37互联网数据挖掘- Google搜索引擎功能模块自动搜索web网页模块:网页分析索引模块：网页检索查询模块：根据用户具体检索要求，以及所建立的网页索引，从网页数据库中快速检索出满足用户查询要求的所有网页将网页数据库中的网页用相应的特征向量来描述，然后建立索引文件，以便能从网页数据库中快速检索出网页该模块根据一定的网页搜索策略和规划，调度运行网页自动搜索软件（crawler ），以便能够快速有效的搜集大量的不重复的网页，并将它们存储到搜索引擎的网页

14、数据库中。38Google搜索引擎功能模块 -常用搜索策略根据所提供的种子“URL”开始搜索，并从所搜索出的网页中抽取下一步搜索所需要的URLs，不断重复“搜索-抽取”这一过程以完成整个网页库的搜索工作根据各网站受欢迎程度，规划一组URLs，然后不断重复“搜索-抽取”过程以完成访问频率高的网页集的搜索工作根据网址名称或国家编码，将WEB空间化分成若干块，并将其分配给若干ROBOTS，使其在各自的空间完成穷尽搜索工作39互联网数据挖掘 -搜索引擎评价网页覆盖率网页检索速度网页检索质量网页更新率40思考题假设你有一个万能的数据挖掘工具，你最希望用它来解决一个什么问题？说出你的理由？41

展开阅读全文