信息管理专题——数据挖掘

上传人:第*** 文档编号:48806984 上传时间:2018-07-20 格式:PPT 页数:41 大小:411KB
返回 下载 相关 举报
信息管理专题——数据挖掘_第1页
第1页 / 共41页
信息管理专题——数据挖掘_第2页
第2页 / 共41页
信息管理专题——数据挖掘_第3页
第3页 / 共41页
信息管理专题——数据挖掘_第4页
第4页 / 共41页
信息管理专题——数据挖掘_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《信息管理专题——数据挖掘》由会员分享,可在线阅读,更多相关《信息管理专题——数据挖掘(41页珍藏版)》请在金锄头文库上搜索。

1、信息管理专题数据挖掘 (Data Mining)1啤酒 与尿布 问题美国加州某个超级连锁店通过数据挖掘发 现:该超市啤酒与尿布的销售量成正相关 关系。后来发现,在下班后,来购买婴儿 尿片的多数是男性,他们在购买婴儿尿片 的同时往往也购买啤酒。于是连锁店经理 当机立断重新布置货架,把啤酒与尿布放 置在邻近的货架上,并且在两者之间放上 土豆片之类的佐酒小吃,这样一来,上述 几种商品的销量几乎马上成倍上涨。2信息管理专题数据挖掘n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘3数据丰富与知识匮乏据粗略估计,20世纪80年代,全球信息量 每隔20个月就要增加一倍。而进入90年代 ,全球所拥有的数

2、据库及其所存储的数据 规模增长更快。据估计,1993年全球数据 存储容量为2000TB,2000年增加到300 万TB。但是目前一个大型企业数据库中的 数据,约只有7%得到很好的应用。4数据 库数据 库数据 仓库特定 数据 集清洗与集成选择与转换数据挖掘评估与表示模式知识数据清洗是指消除数 据噪音将多个数据源中 的相关数据组合 到一起数据挖掘模式有用性、确 定性、简洁 性、新颖性将数据转换成易 于进行数据挖掘 的描述形式利用智能方式挖 掘智能模式或规 律知识处理 数据 预模式评估规则挖掘5数据仓库数据仓库是用以支持企业和组织的决策分 析处理、面向主题、集成的、不可更新、 随时间变化的数据集合6

3、数据泛化将数据抽象到更高的层次概念来取代低层 次的数据。如:某个客户的地址(安徽省 合肥市桐城南路375号),这样的数据可以 泛化到“安徽省”。如年龄属性,可以映 射到青年、中年、老年。7数据挖掘功能1、概念描述:定性与对比 2、关联分析 3、分类分析 4、聚类分析 5、异类分析 6、演化分析对所分析数据进行概要总结对两类所分析数据的特 点进行对比并对对比结 果给出概要性总结 从给定的数据集中发现 频繁出现的关联规则找出一组能够描述数据 集合典型特性的模型, 以便能够识别未知数据 的归属聚类基本思路:“各聚集(clusters)内部数据之间的 相似程度最大化,各聚集对象间相似程度最小化”。聚

4、类与分类的不同之处在于,后者所学习获取分类模型所 使用的数据是已知类别归属,属于有教师监督学习,而 聚类所分析处理的数据无归属类别不符合大多数数据对象所 构成的规律的数据对象称 为异类。在一些场合,如 商业欺诈行为的自动检测 ,小概率发生的事件往往 比经常发生的事件更具价 值对随时间变化的数据对象的 变化规律和趋势进行建模描 述8概要描述示例【示例1 】一个数据挖掘系统需要从我校 职工数据库中,挖掘出我校讲师情况的概 要总结,并给出我校讲师概念描述: “62%(age24)”9概要描述示例【示例2 】一个数据挖掘系统需要从我校 职工数据库中,针对我校副教授情况(对 比数据集),对我校讲师情况(

5、目标数据 集)进行对比概要总结,并给出我校讲师 对比概念描述: “讲师:78%(papers=3)and (teaching course=2)”10关联分析【示例3 】一个数据挖掘系统可以从一个 商场的销售记录数据中,挖掘出如下所示 的关联规则: buy(X,”computer”) =buy (X, ”software”)支持度=1%,信任度=60%11支持度和信任度有用性确定性12分类分析 -第一步:学习建模姓名年龄收入信用评估汪明40高?王敏30低?李勇30 40高? 测试数据分类 规则新数据:李勇, 30 40,收 入高,信用评估 如何?良14异类分析【示例4 】异类分析可以用于从大量

6、商品 购买记录中,依据各账户平常所发生的购 买行为,发现正在进行信用卡诈骗的购买 行为(异类行为)。例如:可以根据购买 的发生地点、购买商品类型和购买频率等 发现属于信用卡诈骗的购买行为(异类数 据)15演化分析【示例5 】利用演化分析方法可对股市主 要股票交易数据(时序数据,time series data)进行分析,以便获得整个股票市场 的股票演化规律,以及一个特定股票的变 化规律16信息管理专题数据挖掘 (Data Mining)n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘17聚类分析 - 均值(-means )算法聚类基本思想:将数据集划分成若干组,并使得 同一个组内的数据对

7、象具有较高的相似度,而不 同组中的数据对象则不相似。相似不相似通常利 用各对象间的距离来描述。聚类分析是人类活动中的一个重要内容,早在儿 童时期,一个人就是通过不断完善潜意识中的分 类模式,来学会识别不同的物体,如猫跟狗;动 物和植物等。在商业方面,聚类分析可以帮助市场人员发现客 户群众所存在的不同组群。18聚类分析 -距离表示19聚类分析 - 均值(-means )算法-means算法思想:首先从n个数据对象 中任选个对象作为初始聚类中心,而对所 剩下的对象,则根据它们与这些聚类中心 的距离,分别将它们分配给与其最相似的 聚类;然后再计算每个新聚类的聚类中心 (该聚类对象中所有对象的均值),

8、不断 循环直到标准测度函数开始收敛为止。20聚类分析 - 均值(-means )算法+21信息管理专题数据挖掘 (Data Mining)n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘22关联挖掘【示例6 】挖掘常在一起被购买的商品( 关联知识)将帮助商家制定有针对性的市 场营销策略。比如:顾客在购买牛奶时, 是否也可能同时购买面包,显然能够回答 这些问题将会帮助商家进行合适的货架商 品摆放。牛奶 果酱 面包糖 鸡蛋面包 黄油 牛奶牛奶 鸡蛋 面包 糖顾客1顾客2顾客3顾客n23关联挖掘 -相关概念项集:一个数据项的集合,如面包、黄油 、牛奶项集:一个包含个数据项的项集。如集 合电脑,

9、金融软件就是一个2项集频繁项集:若一个项集出现频度大于最小 支持阈值(threshold)(最小支持度)乘以 交易记录集中的记录数24关联挖掘 -相关概念Apriori性质:1)一个频繁项集中任一子集也是频繁项集2)如果一个集合不是频繁项集,则其所有超 集也不可能是频繁项集25关联挖掘 -步骤I.发现所有的频繁项集II.根据所获得的频繁项集,产生强关联规则 ,这些规则必须满足最小信任度阈值26单维布尔关联规则挖掘 -Apriori算法【示例7 】基于数据和Apriori算法进行数 据挖掘。Tid交易记录 中各商品列表T1G1、G2、G5T2G2、G4T3G2、G3T4G1、G2、G4T5G1、

10、G3T6G2、G3T7G1、G3T8G1、G2、G3、G5T9G1、G2、G3交易数据 库27单维布尔关联规则挖掘 -Apriori算法假设最小支持度为22% ,则最小支持频度 为22%*9=2第一步:项集支持频度G16G27G36G42G52项集支持频度G16G27G36G42G52候选1-项集C1频繁1-项集L1扫描数 据库与最小支持度 相比获得频繁 项集28单维布尔关联规则挖掘 -Apriori算法第二步:连接步骤29单维布尔关联规则挖掘 -Apriori算法第二步:频繁项集L2产生 项集支持频 度G1、G24G1、G34G1、G41G1、G52G2、G34G2、G42G2、G52G3、

11、G40G3、G51G4、G50频繁2-项集L2根据频 繁项集 L1产 生C2与最小支持度 相比获得频繁 项集项集支持频 度G1、G24G1、G34G1、G52G2、G34G2、G42G2、G5230单维布尔关联规则挖掘 -Apriori算法第三步:连接步骤31单维布尔关联规则挖掘 -Apriori算法第三步:频繁项集L3产生项集支持频 度G1、G2、 G32G1、G2、 G52频繁3-项集L3根据频 繁项集 L2产 生C3与最小支持度 相比获得频繁 项集项集支持频 度G1、G2、 G32G1、G2、 G52候选3-项集C332单维布尔关联规则挖掘 -Apriori算法第四步:连接步骤33单维布

12、尔关联规则挖掘 -Apriori算法第四步:频繁项集L4产生项集支持频 度0频繁4-项集L4根据频 繁项集 L3产 生C4与最小支持度 相比获得频繁 项集项集支持频 度0候选4-项集C434单维布尔关联规则挖掘 -Apriori算法挖掘结果:G1、G2、G3支持频度为2 ,满足最小支持度阈值,是频繁项集; G1、G2、G5支持频度为2;满足最小 支持度阈值,是频繁项集。信任度如何计算?(课后作业)35信息管理专题数据挖掘 (Data Mining)n数据挖掘基本功能n聚类分析n关联挖掘n互联网数据挖掘36互联网数据挖掘 -挖掘难度互联网过大而无法有效的构造数据仓库和 进行数据挖掘网页的复杂性要

13、远远大于任何传统的文本 文档互联网是一个高度动态的信息源互联网所服务用户群体的多样性互联网上的信息只有一小部分是真正有用 或相关的37互联网数据挖掘- Google搜索引擎功能模块自动搜索web网页模块:网页分析索引模块:网页检索查询模块:根据用户具体检索要求,以及所 建立的网页索引,从网页数据库 中快速检索出满足用户查询要求 的所有网页将网页数据库中的网页用相应的 特征向量来描述,然后建立索引 文件,以便能从网页数据库中快 速检索出网页该模块根据一定的网页搜索策略和规划 ,调度运行网页自动搜索软件(crawler ),以便能够快速有效的搜集大量的不 重复的网页,并将它们存储到搜索引擎 的网页

14、数据库中。38Google搜索引擎功能模块 -常用搜索策略根据所提供的种子“URL”开始搜索,并从所搜索 出的网页中抽取下一步搜索所需要的URLs,不 断重复“搜索-抽取”这一过程以完成整个网页库的 搜索工作根据各网站受欢迎程度,规划一组URLs,然后 不断重复“搜索-抽取”过程以完成访问频率高的网 页集的搜索工作根据网址名称或国家编码,将WEB空间化分成若 干块,并将其分配给若干ROBOTS,使其在各自 的空间完成穷尽搜索工作39互联网数据挖掘 -搜索引擎评价网页覆盖率网页检索速度网页检索质量网页更新率40思考题假设你有一个万能的数据挖掘工具,你最 希望用它来解决一个什么问题?说出你的 理由?41

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号