数据挖掘技术与应用

上传人:jiups****uk12 文档编号:45558847 上传时间:2018-06-17 格式:PPT 页数:51 大小:3.64MB
返回 下载 相关 举报
数据挖掘技术与应用_第1页
第1页 / 共51页
数据挖掘技术与应用_第2页
第2页 / 共51页
数据挖掘技术与应用_第3页
第3页 / 共51页
数据挖掘技术与应用_第4页
第4页 / 共51页
数据挖掘技术与应用_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《数据挖掘技术与应用》由会员分享,可在线阅读,更多相关《数据挖掘技术与应用(51页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘技术与应用计算机科学学院 电子商务系 叶海山大纲基本概念应用提出背景技术方法数据挖掘研究热点数据挖掘技术与应用一、数据挖掘产生的背景l美国阿尔温托夫勒的名著第三次浪潮中提到“ 信息爆炸”问题,信息量在未来将以指数级的速度 增长。摩尔定律:芯片的容量每1824个月增加一倍互联网摩尔定律:互联网带宽每9个月会增加一倍的 容量,但成本降低一半l随着技术发展,大量的数据在企业、 政府部门、科研院所机构的服务器及 计算机上积累起来。l然而,数据的迅速积累,很快超过了 传统数据分析方法和工具的可以进行 处理的规模。 信息爆炸带带来的“数据鸿鸿沟”数据鸿沟数据总量处理量数据丰富,知识贫乏l需求是应用

2、之母!简而言 之,对数据更充分、更深 入利用的渴求,直接导致 了数据挖掘的诞生。l此外,人工智能、数据库 、统计学等相关技术的飞 速发展,极大地加速了这 一过程。人工智能 机器学习 模式识别统计学数据挖掘数据库系 统数据挖掘技术与应用二、什么是数据挖掘?数据挖掘的定义l数据挖掘:Data mining, 简称DMl从大量的、不完全的、有噪声的、模糊的 、随机的数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信息 和知识的过程。 数据挖掘概念与技术,Jiawei Hanl数据挖掘是在大型数据存储库中,自动地 发现有用信息的过程。它用来探查大型数 据库,发现先前未知的有用模式;还可以

3、 预测未来观测结果的能力。 Introduction to Data Mining数据挖掘的特点l大量数据 数据量巨大,常见数据规模:股票日线数据数十万条/月卷烟厂生产数据数百万条/月超市销售数据数百万条/月银行业务数据数千万条/月电信公司通话清单数十亿条/月搜索引擎网页数百亿页l未知有用的规律l是一个过程数据挖掘的过程(知识发现角度)数据源数据数据集成目标数据预处理后 数据转换数据模式知识数据选择预处理数据挖掘数据转换结果表达和解释数据准备数据挖掘结果评价CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)

4、n商业理解n数据理解n数据准备n建模n评估n部署数据挖掘技术与应用三、数据挖掘的任务数据挖掘两大类任务l分类预测型任务 从已知的已分类的数据中学习模型,并对新的未知分 类的数据使用该模型进行解析,得到这些数据的分类 。 分类:类标签是离散型的符号 预测:类标签是连续型的数值l描述型任务 根据给定数据集中数据内部的固有关系,生成对数据 集中数据关系或整个数据集的概要描述。 聚类 文本摘要 关联分析 异常检测1分类预测测试 数据训练数据ModelLearn Classifier2聚类按被处理对象的特征分类,将有相 同特征的对象归为一簇.同族之间对象差异最小化不同簇之间的距离最大化美国“标准500股

5、票”指数的聚类结果3关联分析 l若两个或多个变量间存在着某种规律性,就称为关联。l关联分析的目的就是找出数据中隐藏的关联网Rules Discovered:Milk Diaper4序列模式分析l时间序列分析,从相当长的时间的发展中发 现规律和趋势。(电脑 喷墨打印机) (10个月) (墨盒)5回归l利用历史数据建立模型,再运用最新数据作为输入值,获 得未来变化的趋势或者评估给定样本可能具有的属性值或 值的范围。6异常检测/孤立点分析l分析与数据的一般行为或模型不一致的数据 Credit Card Fraud Detection Network Intrusion Detection数据挖掘的一

6、般方法(算法)l可以分别按挖掘任务、挖掘对象和挖掘方法来分类 。1.按挖掘任务分类:包括分类或预测知识模型 发现,数据摘要,数据聚类,关联规则发现 ,时 序模式发现,依赖关系或依赖模型发现,异常和 趋势发现 等。2.按挖掘对象分类:包括关系数据库,面向对象 数据库,空间数据库,时态数据库,文本数据库 ,多媒体数据库,异构数据库,数据仓库,演绎数 据库和Web数据库等。3.按挖掘方法分类:包括统计方法,机器学习方 法,神经网络方法和数据库方法,其中:统计 方法可分为:回归分析(多元回归、自回归等 ),判别分析(贝叶斯判别、费歇尔判别、非参数 判别等),聚类分析(系统聚类、动态 聚类等), 探索性

7、分析(主成分分析、相关分析等)等。 机器学习方法可分为:归纳 学习方法(决策树、 规则归纳 等),基于范例学习,遗传 算法等。神经网络方法可以分为:前向神经网络(BP算法 等),自组织 神经网络(自组织 特征映射、竞争学 习等)。数据库方法分为:多为数据分析和OLAP技术,此 外还有面向属性的归纳 方法。决策树 例有房产婚姻状况收入YESNONONOYesNoMarried Single, Divorced80K属性划分训练数据模型:决策树决策树应用过程Decision Tree使用模型测试数据1RefundMarStTaxIncYESNONONOYesNoMarried Single, Di

8、vorced80K检验数据 从树根开始使用模型测试数据2RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced80KTest Data使用模型测试数据3RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced80KTest Data使用模型测试数据4RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced80KTest Data使用模型测试数据5RefundMarStTaxIncYESNONONOYesNoMarried Singl

9、e, Divorced80KTest Data使用模型测试数据6RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced80KTest Data赋值为“No”基于规则的分类器l利用 “ifthen” 形式的规则对记录进行分类l规则: (Blood Type=Warm) (Lay Eggs=Yes) Birds例2脊 椎 动 物 的 分 类 规 则R1: (Give Birth = no) (Can Fly = yes) Birds R2: (Give Birth = no) (Live in Water = yes) Fishes R3:

10、(Give Birth = yes) (Blood Type = warm) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) AmphibiansK-最近邻分类器l主意: “如果走像鸭子,叫像鸭子。看起来还像鸭子, 那么它可能就是鸭子”训练记录测试记录计算距离选择k个最靠近的记 录最近邻的定义z记录的K-最近邻,是指和z的距离最近的k个数据点贝叶斯分类器l用概率的(不确定)的方法来解决分类问题l条件概率: (后验概率)l 贝叶斯定理:例:l已知: p 病人患脑膜炎(S)的

11、概率是1/50,000 (先验概率) p 病人患斜颈病(M)的可能是1/20 (先验概率) p 具有脑膜炎(S)的病人,患斜颈病(M)的可能性是50%l 问:如果一个病人患斜颈病(S) ,则其有脑膜炎(M) 的概率是多少?l前面信用卡例子:转化为求P(发卡|X) 和 P(不发卡|X)39人工神经网络l通过构造多层感知器网络创建分类和回归挖掘模型 。数据挖掘四、数据挖掘的典型应用1、客户细分l客户细分或客户分群是现代营销的基础。l通过聚类分析方法,对客户进行划分,获得各个客 户群不同的特征,从而对客户群进行针对性营销, 或者面向特定细分群开发特定产品,从而达到提高 产品销量,提高客户忠诚度的目的

12、。l例如,银行业将客户分为不同的群体,向其提供不 同的个性化投资理财产品。2、客户流失预测l研究表明,保留老客户的成本远低于获取新客户的 成本。但是,对所有客户进行挽留营销不切实际并 且非常昂贵。l通过对客户行为模式的挖掘,客户流失预测仅找出 那些可能会流失的客户。对这些客户进行挽留营销 ,可以降低营销成本,提高产品收入。l对于有大量客户的电信、银行、保修行业非常必要 。3、客户价值分析l客户对企业的价值,一般遵循“20-80”原则。l少数客户对企业的贡献占大部分的比例。通过客户 价值分析,发现企业的最好客户,把有限的资源使 用在能带来最大价值的客户身上。4、异常发现l对洗钱模式的挖掘,发现洗

13、钱模式以进行反洗钱。l通过对税务数据的分析,发现偷税漏税行为l大型C2C平台通过对交易数据和支付数据的分析, 可以发现信用炒作、信用卡套现等违规违法行为。5、交叉销售、向上销售、捆绑销售l通过对商品和服务组合销售模式的分析,发现商品之 间的搭配销售模式。l应用 零售业进行客户购物篮分析,根据结构对货架重新 摆放,从而提高销量。 电视台通过对观众观看习惯的分析,重新编排节目 ,提高收视率。 电信公司通过对客户行为分析,发现新业务的使用 模式,使用捆绑销售,提高新业务的使用率。 Walmart通过分析客户的购买模式,用于库存的管 理和销售机会的把握。6、个性化服务l对每个人的消费模式进行分析,发现

14、与众不同的消 费习惯,可有正对性地提供服务或进行促销。l例如B2C网站会根据过往购买记录,向客户推荐新 到商品;根据大多数人购买商品的行为,向客户推 荐当前所购买的关联商品等。7、改进工作效率/过程改进l通过对日常工作/业务数据的分析,找到优化的模式, 从而改进工作效率或业务流程。l应用 NBA使用一套数据挖掘工具,分析球员的运动,以 帮助教练找到最有效的组织进攻和防守方法。 通过对制造厂商供应链日常活动的分析,找出供应 链的最优运作方式。 通过对生产计划及生产效率等数据的分析,找到最 有效的排班方式。 通过对生产工艺和质量数据的关联分析,发现好的 生产工艺流程。8、科学发现l通过对大量科学实

15、验数据的分析,发现其中隐含的 模式,可导致新的科学发现的诞生。l应用: 通过对天文数据的数据挖掘分析,发现新星体 通过对生物信息数据的分析,发现新的基因和 蛋白质折叠 识别具有良好药物特性的分子,以用于制造新 药 通过对医疗数据的分析,发现药物和疾病之间 的关系9、预警l通过对数据中趋势的分析,对将要可能发现的事件 提出预警。l电信业中,通过对以往报警数据的分析,发现有哪 些常规报警可能是重大问题的前兆,并提出预警, 阻止事故的发生。l对工厂生产数据的分析,识别重大质量问题的前兆 ,以采取必要措施,避免产品质量事故的发生。谢谢!附录、研究热点lParallel and distributed

16、data mining algorithms lMining on data streams lGraph and subgraph mining lSpatial data mining lText, video, multimedia data mining lWeb mining lHigh performance mining algorithms lCorrelation mining data lInteractive data mining lData mining visualizationlInformation hiding in data mining lSecurity and privacy issues lCompetitive analysis of mining algorithms lData Mining Appli

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号