数据挖掘介绍讲述

上传人:最**** 文档编号:118120773 上传时间:2019-12-11 格式:PPT 页数:25 大小:216.50KB
返回 下载 相关 举报
数据挖掘介绍讲述_第1页
第1页 / 共25页
数据挖掘介绍讲述_第2页
第2页 / 共25页
数据挖掘介绍讲述_第3页
第3页 / 共25页
数据挖掘介绍讲述_第4页
第4页 / 共25页
数据挖掘介绍讲述_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《数据挖掘介绍讲述》由会员分享,可在线阅读,更多相关《数据挖掘介绍讲述(25页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘 概念与技术 Chapter 1 Jiawei Han and Micheline Kamber Date1Data Mining: Concepts and Techniques Chapter 1. 引言 n什么激发了数据挖掘,为什么它是重要的? n什么是数据挖掘? n在何种数据上进行数据挖掘? n数据挖掘功能 n所有模式都是有趣的吗? n数据挖掘系统的分类 n数据挖掘的主要问题 Date2Data Mining: Concepts and Techniques 需要是发明之母 n数据爆炸问题 n自动数据收集工具和成熟的数据库技术导致海量数据累 积,需要对数据库、数据仓库及其他信息

2、存储设备中的 数据进行分析。 n我们溺死在数据坟墓中,却难以提取有效信息 n解决方法:数据仓库与数据挖掘 n数据仓库 and 联机分析处理(OLAP) n在大型数据库数据中挖掘有趣知识 (规则, 模式, 约束) Date3Data Mining: Concepts and Techniques 数据库技术发展 n1960s: n数据收集,数据创建 n1970s: n关系数据模型, 关系数据库管理系统 n1980s: n高级数据模型 (扩充关系, 面向对象, etc.) n面向应用的数据库管理系统 (空间的,时间的,知识库, etc.) n1990s: n数据挖掘,数据仓库,Web 数据库 n2

3、000s n面向各种应用的数据挖掘 nWeb 技术 和 全球信息系统 Date4Data Mining: Concepts and Techniques 什么是数据挖掘? n数据挖掘 (从数据中提取或“挖掘”知识) n从大量数据中提取有兴趣 (不琐碎的, 固有的, 先前未 知的 和 潜在有用的) 知识 n数据挖掘: 用词不当? n同义词 n数据库中知识挖掘、知识提取、数据/模式分析、数据 考古和数据捕捞 n注意事项: Is everything “data mining”? n查询处理. n专家系统或统计程序 Date5Data Mining: Concepts and Techniques

4、为什么要数据挖掘?潜在的应用 n数据分析与决策支持 n市场分析和管理 n目标市场,客户关系管理, 市场销售分析, 交叉销售, 市场分割 n风险分析和管理 n预测, 消费能力, 质量控制,竞争力分析 n欺骗探测 和不寻常行为探测 n其他应用 nWeb 挖掘 nDNA 和生物信息挖掘 Date6Data Mining: Concepts and Techniques 市场分析和管理 n数据来源? n信用卡事务, 折扣优待卷,客户投诉电话, 公众生活方式调查 n目标市场 n发现具有相同特征(兴趣、收入状况、消费习惯等)的消费者模式 n随着时间发展,决定消费者购买的模式 n交叉市场分析 n产品间的销售

5、联系, 基于这些联系进行预测 n消费者类型 n什么样的消费者买什么样的产品 (聚类 or 分类) n消费需求分析 n为不同消费者提供最好产品 n预测吸引新消费者的因素 n提供信息总结 n多维总结报告 n分析汇总信息 (数据集中趋势和变化) Date7Data Mining: Concepts and Techniques 公司分析 & 风险管理 n经费计划与资产评估 n现金流转分析 和 预测 n临时问题分析进行评估资产 n交叉组合和时间序列分析 (财政比率, 趋势分析, etc.) n资源计划 n总结、比较资源花费 n竞争 n监控竞争者和市场方向 n划分消费群和基于分类的定价程序 n制定具有高

6、度市场竞争力的定价策略 Date8Data Mining: Concepts and Techniques 欺骗探测 & 挖掘不寻常模式 n方法: 聚类 进行欺骗模式构造, 孤立点分析 n应用: 卫生保健, 零售业, 信用卡服务. n汽车保险: n洗钱: 可疑金钱事务 n医疗保险 n长途通讯 n零售产业 n分析显示: 38% 的零售收缩归咎于不诚实雇员 n反对恐怖主义 Date9Data Mining: Concepts and Techniques 其他应用 n运动 nIBM高级侦察系统统计NBA比赛 n天文学 n喷气推进实验所(JPL) 与 Palomar 天文台在数据挖掘帮 助下发现22

7、类星体 Date10Data Mining: Concepts and Techniques 数据挖掘: 知识发现过程 n数据挖掘知识发现过程 的核心 清理与集成 数据库 数据仓库 选择与转变 数据挖掘 评估与表示 Date11Data Mining: Concepts and Techniques 知识发现过程步骤: n了解应用领域 n相关前提知识和应用目标 n数据清理 和数据集成: (可能需要付出 60%的努力!) n数据选择 n数据变换 n选择数据挖掘功能 n特征化、关联、分类、聚类分析以及演变和偏差分析. n选择挖掘算法 n数据挖掘 n模式评价 和 知识表达 n可视化,转换,排除冗余模

8、式, etc. n使用发现知识 Date12Data Mining: Concepts and Techniques 数据挖掘 和 商业智能 Increasing potential to support business decisions End User Business Analyst Data Analyst DBA 决策 知识表示 Visualization Techniques 数据挖掘 Information Discovery 数据查询 OLAP, MDA Statistical Analysis, Querying and Reporting 数据仓库 /数据集市 数据源

9、Paper, Files, Information Providers, Database Systems, OLTP Date13Data Mining: Concepts and Techniques 结构: 典型数据挖掘系统 Data Warehouse 数据清理 数据集成 过虑 Databases 数据库或数据仓库 服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 Date14Data Mining: Concepts and Techniques 在何种数据上进行数据挖掘 n关系数据库 n数据仓库 n事务数据库 n高级数据库系统和高级数据库应用 n面向对象数据库 n对象关系数据库

10、 n空间数据库 n时间数据库和时间序列数据库 n多媒体数据库 n异种数据库和遗产数据库 nWWW Date15Data Mining: Concepts and Techniques 数据挖掘功能 n概念/类描述: 特征化和区分 n归纳, 总结, 对比数据特征, e.g., dry vs. wet regions n关联分析 (相关性和因果关系) nDiaper Beer 0.5%, 75% n分类和预测 n模型构造:描述和预测类标记未知的对象类 n例如,基于气候划分国家, 基于汽油消耗定额划分汽车 n表示: 判定树,分类规则,神经网络 n预测空缺或不知道的数据值 Date16Data Min

11、ing: Concepts and Techniques 数据挖掘功能 (2) n聚类分析 n类标记是未知的:聚类数据以形成新类标记 n最大化类内的相似性、最小化类间的相似性 n孤立点分析 n孤立点: 数据对象与数据的一般行为或模型不一致 n噪声 or 异常丢掉? 不! 在欺骗探测, 罕见事件分析中有用 n演变分析 n趋势 和 背离 n连续时间序列数据分析, 周期模式匹配分析 n基于类似性的数据分析 Date17Data Mining: Concepts and Techniques 所有模式都是有趣的吗 n数据挖掘会生成很多模式:并不是所有模式都是有趣的 n建议方法: Human-cente

12、red, query-based, focused mining n有趣模式 n易于被人理解;在某种程度上,对于新的或测试数据是有效的;是 潜在有用的;是新颖的。 n客观 vs. 主观兴趣度度量 n客观: 基于所发现模式的结构和关于它们的统计, e.g., support, confidence, etc. n主观: 基于用户对数据的确信, e.g., unexpectedness, novelty, actionability, etc. Date18Data Mining: Concepts and Techniques 我们可以发现所有有趣模式吗? n发现所有的兴趣模式: 完全的 n数据

13、挖掘系统可以发现所有有趣模式吗? n启发式 vs. 穷举搜索 n联合 vs. 分类 vs. 聚类 n仅产生有趣的模式: 最优化问题 n数据挖掘系统能仅产生有趣模式吗? n方法 n首先生成所有模式,然后过虑非兴趣模式. n仅生成有趣模式优化数据挖掘查询 Date19Data Mining: Concepts and Techniques 数据挖掘: 多学科汇总 数据挖掘 数据库技术统计学 其他学科 可视化 信息科学机器学习 Date20Data Mining: Concepts and Techniques 数据挖掘: 分类方案 n一般功能 n描述性数据挖掘 n预测性数据挖掘 n不同的观点, 不

14、同的分类 n根据挖掘的数据类型分类 n根据挖掘的知识类型分类 n根据所用的技术分类 n根据应用分类 Date21Data Mining: Concepts and Techniques 数据挖掘多维角度 n数据来源 nRelational, data warehouse, transactional, stream, object- oriented/relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW n知识被挖掘 nCharacterization, discrimin

15、ation, association, classification, clustering, trend/deviation, outlier analysis, etc. n不同概念层上多种挖掘功能结合 n运用技术 nDatabase-oriented, data warehouse (OLAP), machine learning, statistics, visualization, etc. n面向应用 nRetail, telecommunication, banking, fraud analysis, bio-data mining, stock market analysis

16、, Web mining, etc. Date22Data Mining: Concepts and Techniques 数据挖掘的主要问题 n挖掘方法 n在数据库中挖掘不同知识, e.g., bio, stream, Web n性能: 有效性,可伸缩性, 并行处理 n模式评估: 兴趣度问题 n结合背景知识 n处理噪声和不完全数据 n整合从已知信息中发现的知识: knowledge fusion n用户交互 n数据挖掘查询语言 n表示和可视化数据挖掘结果 n多个抽象层的交互知识挖掘 n应用和社会影响 n特定范围数据挖掘应用 n保护数据安全性, 完整性, 保密性 Date23Data Mining: Concepts and Techniques 汇总 n数据挖掘: 从大量数据中发现有趣模式 n数据库技术在大量需求,广泛应用驱动下自然发展 n知识发现过程:数据清理,数据集成,数据选择,数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号