数据仓库与数据挖掘第章精编版

上传人:ahu****ng1 文档编号:141984014 上传时间:2020-08-15 格式:PPTX 页数:54 大小:1.54MB
返回 下载 相关 举报
数据仓库与数据挖掘第章精编版_第1页
第1页 / 共54页
数据仓库与数据挖掘第章精编版_第2页
第2页 / 共54页
数据仓库与数据挖掘第章精编版_第3页
第3页 / 共54页
数据仓库与数据挖掘第章精编版_第4页
第4页 / 共54页
数据仓库与数据挖掘第章精编版_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《数据仓库与数据挖掘第章精编版》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘第章精编版(54页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘,教材及参考书,教材 Jiawei Han,数据挖掘概念与技术(中译本),机械工业出版社 参考书 - 苏新宁. 数据仓库与数据挖掘.北京:清华大学出版社 - 李志刚等.数据仓库与数据挖掘的原理及应用,高教出版社 - 安淑之等.数据挖掘与数据仓库,清华大学出版社 - 周根贵.数据仓库与数据挖掘,浙江大学出版社 - 康晓东.基于数据仓库的数据挖掘技术,机械工业出版社,课时安排,总课时32学时 其中,课堂讲授16学时,实验16学时,考核标准,平时成绩占30 期末考试的成绩占70,答疑安排,周三第6小节办公室等待大家的光临 电子邮件答疑 课间答疑,行政南楼 346房间,本课程的特点,

2、理论性强 统计学、信息理论、各种算法 实践性强 解决生活中的问题 具备一定的计算机基础 数据库、数据结构、操作系统、算法实现等知识,如何学习?,定位: - 基本要求:掌握数据挖掘的操作流程和基本原理,能够基于软件工具,分析和解决具体数据挖掘应用问题。 - 更高要求:对于计算机基础强、且学有余力的同学,能够针对具体应用,程序实现数据挖掘算法。 理论联系实际,课程体系,共六章内容: 第一章 数据仓库与数据挖掘概述 第二章 数据仓库与OLAP 第三章 数据预处理 第四章 关联分析 第五章 分类和预测 第六章 聚类分析,实验内容,实验1 数据仓库与OLAP的使用 实验2 测试常用数据预处理操作 实验3

3、 测试K-means算法 实验4 分类挖掘任务的实践,Chap1 数据仓库与数据挖掘概述,学习数据仓库与数据挖掘有何意义? 初识数据仓库 初识数据挖掘,1、学习数据仓库与数据挖掘有何意义?, 社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史,划时代意义的技术?,计算机和网络技术!,有人甚至提出要把计算机与网络技术与火的发明相比拟。 火的发明区别了动物和人; 而计算机和网络技术则大大提高了人的生存质量和人的 素质,使人成为社会人、全球人。,网络之后的下一个技术热点是什么?,纽约时报由60年代的1020版扩张至 现在的100200版,最高曾达1572版; 北京青年报也已是

4、1640版;市场营 销报已达100版。 然而在现实社会中,人均日阅读时间通常 为3045分钟,只能浏览一份24版的报纸。,信息处理的难题,大量信息在给人们带来方便的同时也带来了一大堆问题: 第一是信息过量,难以消化; 第二是信息真假难以辨识; 第三是信息安全难以保证; 第四是信息形式不一致,难以统一处理。,数据爆炸但知识贫乏,人们积累的数据越来越多。激增的数据背 后隐藏着许多重要的信息,人们希望能够 对其进行更高层次的分析,以便更好地利 用这些数据。 数据的丰富带来了对强有力的数据分析工 具的需求,快速增长的海量数据、存放在 大型和大量数据库中,没有强有力的工 具,理解这些数据已远远超出了人的

5、能力.,导致“数据爆炸但知识贫乏”的原因,目前的数据库系统可以高效地实现数据的 录入、查询、统计等功能,但无法发现数 据中存在的关系和规则,无法根据现有的 数据预测未来的发展趋势。缺乏挖掘数据 背后隐藏的知识的手段,导致了“数据爆炸 但知识贫乏”的现象。,我怎么分析这些数据?,如何才能不被信息淹没?,人们开始考虑:“如何才能不被信息淹没, 而是从中及时发现有用的知识、提高信息 利用率?” 面对这一挑战,数据挖掘和知识发现 (Data Mining and Knowledge Discovery)技术应运而生,并显示出强大 的生命力 .,学习本课程的意义,掌握数据仓库和数据挖掘的基本原理,用信

6、息分析的方法进行思考问题. 了解一些算法的基本思想.以便今后处理特 定问题时使用. 帮助你了解现代企业在信息化战略中所采 用的技术手段,帮助你更深入地掌握面向经 济问题开展研究和实践的基本方向.,2 初识数据仓库,为什么要建立数据仓库? 传统数据库的演化主文件,传统数据库的演化单一数据库,20世纪80年代90年代初期, 联机事务处理(OLTP)是数据库应用的主流! OLTP在交易中处理信息,主要是基本的日常的事务处理。 例如:银行交易数据库、业务数据库。,20世纪90年代初期, OLTP已经不足以获得市场竞争优势! 用户要对大量业务数据和历史数据进行分析,产生决策,因此出现了联机分析处理(OL

7、AP)! OLAP基于业务数据的决策分析。 数据仓库专家Ralph Kimball写道: “我们花了20多年的时间将数据放入数据库,如今是将它们拿出来的时候了!”,OLTP和OLAP对数据的要求是不一样的!,正是事务处理和分析处理具有极其差异的性质, 所以以事务处理环境来支持分析处理是行不通的! 行不通的主要原因有: 两种处理的性能特点不同! 数据集成问题! 数据动态集成问题! 历史数据问题! 数据的综合问题!,传统数据库的演化抽取程序,因为用抽取程序能将数据从高性能联机事务处理方 式中转移出来,所以在需 要总体分析数据时就与联 机事务处理性能不发生冲 突。,抽取程序形成了“蜘蛛网”,数据不一

8、致!,而且生产率很低!,传统数据库的演化数据仓库,数据在从操作型环境转移到数据仓库 环境的同时进行集成,什么是数据仓库(DW)?,是一种为信息分析提供了良好的基础并支 持管理决策活动的分析环境,是面向主题的、集成的、相对稳定的、随时 间变化的、分层次的多维的集成数据集合。,数据仓库的作用,两个主要作用 存储经过加工处理的决策需要的数据 存储数据的一种形式 加工和集成后的再存储 查询和决策分析的依据 为数据驱动型的决策支持提供数据基础,建立数据仓库的好处,更加高效的地制定决策 提供一个关于整个企业的整体构架 集中存放,方便存取,提高生产效率 减少重复数据处理和分析 提高用户对数据的应用程度 为商

9、务流程再造提供支持,数据仓库的特点,面向主题 集成性 相对稳定(非易失) 时态性(反映时间变化),3 初识数据挖掘,数据挖掘逐渐演变的过程: 机器学习成为人们关心的焦点。从范例出发 随着人工智能技术的形成和发展,人们的注意力转向知识工程,直接从计算机输入规则。从规则出发 80年代末出现一个新的术语,即数据库中的知识发现,简称KDD(Knowledge discovery in database)。从数据出发 数据仓库技术的发展与数据挖掘有着密切 的关系。促进,但不是先决条件!,数据挖掘在商务智能中的位置,什么是数据挖掘?,数据挖掘(Data Mining,DM),又称数据库中的知识发现(Kno

10、wledge Discovery in Database,KDD)是从数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。,数据挖掘的过程,(1)数据收集 (2)数据预处理 (3)数据挖掘 (4)知识评价,数据挖掘系统结构,数据挖掘的任务,数据挖掘任务有两类:描述和预测 描述性挖掘任务刻划数据库 中数据的一般特性; 预测性数据挖掘任务在当前 数据上进行推断、预测 具体任务包括: 1) 分类 (Classification) 2) 回归 (Regression) 3) 聚类 (Clustering) 4) 关联分析(Association Analysis) 5) 时间序列

11、分析(Time Series Analysis) 6) 偏差检测(Deviation Detection) 7)概念描述 (Concept Description),分类 (Classification) 用于提取反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。在数据挖掘中,分类模型通过对已知类别的个体进行归纳,找出各类别与个体的特征属性之间的关系,即分类模式。 例如:疾病诊断系统、高血压药物选择、电信客户流失。,训练集,应用决策树算法判断某人是否会购买计算机?,算法输出,聚类 (Clustering) 是将一个群体分成多个类,使同类个体尽可能相似而不同类间个体差异尽可能大。

12、与分类的区别? 例如:电信客户细分?,K-means算法的聚类过程,关联(association) 用于发现事物间的关联规则,或称相关程度。 关联规则: X & Y Z s , c 例如:如果IBM的股票价格上升,有70%的可能微软的股票价格要下降;买榔头的人有40%同时买钉子。 例如:交叉销售。,回归 (Regression) 用属性的历史数据预测未来趋势。包括线性问题、非线性问题。 例如:工作与工龄的关系、机械系统故障的发生。,时间序列分析(Time Series Analysis) 用已有的数据序列预测未来。 回归模型不强调数据间的先后顺序,而时间序列模型要考虑时间特性,尤其要考虑时间周

13、期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等。 例如,股票数据挖掘等。,偏差检测(Deviation Detection) 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 例如:入侵检测。,数据挖掘产品比较,数据挖掘的热点和主要问题?,主要热点: 就目前来看,将来的几个热点包括: 网站的数据挖掘(Web site data mining) 生物信息或基因数据挖掘(Bioinformatics/genomics) 文本的数据挖掘(Textual mining)。,主要问题: - 海量数据挖掘 - 分布式数据挖掘 - 时空数据挖掘 不同地点的降雨与传染病的相关性 - 基于知识的数据挖掘 - 文本数据挖掘 复杂语义,讨论,例举一个数据挖掘给商务带来巨大成功的例子,该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号