数据仓库与数据挖掘1简介精编版

上传人:ahu****ng1 文档编号:141984001 上传时间:2020-08-15 格式:PPTX 页数:45 大小:2.83MB
返回 下载 相关 举报
数据仓库与数据挖掘1简介精编版_第1页
第1页 / 共45页
数据仓库与数据挖掘1简介精编版_第2页
第2页 / 共45页
数据仓库与数据挖掘1简介精编版_第3页
第3页 / 共45页
数据仓库与数据挖掘1简介精编版_第4页
第4页 / 共45页
数据仓库与数据挖掘1简介精编版_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《数据仓库与数据挖掘1简介精编版》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘1简介精编版(45页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘Data Warehouse and Data Mining,数据仓库与数据挖掘,动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向,2,动机:需要是发明之母,数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中 我们正被数据淹没,但却缺乏知识 解决办法:数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等),3,什么是数据挖掘,数据挖掘 (数据库中知识发现) 从大型数据库中提取有趣的 (非平凡的、蕴涵的、

2、先前未知的且是潜在有用的) 信息或模式 其它名称 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence) 等,4,数据挖掘可能的应用,数据库分析和决策支持 市场分析和管理:针对销售(target marketing), 顾客

3、关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation) 风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析 欺骗检测与管理,5,数据挖掘可能的应用,其它应用 文本挖掘(新闻组、email、文档资料) 流数据挖掘(Stream data mining) Web挖掘 DNA 数据分析,6,数据仓库与数据挖掘,动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向,7,数据挖掘的过程,数据挖掘:KDD的核心,8,数据挖掘的过程,数据挖掘:KDD的核心,兴趣度量和阈值,9,KDD

4、的步骤,学习应用领域 相关的先验知识和应用的目标 创建目标数据集:数据选择 数据清理和预处理(可能占全部工作的 60%!) 数据归约与变换 发现有用的特征,维/变量归约,不变量的表示 选择数据挖掘函数 汇总,分类,回归,关联,聚类,10,KDD的步骤,选择挖掘算法 数据挖掘:搜索有趣的模式 模式评估和知识表示 可视化,变换,删除冗余模式,等 发现知识的使用,11,典型的数据挖掘系统结构,知识库,12,数据仓库与数据挖掘,动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向,13,数据挖掘在什么数据上进行,平面文件 关系数据库 包括面向对象和

5、对象-关系数据库 事务(交易)数据库 异种数据库和遗产数据库,14,数据挖掘在什么数据上进行,数据仓库,15,数据挖掘在什么数据上进行,数据仓库,网页,16,数据挖掘在什么数据上进行,数据仓库,输出,清洗 装载 转换 集成,Top tier: 前端工具,Middle tier: OLAP server,Bottom tier: 数据仓库 server,数据,17,数据挖掘在什么数据上进行,多媒体数据库,空间数据库,18,数据挖掘在什么数据上进行,时间序列数据库,19,数据挖掘在什么数据上进行,文本数据库,WWW,20,数据仓库与数据挖掘,动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什

6、么数据上进行 数据挖掘功能和分类 一些新的研究方向,21,数据挖掘的功能,概念描述:特征和区分 概化,汇总,比较数据特征,如干燥和潮湿的地区 关联 (相关和因果关系) 多维和单维关联 age(X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, confidence = 60% contains(T, “computer”) contains(T, “software”)support = 1%, confidence = 75%,22,数据挖掘的功能,分类和预测 找出描述和识别类或概念的模型(函数),用于将来的预测 例如根据气

7、候对国家分类,或根据单位里程的耗油量对汽车分类 表示:决策树(decision-tree), 分类规则,神经元网络 预测:预测某些未知或遗漏的数值,23,数据挖掘的功能,聚类分析 类标号(Class label)未知:对数据分组, 形成新的类。例如,对房屋分类,找出分布模式 聚类原则:最大化类内的相似性,最小化类间的相似性,24,数据挖掘的功能,孤立点(Outlier)分析 孤立点:一个数据对象,与数据的一般行为不一致 孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的 趋势和演变分析 趋势和偏离:回归分析 序列模式挖掘,周期性分析 基于相似的分析 其它基于模式或统计的分析,2

8、5,数据挖掘:多学科交叉,Data Mining,26,数据挖掘的分类,一般功能 描述式数据挖掘 预测式数据挖掘 不同的角度、不同的分类 待挖掘的数据库类型 待发现的知识类型 所用的技术类型 所适合的应用类型,27,数据挖掘从不同角度的分类,待挖掘的数据库 关系的、事务的、面向对象的、对象-关系的、主动的、空间的、时间序列的、文本的、多媒体的、异种的、遗产的、WWW 等 所挖掘的知识 特征、区分、关联、分类、聚类、趋势、偏离和孤立点分析等 多/集成的功能和多层次上的挖掘,28,数据挖掘从不同角度的分类,所用技术 面向数据库的、数据仓库(OLAP)、 机器学习、 统计学、可视化、神经网络等 适合

9、的应用 零售、电讯、银行、欺骗分析、DNA 挖掘、股票市场分析、 Web 挖掘、Web日志分析等,29,数据仓库与数据挖掘,动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向,30,Web挖掘,Web Mining,Web Usage Mining,Agent Based Approach,Database Approach,智能查询 信息过滤/分类 个性化Web,多层次数据库 Web查询系统,预处理 事务标识 模式发现 模式分析,Web Structure Mining,Web Content Mining,31,Web 使用挖掘,We

10、b Usage Mining是在Web数据存储地中应用数据挖掘技术抽取使用模式的方法 数据预处理 用户使用页面关联、用户分类、用户聚类、 应用 个性化 站点改进 ,32,文本挖掘,文本挖掘=数据挖掘(应用于文本存储地)+基本语言学 文本预处理(无结构数据结构化) 词法/语义分析 特征生成 Bag of Words 特征选择 频度、TFIDF、共现等 数据挖掘 文本分类、聚类等 分析结果,33,观点、情感挖掘,观点挖掘(Opinion Mining)是一种从论坛、讨论组、新闻组、博客等用户产生的内容中挖掘其表达观点的技术。 文本挖掘与观点挖掘(事实与观点) 文本挖掘关注事实,观点挖掘关注用户对事

11、实所持的观点; 事实是客观的,观点是主观的; 事实只有一个,观点却各不相同。 应用 商务、网络舆情、,34,数据流挖掘,性质 连续性:数据流是连续到达的 无序性:系统无法控制数据到达的顺序 无界性:数据流原则上是无限大的 实时性:要求算法能够实时地反映模式变化,35,数据流挖掘,性质 传统的数据挖掘,36,数据流挖掘,性质 传统的数据挖掘,37,数据流挖掘,性质 传统的数据挖掘,38,数据流挖掘,性质 数据流挖掘,?,39,RFID事件流挖掘,Radio Frequency Identification (RFID),Tag,Reader,40,图像分析与挖掘,Web图像,41,社会网络分析,42,不确定性数据挖掘,数据的不确定性 原始数据不准确; 使用粗粒度数据集合; 满足特殊应用目的; 处理缺失值; 数据集成。 不确定性数据管理的框架,43,作业,简述数据挖掘的一些主要方法,并根据你的见解,谈谈数据挖掘技术可能的应用(举例),44,感谢大家光临!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号