11复杂数据类型的挖掘

资源描述

《11复杂数据类型的挖掘》由会员分享，可在线阅读，更多相关《11复杂数据类型的挖掘（42页珍藏版）》请在金锄头文库上搜索。

1、广东商学院信息学院Chapter 10：复杂数据类型的挖掘广东商学院信息学院胡建军数据仓库与数据挖掘/93广东商学院信息学院Course Outlinen复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘/72广东商学院信息学院Course Outlinen复杂杂数据对对象的多维维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘/72广东商学院信息学院数据挖掘的对象n简单简单数据关系数据库、事务数据库、数据仓库n复杂类杂类型数据复杂对象、空间数据、多媒体数据、

2、时间序列数据、文本数据、Web数据等挖掘技术术：基本挖掘技术的扩展针对复杂数据类型的新技术实施知识挖掘的方法/72广东商学院信息学院复杂数据对象的多维分析和描述性挖掘n商品化数据仓库和OLAP工具用于多维分析的局限：维非数字数据度量聚集值n复杂数据对象的概化及其概化数据的应用n复杂数据的组织及存储方法 H类、类/子类 H对象：对象标识、属性、方法/72广东商学院信息学院复杂结构数据的概化n复杂结构数据：H集合、元组、列表、树、记录等及其组合；H概化方法：4保持原结构不变，概化其属性4把原结构扁平化，概化扁平化的结构4用高层概念或聚集汇总低沉结构4返回原结构的类型或概貌/72广东商学院

3、信息学院集合值n集合值值一般概化方法：H将集合中的每个值概化为其对应的更高级别的概念H导出集合的一般特征（元素个数、区间、平均值、最大值等）示例：业余爱好网球，曲棍球，国际象棋，小提琴，任天堂游戏概化：体育，音乐，电子游戏体育（3），音乐（1），电子游戏（1） /72广东商学院信息学院列表值/序列值n列表值/序列值类似于集合值属性的概化，要求保持元素的次序。一般概化方法：H将列表中的每个值概化为对应的高层概念H导出列表的一般特征（长度、元素类型、平均值、最大值等）/72广东商学院信息学院空间和多媒体数据的概化n聚集和近似计算n空间数据例：土地规划n多媒体数据 H图像：尺寸、

4、颜色、形状、纹理、方位等 H音乐：音调、节拍、乐器等 H文本：摘要、关键词等/72广东商学院信息学院对象的概化n对象标识符沿类/子类层次结构概化n继承特性数据概化对直接数据与继承数据同等对待n方法方法本身不能概化，但是可以对方法导出的数据进行概化/72广东商学院信息学院Course Outlinen复杂数据对象的多维分析和描述性挖掘n空间间数据库库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘/72广东商学院信息学院空间数据库挖掘n空间数据库及其一般特点 H存储了大量与空间有关的数据 H包含拓扑/距离信息 H复杂的、多维的索引结构 H访问通过空间数据的方法，

5、通常需要空间推理、地理计算、空间知识表示技术n空间数据挖掘：要综合数据挖掘与空间数据库技术/72广东商学院信息学院空间数据库挖掘n传统空间数据分析（统计方法）的不足H统计方法通常假设空间分布的数据间是统计上独立的，但现实是空间对象间是相互关联的；H大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来；H统计方法不适用符号值，或不完整或非确定的数据，对大规模数据库其计算代价也十分昂贵。n空间数据挖掘将对传统的空间分析方法加以扩展，重点解决其高效性，可伸缩性，与数据库系统的紧密结合，改进与用户的交互，以及新的知识的发现。 /72广东商学院信息学院空间关联分析空间关

6、联规则形如: ABs%，c%其中A和B空间和非空间谓词的集合，s%表示规则的支持度，c%表示规则的的可信度。例：Is_a(X,”school”)close_to(X, “sports_center”)close_to（X, “park”）0.5%, 80%此规则表明80%靠近体育中心的学校同时也靠近公园，并且有0。5%的数据符合这一规则。 /72广东商学院信息学院空间聚类方法 n 空间数据聚类是要在一个较大的多维数据集中根据距离的计算找出簇，或稠密区域。 /72广东商学院信息学院空间分类和空间趋势分析n空间分类指分析空间对象导出与一定空间特征有关的分类模式，如郊区，高速公路，河流的邻接

7、。n空间趋势分析处理的是另一类问题：根据某空间维找出变化趋势。例如，当离城市中心越来越远时，我们要分析经济形势的变化趋势，或离海洋越来越远时，气候与植物的变化趋势。 /72广东商学院信息学院Course Outlinen复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘/72广东商学院信息学院多媒体数据库挖掘n多媒体数据库是指存储和管理大量多媒体对象的数据库，如音频数据，图象数据，视频数据，序列数据，以及超文本数据，包含文本，文本标记(text markup)，和链接(linkage)。 n多媒体数据的相似搜索

8、主要考虑两种多媒体标引和检索系统：（1）基于描述的检索系统，主要是在图象描述之上建立标引和执行对象检索，如关键字，标题，尺寸，创建时间等；（2）基于内容的检索系统，它支持基于图象内容的检索，如颜色构成，质地，形状，对象，和小波变换等。 n多媒体数据的分类和预测分析 n多媒体数据中的关联规则挖掘 /72广东商学院信息学院Course Outlinen复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘/72广东商学院信息学院时序数据库和序列数据库n时序数据库：由随时间变化的序列或事件组成的数据库H等时间间隔测得的数据

9、 (regular intervals)H时序数据库是一种序列数据库n序列数据库：由有序事件序列组成的数据库H可有时间标记，也可以没有时间标记H可以是时序数据库，也可以不是。如WEB遍历。/72广东商学院信息学院时序数据例子Time-series plot/72广东商学院信息学院时序数据和序列数据的挖掘（一）n趋势分析通过对趋势，循环，季节和非规则成分的运动的系统分析，使人们可以在较合理的情况下，制定出长期或短期的预测（即预报时序） n相似搜索找出与给定查询序列最接近的数据序列。子序列匹配（subsequence matching）是找出与给定序列相似的所有数据序列，整体序列匹配（

10、whole sequence matching）是找出彼此间相似的序列。例如：对金融市场的分析（如股票数据分析），医疗诊断（如心电图分析），和科学与工程数据库（如能量消耗分析）等 /72广东商学院信息学院时序数据和序列数据的挖掘（一）n序列模式挖掘（sequence pattern mining）是指挖掘相对时间或其它模式出现频率高的模式。 n周期分析（periodicity analysis）对周期模式的挖掘，即在时序数据库中找出重复出现的模式。例如: 季节，潮汐，行星轨道，每日能源消耗，每日交通模式 /72广东商学院信息学院Course Outlinen复杂数据对象的多维分

11、析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库库挖掘nWeb挖掘/72广东商学院信息学院文本数据库和信息检索（IR）n文本数据库 H半结构化数据：它既不是完全无结构的也不是完全结构的。例如，一个文档可能包含结构字段，如标题，作者，出版日期，长度，分类，等等，也可能包含大量的非结果化的文本成分，如摘要和内容。 n典型的信息检索问题是基于用户的输入（如关键字或样例文档）定位相关的文档。n典型的信息检索系统H联机图书馆目录H联机文档管理系统n信息检索与数据库系统HDB：并发控制、恢复、事务管理、更新HIR：非结构化文档、基于关键字的近似搜索/72广东商学

12、院信息学院文本检索的基本度量n查准率:反映正确性n查全率: 反映全面性Relevan tRelevant & RetrievedRetrievedAll Documents应该被检索到的/72广东商学院信息学院文本检索的基本度量n查准率:反映正确性n查全率: 反映全面性Relevan tRelevant & RetrievedRetrievedAll Documents实际被检索到的/72广东商学院信息学院文本检索的基本度量n查准率:反映正确性n查全率: 反映全面性Relevan tRelevant & RetrievedRetrievedAll Documents/72广东商学院信息学院

13、基于关键字的检索n在关键字检索中，文档被看作字符串，可用一组关键字识别n查询由关键字表达式构成 H例子, 汽车 and 修理店H查询应考虑同义词问题, 如：修理和维修n困难 H同义词问题（Synonymy）:文档与Key相关，但Key在文档中不出现 H多义词问题（Polysemy）:同一Key在不同的上下文有不同的含义，如Mine。/72广东商学院信息学院基于相似性的检索（1）n相似检索是指基于一组共同的关键字找出相似的文档n检索结果基于相关度，即：与关键词的近似性，关键词的出现频率等。n非用词表（Stop list）4无关的高频词，如：a, the, of, for, etc.4

14、文档不同时，非用词表也不同/72广东商学院信息学院基于相似性的检索（2）n 由于相似文档具有相似的相对词频，因此我们可以基于频率表中的相对词频，计算一组文档的相似性。词频矩阵n相似度: 基于一组关键词的文档相似性H相关词的出现次数H余弦距离：n缺点：当词数T和文档数目D很大时，高的维数导致低的计算效率，且出现大的稀疏向量。 H用奇异值分解 (SVD)技术减小词频矩阵大小 H保留词频矩阵中最有意义的K行和K列，K值为几百。词/文档d1 d 2d3 d 4d5 d6 d7t132 18 431 6 872 15 43 0 t235 49 171 5 682 639 2 t322 3 216

15、 74 628 922 517/72广东商学院信息学院文本数据挖掘的类型n1.基于关键字的关联分析n2.文档分类分析/72广东商学院信息学院基于关键字的关联分析n动机H收集经常一起出现的关键字或词汇，然后找出其关联或相互关系n关联分析过程H文档预处理：文本数据分解，词根处理，过滤非用词等H调用关联挖掘算法4将每一文档看作一个事务4将文档中的关键词组看作事务中的一组事务项/72广东商学院信息学院文档分类n动机 H自动对大量联机文档（web页面，email等）进行分类组织，以便于对文档进行检索和分析。n分类过程H数据预处理：提出关键字和词汇H定义训练集和测试集H调用分类算法创建分类模式H测试分

16、类模式H应用导出的分类模式对其他新的、未知的联机文档分类n文档分类与关系数据库中的数据分类之间的区别 H文档数据库是非结构化的，没有“属性值”对/72广东商学院信息学院Course Outlinen复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘/72广东商学院信息学院Web挖掘n挑战H对数据仓库和数据挖掘而言，Web太庞大了HWeb页面数据太复杂：没有结构，不标准H不断增长，不断变化H广泛的用户群体 H仅有很小部分的Web数据是有用的或相关的99%的Web 信息对99% 的Web用户是无用的/72广东商学院信息学院Web 搜索引擎n基于索引:搜索Web页面,对Web页面作索引，建立和存储大量的基于关键字的索引，定位包含关键字的Web 页面n不足之处：H对任一范围的话题，返回的文档数太庞大H很多与话题相关的文档并不包含相应的关键字（多义问题）/72广东商学院信息学院如何高效地发现和利用因特网上的资源？ Web挖掘/72广东商学

展开阅读全文