数据挖掘第九章

上传人:我*** 文档编号:133271698 上传时间:2020-05-25 格式:PDF 页数:107 大小:1.53MB
返回 下载 相关 举报
数据挖掘第九章_第1页
第1页 / 共107页
数据挖掘第九章_第2页
第2页 / 共107页
数据挖掘第九章_第3页
第3页 / 共107页
数据挖掘第九章_第4页
第4页 / 共107页
数据挖掘第九章_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《数据挖掘第九章》由会员分享,可在线阅读,更多相关《数据挖掘第九章(107页珍藏版)》请在金锄头文库上搜索。

1、2006年11月17日星期五Data Mining Concepts and Techniques1 数 据 挖 掘数 据 挖 掘 概 念 与 技 术概 念 与 技 术 第 九 章第 九 章 Jiawei Han 加 著 Micheline Kamber http www cs sfu ca 2006年11月17日星期五Data Mining Concepts and Techniques2 第九章 复杂类型数据的挖掘第九章 复杂类型数据的挖掘 复杂数据对象的多维分析和描述性挖掘复杂数据对象的多维分析和描述性挖掘 空间数据库挖掘空间数据库挖掘 多媒体数据库挖掘多媒体数据库挖掘 时序数据和序列数

2、据的挖掘时序数据和序列数据的挖掘 文本数据库挖掘文本数据库挖掘 Web挖掘挖掘 小结小结 2006年11月17日星期五Data Mining Concepts and Techniques3 复杂性数据对象的挖掘 结构化数 据的概化 复杂性数据对象的挖掘 结构化数 据的概化 集合值属性集合值属性 将集合中的每一个值概化为其对应的更高级别的概 念 将集合中的每一个值概化为其对应的更高级别的概 念 导出集合的一般特征 如集合元素的个数 集合中 类型或值的区间 或数字数据的加权平均 导出集合的一般特征 如集合元素的个数 集合中 类型或值的区间 或数字数据的加权平均 例如 业余爱好 例如 业余爱好 网

3、球 曲棍球 国际象棋 小提 琴 任天堂游戏 网球 曲棍球 国际象棋 小提 琴 任天堂游戏 可以概化为可以概化为 体育 音乐 电子游 戏 体育 音乐 电子游 戏 列表值或序列值属性列表值或序列值属性 类似集合值属性 所不同的是概化中要保持元素的 次序 类似集合值属性 所不同的是概化中要保持元素的 次序 2006年11月17日星期五Data Mining Concepts and Techniques4 空间和多媒体数据的概化空间和多媒体数据的概化 空间数据空间数据 将一些具体的地理上的点概化为一些聚类区域 如根据土地的用 途可概化为商业区 居民区 工业区和农业区等 将一些具体的地理上的点概化为一

4、些聚类区域 如根据土地的用 途可概化为商业区 居民区 工业区和农业区等 这种概化需要通过空间操作把一组地理区域加以合并这种概化需要通过空间操作把一组地理区域加以合并 图象数据图象数据 通过聚集和 通过聚集和 或或 近似计算可提取近似计算可提取 尺寸 颜色 形状 纹理 方位和图象中所包含对象或区域的相 对位置和结构 尺寸 颜色 形状 纹理 方位和图象中所包含对象或区域的相 对位置和结构 音乐数据音乐数据 其音调的汇总 根据近似计算重复出现的模式片段汇总其音调的汇总 根据近似计算重复出现的模式片段汇总 其风格的汇总 基于音调 节拍或主要演奏乐器汇总其风格的汇总 基于音调 节拍或主要演奏乐器汇总 2

5、006年11月17日星期五Data Mining Concepts and Techniques5 对象数据的概化对象数据的概化 对象标志符 概化到类对象标志符 概化到类 子类层次的类最低层子类层次的类最低层 类复合层次类复合层次 概化嵌套结构数据概化嵌套结构数据 只概化与当前类有只概化与当前类有紧密语义关联紧密语义关联的对象的对象 对象立方体的构造与挖掘对象立方体的构造与挖掘 扩展面向属性的归纳方法扩展面向属性的归纳方法 在不同的属性上应用基于类概化操作符序列在不同的属性上应用基于类概化操作符序列 概化继续进行 直到结果类中所包含的概化对象数目较 少 并且可以汇总为抽象层较高的简练规则 概化

6、继续进行 直到结果类中所包含的概化对象数目较 少 并且可以汇总为抽象层较高的简练规则 高效的实现高效的实现 检查每个属性 把它概化到单值数据检查每个属性 把它概化到单值数据 构造一个多维数据立方体 构造一个多维数据立方体 对象立方体对象立方体 问题 并不总是可以把一组属性值概化为单值数据问题 并不总是可以把一组属性值概化为单值数据 2006年11月17日星期五Data Mining Concepts and Techniques6 用分而治之法进行规划挖掘的一个例子用分而治之法进行规划挖掘的一个例子 规划规划 行为的一个变量序列行为的一个变量序列 例如例如 旅行 飞行 旅行 飞行 规划挖掘 从

7、规划数据库规划挖掘 从规划数据库 大型规划集合 中挖掘出重要的或有意义的 概化 序列 大型规划集合 中挖掘出重要的或有意义的 概化 序列 模式模式 例如 从飞行数据库中发现旅行模式 或例如 从飞行数据库中发现旅行模式 或 从汽车修理数据库中的行为序列发现有意义的模式从汽车修理数据库中的行为序列发现有意义的模式 方法方法 序列数据上的面向属性的归纳序列数据上的面向属性的归纳 一个概化旅行规划一个概化旅行规划 分而治之法 为每个子序列挖掘其特征分而治之法 为每个子序列挖掘其特征 E g 见书见书p267 例 例9 4 2006年11月17日星期五Data Mining Concepts and T

8、echniques7 规划挖掘的一个旅行数据库规划挖掘的一个旅行数据库 例子 旅行规划数据库的挖掘例子 旅行规划数据库的挖掘 plan action departure depart timearrival arrival time airline 11ALB800JFK900TWA 12JFK1000ORD1230UA 13ORD1300LAX1600UA 14LAX1710SAN1800DAL 21SPI900ORD950AA airport code city state region airport size 11ALB800 12JFK1000 13ORD1300 14LAX1710

9、 21SPI900 旅行规划表 机场信息表 2006年11月17日星期五Data Mining Concepts and Techniques8 多维分析多维分析 策略策略 按不同的方向概 化规划库 按不同的方向概 化规划库 找出概化的规划 中的序列模式 找出概化的规划 中的序列模式 导出高层规划导出高层规划 规划数据库的多维视图规划数据库的多维视图 2006年11月17日星期五Data Mining Concepts and Techniques9 多维概化多维概化 Plan Loc SeqSize Seq State Seq 1ALB JFK ORD LAX SANS L L L SN N

10、 I C C 2SPI ORD JFK SYRS L L SI I N N 规划库的多维概化 Plan Size Seq State Seq Region Seq 1S L SN I C E M P 2S L SI N M E 合并规划中连续相同的行为 75 yregionxregion LysizeairportSxsizeairportyxflight 2006年11月17日星期五Data Mining Concepts and Techniques10 基于概化的序列挖掘基于概化的序列挖掘 使用维表按不同的方向概化规划数据库使用维表按不同的方向概化规划数据库 在每一层使用不同的属性值 基

11、数 来决定概化 的正确层 层 在每一层使用不同的属性值 基数 来决定概化 的正确层 层 规划规划 使用合并操作符使用合并操作符 选择操作符选择操作符 来进一步 概化模式 来进一步 概化模式 保留具有重要支持度的模式保留具有重要支持度的模式 2006年11月17日星期五Data Mining Concepts and Techniques11 概化序列模式概化序列模式 满足最小阈值的满足最小阈值的AirportSize 序列 应用合并操作符后 序列 应用合并操作符后 S L S 35 L S 30 S L 24 5 L 9 应用选择操作符后应用选择操作符后 S L S 98 5 大多数时间 人们

12、飞经大机场到达最终目的地大多数时间 人们飞经大机场到达最终目的地 其它规划其它规划 1 5 机会机会 有其它的模式有其它的模式 S S L S L 2006年11月17日星期五Data Mining Concepts and Techniques12 第九章 复杂类型数据的挖掘第九章 复杂类型数据的挖掘 复杂数据对象的多维分析和描述性挖掘复杂数据对象的多维分析和描述性挖掘 空间数据库挖掘空间数据库挖掘 多媒体数据库挖掘多媒体数据库挖掘 时序数据和序列数据的挖掘时序数据和序列数据的挖掘 文本数据库挖掘文本数据库挖掘 Web挖掘挖掘 小结小结 2006年11月17日星期五Data Mining C

13、oncepts and Techniques13 空间数据仓库空间数据仓库 空间数据仓库空间数据仓库 用来进行数据分析和决策支持 的 集成的 用来进行数据分析和决策支持 的 集成的 面向主题的面向主题的 时变的和非易失的空间数 据库 时变的和非易失的空间数 据库 空间数据集成空间数据集成 一个大问题一个大问题 特定的结构形式 基于光栅特定的结构形式 基于光栅 向量的空间数据 面向对象模型 向量的空间数据 面向对象模型 关系模型 各种各样的空间存储 和索引结构 等等 关系模型 各种各样的空间存储 和索引结构 等等 与特定厂家有关与特定厂家有关 ESRI MapInfo Integraph 等等等

14、等 空间数据立方体空间数据立方体 多维空间数据库多维空间数据库 维和度量都可以包含空间维和度量都可以包含空间 2006年11月17日星期五Data Mining Concepts and Techniques14 空间数据库中的维和度量空间数据库中的维和度量 维模型维模型 非空间维非空间维 e g 温度温度 25 30 度概 化到热 度概 化到热 空间 非空间维空间 非空间维 e g 地区地区 B C 概化描 述 概化描 述 western provinces 空间 空间维空间 空间维 e g 地区地区 Burnaby 概概 化到地区化到地区 Lower Mainland 度量度量 数字度量数

15、字度量 分布的分布的 e g count sum 代数的代数的 e g average 整体的整体的 e g median rank 空间度量空间度量 空间指针的集合空间指针的集合 e g 指 向七月气温在 指 向七月气温在25 30度所 有地区的指针 度所 有地区的指针 2006年11月17日星期五Data Mining Concepts and Techniques15 例子例子 BC weather 模式分析模式分析 输入输入 具有散射在具有散射在B C中的大约中的大约3 000 个气候探测器的地图个气候探测器的地图 有关气温 降水 风速等日常数据有关气温 降水 风速等日常数据 所有属性

16、的概念层所有属性的概念层 输出输出 显示模式的地图显示模式的地图 合并合并 相似相似 地区地区 目标目标 交互式分析交互式分析 下钻 切片 切块 转轴 上卷下钻 切片 切块 转轴 上卷 快速的响应时间快速的响应时间 最小化使用的时间最小化使用的时间 挑战挑战 一个合并的区域可能包含成百上千的一个合并的区域可能包含成百上千的 原始原始 地区地区 2006年11月17日星期五Data Mining Concepts and Techniques16 BC Weather空间数据仓库的星 型模式 空间数据仓库的星 型模式 空间数据仓库空间数据仓库 维维 region name维维 Time维维 Temperature维维 Precipitation维维 度量度量 region map area count Fact tableDimension table 2006年11月17日星期五Data Mining Concepts and Techniques17 空间合并空间合并 预计算所有可能的空间合 并 预计算所有可能的空间合 并 太多的存储空间太多的存储空间 在线合并在线合并 太昂贵太昂贵

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号