第5章 传统数据挖掘技术

上传人:012****78 文档编号:132705216 上传时间:2020-05-19 格式:PPT 页数:41 大小:253.50KB
返回 下载 相关 举报
第5章 传统数据挖掘技术_第1页
第1页 / 共41页
第5章 传统数据挖掘技术_第2页
第2页 / 共41页
第5章 传统数据挖掘技术_第3页
第3页 / 共41页
第5章 传统数据挖掘技术_第4页
第4页 / 共41页
第5章 传统数据挖掘技术_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《第5章 传统数据挖掘技术》由会员分享,可在线阅读,更多相关《第5章 传统数据挖掘技术(41页珍藏版)》请在金锄头文库上搜索。

1、第5章传统数据挖掘技术 5 1传统的统计分析类数据挖掘技术5 2统计分析类工具5 3统计分析类工具的应用5 4统计分析类工具应用的问题练习 5 1传统的统计分析类数据挖掘技术 5 1 1统计与统计类数据挖掘技术1 统计与数据挖掘统计推断分析2 统计类数据挖掘技术 5 1传统的统计分析类数据挖掘技术 5 1 2数据的聚集与度量技术常用的聚集函数 例如 count sum avg max min 等数据中心趋势度量 可以采用算术平均值加权算术平均值 5 1 3柱状图数据挖掘技术 5 1 3柱状图数据挖掘技术 5 1 4线性回归数据挖掘技术 线形回归是最简单的回归形式 双变量回归将一个随机变量Y 称

2、作响应变量 看作为另一个随机变量x 称为预测变量 的线形函数 即Y x 5 1 5 1 5非线性回归数据挖掘技术 双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线 5 1 6聚类数据挖掘技术 1 聚类分析原理 5 1 6聚类数据挖掘技术 1 聚类分析原理 孤立点 或 奇异点 欧几里得距离 q 2 曼哈顿距离 q 1 明考斯基距离 2 分层聚类 内蒙古9湖北13山东2辽宁5吉林12黑龙江6江西7上海8陕西10广西11广东3海南4浙江15新疆自治区14江苏1CASE0510152025LabelNum BIRCH算法引入了聚类特征和聚类特征树 CF树 概念 一个聚类特征

3、 CF 是一个三元组 给出对象子聚类的信息汇总描述 如果某个子聚类中有N个d维的点或对象 则该子聚类的CF定义为CF N LS SS 其中 N是子类中点的数目 LS是N个点的线性和 SS是数据点的平方和 如果某子聚类中有五个点 2 4 1 6 4 5 3 7 5 8 那么LS 2 1 4 3 5 4 6 5 7 8 15 30 SS 2 2 1 1 4 4 3 3 5 5 4 4 6 6 5 5 7 7 8 8 55 190 则可以得到CF 5 15 30 55 190 CF树中所存储的是关于聚类的信息 这些信息是计算聚类和有效利用存储的关键度量 每个叶节点包含一个或多个子聚类 每个子聚类中包

4、含一个或多个对象 一个CF树有两个参数 即分支因子B和阀值T 分支因子定义了每个非叶节点的后代最大数目 阀值参数给出了存储在叶节点中的子聚类的最大直径 BIRCH算法主要分两个阶段进行 阶段一 扫描数据库 建立一个初始的CF树 看作一个数据的多层压缩 试图保留数据内在的聚类结构 当一个对象被插入到最近的叶节点 子聚类 中时 如果在插入对象后 存储在叶节点中子聚类的直径大于阀值 那么该叶节点被分裂 也可能有其他节点被分裂 新对象插入后 关于该对象的信息向根节点传递 通过修改阀值 CF树的大小可以改变 阶段二 采用某个聚类算法对CF树的叶节点进行聚类 BIRCH算法具有可伸缩性 通过对数据集的首次

5、扫描产生一个基本聚类 二次扫描则进一步改进聚类质量并处理孤立点 BIRCH算法处理速度较快 只是对非球形簇处理效果不好 CURE算法的主要步骤如下 从源数据集中抽取一个随机样本S 将样本S划分为一组划分 对每个划分进行局部的聚类 通过随机抽样剔除孤立点 如果一个簇增长太慢 就删除该簇 对局部的簇进行聚类 落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动 这些点代表了簇的形状 用相应的簇标签来标记数据 3 划分聚类k 平均算法最为简单 每个簇用该簇中对象的平均值来表示 首先将所有对象随机分配到k个非空的簇中 计算每个簇的平均值 并用该平均值代表相应的簇 根据每个对象与各个簇中

6、心的距离 分配给最近的簇 然后转第二步 重新计算每个簇的平均值 这个过程不断重复直到满足某个准则函数才停止 k 中心点算法每个簇用接近聚类中心的一个对象来表示 首先为每个簇选择一个代表对象 剩余的对象根据其与代表对象的距离分配给最近的一个簇 然后反复用非代表对象代替代表对象 以提高聚类的质量 4 密度聚类DBSCAN算法首先需要用户给定聚类对象的半径 邻域和 邻域中最少要包含的对象数MitPts 然后算法检查某个对象 邻域中的对象数 如果对象数大于MitPts 该对象就是核心对象 就构建以该对象为核心的新簇 然后反复寻找从这些核心对象出发在 邻域内的对象 这个寻找过程可能会合并一些簇 直到没有

7、新的对象可以添加到任何簇中为止 4 密度聚类OPTICS算法是对DBSCAN算法的改进 因为在DBSCAN算法中需要用户设定 邻域和MitPts 但是在实际应用中用户往往很难确定这些参数 而且这些参数设置的不同往往会导致聚类结果有很大差别 在OPTICS算法中认定对象应该以特定的顺序进行处理 这个顺序首先处理最小的 值密度可达的对象 这样可以首先完成高密度的聚类 4 密度聚类DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟 这个函数为影响函数 所聚类数据空间的整体密度看成是所有数据点影响函数的总和 在聚类时就根据全局密度函数的局部最大 即密度吸引点来确定 5

8、网格聚类STING算法将数据空间区域划分为矩形单元 并且对应于不同级别的分辨率 存在着不同级别的矩形单元 高层的每个单元被分为多个低一层的单元 每个网络单元的统计信息被预先计算和存储 供处理和查询使用 5 网格聚类利用STING算法可以自顶向下回答查询 从层次中选定一层 含较少单元的层次 作为查询处理的开始 对当前层次的每个单元计算置信区间 用以反映该网格单元与给定查询的关联程度 当前层次处理完毕 转入下一层次 处理下一层次时只检查处理相关单元 重复以上过程 直到底层处理完毕 如果查询要求满足 就返回相关单元的区域 否则检索和进一步处理相关单元中的数据 直到满足查询要求为止 5 网格聚类Wav

9、eCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据 每个网格单元汇总了一组映射到该单元中的点的信息 然后采用一种小波变换对原特征空间进行变换 汇总信息在进行小波变换时使用 接着在变换后的空间中找到聚类区域 小波变换的聚类是无监督聚类 不用事先假定聚类的形状 可以发现任意形状的聚类 边界弱信号不会被屏蔽 可以剔除孤立点 本身运算开销不大 5 网格聚类基于网格和密度的聚类CLIQUE算法主要步骤是 将数据空间划分为互不相交的长方形单元 记录每个单元中的对象数 用先验性质识别包含簇的子空间 在符合兴趣度的子空间中先找出密集单元 再找出相连接的密集单元 以识别簇 为每个簇生成最小化

10、的描述 5 1 7最近邻数据挖掘技术基本概念是 相互之间 接近 的对象具有相似的预测值 如果 你知道了其中一个对象的预测值后 就可以用它来预测其最近的邻居对象 5 1 7最近邻数据挖掘技术 5 2统计分析类工具 5 2 1统计类数据挖掘工具SAS和SPSS许多数据挖掘工具中都使用了这样一些统计分析过程 决策树推断 C4 5 CART 规则推断 AQ CN2 RECON 最近邻方法 聚类方法 关联规则 特征提取和可视化等 5 2 2统计类数据挖掘的商业分析 统计分析工具已经开始为商业分析人员所采纳和应用处于知识发现工具和信息处理工具之间的数据挖掘工具统计类数据挖掘工具可以完成信息的分析处理 并能

11、进一步进行商业活动的统计分析 5 2 3统计类数据挖掘工具的功能 1 可视化功能2 探索功能3 统计功能和操作4 数据管理功能5 显示功能6 挖掘结果描述功能7 开发工具8 可接受的响应时间 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 1 基本统计分析报告分析通过命令 Analyze Report 可以启动联机分析处理 OLAPCubes 观察值摘要分析 CasesSummary 行式摘要报告 ReportSummariesinRows 和列式摘要报告 ReportSummari

12、esinColumns 等分析 描述性统计分析可以通过 Analyze DescriptiveStatistics 启动频数分析 Frequencies 描述形统计量分析 Descriptives 探索分析 Explore 和多维频数分布列联表 Crosstabs 5 2 4统计类数据挖掘工具 SPSS 2 回归分析线性回归分析 Linear 曲线回归分析 CurveEstimation 二维logistic回归分析 BinaryLogistic 多维logistic回归分析 MultinomialLogistic Ordinal回归分析 Ordinal 概率单位回归分析 Proibit 和非

13、线性回归分析 Nonlinear 等统计分析 这些回归分析均在 Analyze Regression 菜单项中启动 3 相关分析相关分析 Bivariate 偏相关分析 Partial 和距离分析 Distances 等数据分析功能 相关分析的启动需要使用命令 Analyze Correlate 5 2 4统计类数据挖掘工具 SPSS 4 分类分析快速样本聚类 K MeansCluster 层次聚类 HierarchicalCluster 和判别分类 Discriminant 这些分类方法均可在命令 Analyze Classify 下启动 5 因子分析用 Analyze DataReduct

14、ion Factor 命令可以进行因子分析 5 3统计分析类工具的应用 5 3 1趋势分析 5 3 2时序分析5 3 3周期分析 5 4统计分析类工具应用的问题 5 4 1统计类数据挖掘的预处理问题1 空缺值处理 1 忽略元组 2 人工填写空缺值 3 使用一个全局变量填充空缺值 4 使用属性的平均值填充空缺值 5 使用最可能的值填充空缺值 5 4统计分析类工具应用的问题 5 4 2统计分析应遵循的基本原则1 与定性分析相结合原则2 连贯和类推原则3 统计资料的可靠性和分析公式的适应性原则 5 4统计分析类工具应用的问题 5 4 3统计分析的步骤1 确定分析目标2 收集 审核及分析统计资料3 确

15、定分析模型 选择分析方法4 进行分析5 分析误差分析 5 4统计分析类工具应用的问题 5 4 4统计类数据挖掘的性能问题统计方法的优点是精确 易理解并且已经被广泛应用 许多人认为统计方法是数据挖掘最准确的形式 并且事实上 许多数据挖掘技术都利用存在已久的统计技术 一种很流行的决策树方法CHAID用卡方度量 关联算法使用了支持度和置信度 聚类技术使用了K均值算法之类的统计尺度 贝叶斯网使用1763年就存在的统计技术 贝叶斯概率理论 5 4统计分析类工具应用的问题 统计学在数据挖掘领域受到的最大责难是很难有效使用 数据挖掘是从数据中抽取有价值的信息的过程 而统计学是一个完整的研究领域 包括从数据中

16、抽取有价值信息 统计学家与想利用分析模型的其他商业人员间总是存在隔阂 许多商业人员经常无法搞清楚如何将商业问题与统计处理联系在一起 因此 有人认为数据挖掘与统计学不同 商业人员更加容易掌握数据挖掘 IBM SPSS和SAS等软件公司一直在为打破这种观点而努力 它们将标准的统计模型和神经元 决策树以及其他与数据挖掘有关的技术结合在一起 并取得了较好的效果 统计分析作为一种有力的数挖掘技术 可以了解客户 市场 产品和其他关键商业参数 但在使用中也存在一些问题 例如 它是劳动力密集的 需要相当一部分统计分析员和商业分析员的分析劳动 成功的可能性很大程度上依赖于商业分析员解决问题的能力 不能自行查找隐藏在数据背后的知识 在许多情况下 商业分析员并不知道要查找什么 或者无法选择离散的变量来启动分析处理 此时 统计分析工具就难以承担重任 在进行市场细分时 很难集成和分析非数字化数据 例如地理数据 一般情况下只适合数字化的数据处理 一般很难以合理的成本获得可接受的响应时间 即在使用统计类数据挖掘工具过程中往往需要较高的成本投入 但是却不能很快获得管理人员所需要的挖掘结果

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号