第5章传统数据挖掘技术

资源描述

《第5章传统数据挖掘技术》由会员分享，可在线阅读，更多相关《第5章传统数据挖掘技术（41页珍藏版）》请在金锄头文库上搜索。

1、第5章传统数据挖掘技术 5 1传统的统计分析类数据挖掘技术5 2统计分析类工具5 3统计分析类工具的应用5 4统计分析类工具应用的问题练习 5 1传统的统计分析类数据挖掘技术 5 1 1统计与统计类数据挖掘技术1 统计与数据挖掘统计推断分析2 统计类数据挖掘技术 5 1传统的统计分析类数据挖掘技术 5 1 2数据的聚集与度量技术常用的聚集函数例如 count sum avg max min 等数据中心趋势度量可以采用算术平均值加权算术平均值 5 1 3柱状图数据挖掘技术 5 1 3柱状图数据挖掘技术 5 1 4线性回归数据挖掘技术线形回归是最简单的回归形式双变量回归将一个随机变量Y 称

2、作响应变量看作为另一个随机变量x 称为预测变量的线形函数即Y x 5 1 5 1 5非线性回归数据挖掘技术双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线 5 1 6聚类数据挖掘技术 1 聚类分析原理 5 1 6聚类数据挖掘技术 1 聚类分析原理孤立点或奇异点欧几里得距离 q 2 曼哈顿距离 q 1 明考斯基距离 2 分层聚类内蒙古9湖北13山东2辽宁5吉林12黑龙江6江西7上海8陕西10广西11广东3海南4浙江15新疆自治区14江苏1CASE0510152025LabelNum BIRCH算法引入了聚类特征和聚类特征树 CF树概念一个聚类特征

3、 CF 是一个三元组给出对象子聚类的信息汇总描述如果某个子聚类中有N个d维的点或对象则该子聚类的CF定义为CF N LS SS 其中 N是子类中点的数目 LS是N个点的线性和 SS是数据点的平方和如果某子聚类中有五个点 2 4 1 6 4 5 3 7 5 8 那么LS 2 1 4 3 5 4 6 5 7 8 15 30 SS 2 2 1 1 4 4 3 3 5 5 4 4 6 6 5 5 7 7 8 8 55 190 则可以得到CF 5 15 30 55 190 CF树中所存储的是关于聚类的信息这些信息是计算聚类和有效利用存储的关键度量每个叶节点包含一个或多个子聚类每个子聚类中包

4、含一个或多个对象一个CF树有两个参数即分支因子B和阀值T 分支因子定义了每个非叶节点的后代最大数目阀值参数给出了存储在叶节点中的子聚类的最大直径 BIRCH算法主要分两个阶段进行阶段一扫描数据库建立一个初始的CF树看作一个数据的多层压缩试图保留数据内在的聚类结构当一个对象被插入到最近的叶节点子聚类中时如果在插入对象后存储在叶节点中子聚类的直径大于阀值那么该叶节点被分裂也可能有其他节点被分裂新对象插入后关于该对象的信息向根节点传递通过修改阀值 CF树的大小可以改变阶段二采用某个聚类算法对CF树的叶节点进行聚类 BIRCH算法具有可伸缩性通过对数据集的首次

5、扫描产生一个基本聚类二次扫描则进一步改进聚类质量并处理孤立点 BIRCH算法处理速度较快只是对非球形簇处理效果不好 CURE算法的主要步骤如下从源数据集中抽取一个随机样本S 将样本S划分为一组划分对每个划分进行局部的聚类通过随机抽样剔除孤立点如果一个簇增长太慢就删除该簇对局部的簇进行聚类落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动这些点代表了簇的形状用相应的簇标签来标记数据 3 划分聚类k 平均算法最为简单每个簇用该簇中对象的平均值来表示首先将所有对象随机分配到k个非空的簇中计算每个簇的平均值并用该平均值代表相应的簇根据每个对象与各个簇中

6、心的距离分配给最近的簇然后转第二步重新计算每个簇的平均值这个过程不断重复直到满足某个准则函数才停止 k 中心点算法每个簇用接近聚类中心的一个对象来表示首先为每个簇选择一个代表对象剩余的对象根据其与代表对象的距离分配给最近的一个簇然后反复用非代表对象代替代表对象以提高聚类的质量 4 密度聚类DBSCAN算法首先需要用户给定聚类对象的半径邻域和邻域中最少要包含的对象数MitPts 然后算法检查某个对象邻域中的对象数如果对象数大于MitPts 该对象就是核心对象就构建以该对象为核心的新簇然后反复寻找从这些核心对象出发在邻域内的对象这个寻找过程可能会合并一些簇直到没有

7、新的对象可以添加到任何簇中为止 4 密度聚类OPTICS算法是对DBSCAN算法的改进因为在DBSCAN算法中需要用户设定邻域和MitPts 但是在实际应用中用户往往很难确定这些参数而且这些参数设置的不同往往会导致聚类结果有很大差别在OPTICS算法中认定对象应该以特定的顺序进行处理这个顺序首先处理最小的值密度可达的对象这样可以首先完成高密度的聚类 4 密度聚类DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟这个函数为影响函数所聚类数据空间的整体密度看成是所有数据点影响函数的总和在聚类时就根据全局密度函数的局部最大即密度吸引点来确定 5

8、网格聚类STING算法将数据空间区域划分为矩形单元并且对应于不同级别的分辨率存在着不同级别的矩形单元高层的每个单元被分为多个低一层的单元每个网络单元的统计信息被预先计算和存储供处理和查询使用 5 网格聚类利用STING算法可以自顶向下回答查询从层次中选定一层含较少单元的层次作为查询处理的开始对当前层次的每个单元计算置信区间用以反映该网格单元与给定查询的关联程度当前层次处理完毕转入下一层次处理下一层次时只检查处理相关单元重复以上过程直到底层处理完毕如果查询要求满足就返回相关单元的区域否则检索和进一步处理相关单元中的数据直到满足查询要求为止 5 网格聚类Wav

9、eCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据每个网格单元汇总了一组映射到该单元中的点的信息然后采用一种小波变换对原特征空间进行变换汇总信息在进行小波变换时使用接着在变换后的空间中找到聚类区域小波变换的聚类是无监督聚类不用事先假定聚类的形状可以发现任意形状的聚类边界弱信号不会被屏蔽可以剔除孤立点本身运算开销不大 5 网格聚类基于网格和密度的聚类CLIQUE算法主要步骤是将数据空间划分为互不相交的长方形单元记录每个单元中的对象数用先验性质识别包含簇的子空间在符合兴趣度的子空间中先找出密集单元再找出相连接的密集单元以识别簇为每个簇生成最小化

10、的描述 5 1 7最近邻数据挖掘技术基本概念是相互之间接近的对象具有相似的预测值如果你知道了其中一个对象的预测值后就可以用它来预测其最近的邻居对象 5 1 7最近邻数据挖掘技术 5 2统计分析类工具 5 2 1统计类数据挖掘工具SAS和SPSS许多数据挖掘工具中都使用了这样一些统计分析过程决策树推断 C4 5 CART 规则推断 AQ CN2 RECON 最近邻方法聚类方法关联规则特征提取和可视化等 5 2 2统计类数据挖掘的商业分析统计分析工具已经开始为商业分析人员所采纳和应用处于知识发现工具和信息处理工具之间的数据挖掘工具统计类数据挖掘工具可以完成信息的分析处理并能

11、进一步进行商业活动的统计分析 5 2 3统计类数据挖掘工具的功能 1 可视化功能2 探索功能3 统计功能和操作4 数据管理功能5 显示功能6 挖掘结果描述功能7 开发工具8 可接受的响应时间 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 5 2 4统计类数据挖掘工具 SPSS 1 基本统计分析报告分析通过命令 Analyze Report 可以启动联机分析处理 OLAPCubes 观察值摘要分析 CasesSummary 行式摘要报告 ReportSummariesinRows 和列式摘要报告 ReportSummari

12、esinColumns 等分析描述性统计分析可以通过 Analyze DescriptiveStatistics 启动频数分析 Frequencies 描述形统计量分析 Descriptives 探索分析 Explore 和多维频数分布列联表 Crosstabs 5 2 4统计类数据挖掘工具 SPSS 2 回归分析线性回归分析 Linear 曲线回归分析 CurveEstimation 二维logistic回归分析 BinaryLogistic 多维logistic回归分析 MultinomialLogistic Ordinal回归分析 Ordinal 概率单位回归分析 Proibit 和非

13、线性回归分析 Nonlinear 等统计分析这些回归分析均在 Analyze Regression 菜单项中启动 3 相关分析相关分析 Bivariate 偏相关分析 Partial 和距离分析 Distances 等数据分析功能相关分析的启动需要使用命令 Analyze Correlate 5 2 4统计类数据挖掘工具 SPSS 4 分类分析快速样本聚类 K MeansCluster 层次聚类 HierarchicalCluster 和判别分类 Discriminant 这些分类方法均可在命令 Analyze Classify 下启动 5 因子分析用 Analyze DataReduct

14、ion Factor 命令可以进行因子分析 5 3统计分析类工具的应用 5 3 1趋势分析 5 3 2时序分析5 3 3周期分析 5 4统计分析类工具应用的问题 5 4 1统计类数据挖掘的预处理问题1 空缺值处理 1 忽略元组 2 人工填写空缺值 3 使用一个全局变量填充空缺值 4 使用属性的平均值填充空缺值 5 使用最可能的值填充空缺值 5 4统计分析类工具应用的问题 5 4 2统计分析应遵循的基本原则1 与定性分析相结合原则2 连贯和类推原则3 统计资料的可靠性和分析公式的适应性原则 5 4统计分析类工具应用的问题 5 4 3统计分析的步骤1 确定分析目标2 收集审核及分析统计资料3 确

15、定分析模型选择分析方法4 进行分析5 分析误差分析 5 4统计分析类工具应用的问题 5 4 4统计类数据挖掘的性能问题统计方法的优点是精确易理解并且已经被广泛应用许多人认为统计方法是数据挖掘最准确的形式并且事实上许多数据挖掘技术都利用存在已久的统计技术一种很流行的决策树方法CHAID用卡方度量关联算法使用了支持度和置信度聚类技术使用了K均值算法之类的统计尺度贝叶斯网使用1763年就存在的统计技术贝叶斯概率理论 5 4统计分析类工具应用的问题统计学在数据挖掘领域受到的最大责难是很难有效使用数据挖掘是从数据中抽取有价值的信息的过程而统计学是一个完整的研究领域包括从数据中

16、抽取有价值信息统计学家与想利用分析模型的其他商业人员间总是存在隔阂许多商业人员经常无法搞清楚如何将商业问题与统计处理联系在一起因此有人认为数据挖掘与统计学不同商业人员更加容易掌握数据挖掘 IBM SPSS和SAS等软件公司一直在为打破这种观点而努力它们将标准的统计模型和神经元决策树以及其他与数据挖掘有关的技术结合在一起并取得了较好的效果统计分析作为一种有力的数挖掘技术可以了解客户市场产品和其他关键商业参数但在使用中也存在一些问题例如它是劳动力密集的需要相当一部分统计分析员和商业分析员的分析劳动成功的可能性很大程度上依赖于商业分析员解决问题的能力不能自行查找隐藏在数据背后的知识在许多情况下商业分析员并不知道要查找什么或者无法选择离散的变量来启动分析处理此时统计分析工具就难以承担重任在进行市场细分时很难集成和分析非数字化数据例如地理数据一般情况下只适合数字化的数据处理一般很难以合理的成本获得可接受的响应时间即在使用统计类数据挖掘工具过程中往往需要较高的成本投入但是却不能很快获得管理人员所需要的挖掘结果

展开阅读全文

第5章 传统数据挖掘技术

最新文档

第5章传统数据挖掘技术