数据挖掘概述-王德民

资源描述

《数据挖掘概述-王德民》由会员分享，可在线阅读，更多相关《数据挖掘概述-王德民（98页珍藏版）》请在金锄头文库上搜索。

1、人人享用智慧清洁能源慧聪网（（知识发现关键步骤 989年 8月首次出现在在美国底特律召开的第 11届国际人工智能联合会议的专题讨论会中。人人享用智慧清洁能源数据挖掘现状国外 1989年至今每年举行一次国际研讨会议，有 30多家公司已经有了数据挖掘软件，并且不少软件已经在北美、欧洲等国得到了应用国内 1993年至今国内 1993年国家自然科学基金首次支持数据挖掘领域的项目研究，此后，许多科研机构和高等学院相继展开了此方面的基础理论和应用研究，并取得了一定的成果。人人享用智慧清洁能源数据挖掘的意义数据挖掘的功能分类：按照对象的数学、特征，建立不同的组来描

2、述事物。如：银行贷款方案等。聚类：识别分析对象的内心规则，按照规则将对象分类，如贷款风险分为高度、中度、低度等。关联：某种事物发生时与其他事物会发生的一种内在联系，如：啤酒和尿布的例子。预测：分析对象发展的规律，对未来的趋势做出预测，如：风电功率预测等。人人享用智慧清洁能源数据挖掘的流程步骤业务理解数据理解数据准备建立模型模型评估系统部署数据据挖掘标准模型图人人享用智慧清洁能源数据挖掘的流程步骤 1、业务理解业务目标可行性分析数据挖掘目标项目计划项目背景业务需求最终目标拥有资源条件、限制风险、效益评估技术上表示：决策树等明确挖掘目标确定成功

3、标准初步估计用到的工具和技术人人享用智慧清洁能源数据挖掘的流程步骤 2、数据理解数据收集：收集项目涉及到的所有数据，做一些初步的数据集成工作，生产相应报告。数据描述：对数据进行大致的描述，如记录数、属性数等，给出相应报告。数据探索：对数据进行简单的统计分析，例如关键属性的分布等。数据检查：数据的完整性、真实性等。人人享用智慧清洁能源数据挖掘的流程步骤 3、数据准备数据选择：根据数据挖掘目标和数据质量选择合适的数据。数据清洁：提高所选数据的质量，例如去噪处理、估计缺失值等。数据创建：在原有数据的基础上生产新的属性或记录。数据合并：利用表连接等

4、方式对数据集合进行合并。数据格式化：将数据转换成适合数据挖掘处理的格式。人人享用智慧清洁能源数据挖掘的流程步骤 4、模型建立建模技术选择：确定数据挖掘算法和参数，可能会利用多个算法；测试方案设计：设计某种测试模型的质量和有效性机制；模型训练：在准备好的数据集上运行数据挖掘算法，得出一个或多个模型；模型测试评估：根据测试方案进行测试，从数据挖掘技术的角度确定数据挖掘目标是否成功。人人享用智慧清洁能源数据挖掘的流程步骤 5、模型评估结果评估：从商业角度评估得到的模型，甚至实际试用该模型测试其效果；过程回顾：回顾项目的所有流程，确定每个阶段都没有

5、失误；确定下一步工作：根据结果评估和过程回顾得出的结论，确定是部署该挖掘模型还是从某个阶段重新开始。人人享用智慧清洁能源数据挖掘的流程步骤 6、模型部署部署计划：对在业务运作中部署模型做出计划；监控和维护计划：如何监控模型在实际业务中的使用情况，如何维护该模型；做出最终报告：项目总结，项目经验和项目结果；项目回顾：回顾项目的实施过程，总结经验教训；对数据挖掘的运行效果做一个预测。人人享用智慧清洁能源原始数据数据模式知识应用准备挖掘解释运用数据挖掘的流程步骤各步骤之间互相影响、反复调整，形成一种螺旋式上升过程。人人享用智慧清洁能源数据挖掘的流程步

6、骤人人享用智慧清洁能源数据挖掘技术数据挖掘技术聚类（分类（关联（预测（数据挖掘的工具数据挖掘的可视化人人享用智慧清洁能源数据挖掘技术聚类聚类（定义：“ 物以类聚，人以群分 ” ，将物理或抽象对象的集合分成由类似的对象组成的多个类的过程称为聚类。同簇相似，他簇相异。）基于划分的方法基于层次的方法基于密度的方法基于网络的方法基于模型的方法人人享用智慧清洁能源数据挖掘技术聚类相似度在各种聚类算法中，通常是需要借助量化的指标以表征数据对象之间的特征差异和不同，称之为聚类统计量。聚类统计量包括：距离或相似度。标准化由于不同

7、的特征采用不同的度量标准或尺度，这将对聚类结果产生不同的影响，为了消除这一差别，常进行标准化变换，使所有的特征能用一个共同的标准度量。人人享用智慧清洁能源数据挖掘技术聚类距离的计算距离可以自己定义，只要满足距离的条件就行。第个和第个样本之间的距离要满足三个条件： (1) (2) (3) 常用的距离计算方法有：欧氏距离和曼哈顿距离。 i = j 当且仅当成立；ij d i j 对一切和成立；0i j 对一切和成立；ij ik d + d i j 对一切和成立；人人享用智慧清洁能源数据挖掘技术聚类欧氏距离（计算

8、欧式空间中两点间的距离公式。人人享用智慧清洁能源数据挖掘技术聚类曼哈顿距离（计算城市街区距离（沿道路距离。人人享用智慧清洁能源数据挖掘技术聚类相似度计算异）度矩阵（表示。它是一个对角线元素为 1的对称矩阵，即。其中，是对象和之间相似性的量化表示，通常其值是非负的。对象和关系越亲密，其绝对值越接近 1；彼此关系越疏远，其值越接近于 0。对象间相似度的计算方法包括：夹角余弦法、相关系数法及指数相似系数法等。 ()ij i 数据挖掘技术聚类相关系数其中： 12211( ) ( )( ) ) ( )i jk i jk

9、x x x x x 11 11 人人享用智慧清洁能源余弦夹角类似二维空间中两个向量的夹角余弦计算公式，机器学习中借用这一概念衡量夹角余弦取值范围为 ,余弦越大表示夹角越小，两向量反向时夹角余弦值最小为正同向最大为 1。数据挖掘技术聚类 12211c o i k i k 人人享用智慧清洁能源数据挖掘技术聚类标准化处理经过标准变换处理后，每个变量即数据矩阵中每列数据的平均值为 0，方差为 1. * ( 1 , 2 , 3 . . . , ; 1 , 2 , 3 . . . )i j i n j 211 ()1nj i j x 人人享用智慧清洁能源数据挖掘技术聚类中心化变换

10、中心化变换的结果是使每列数据之和均为 0，即每个变量的均值为 0。 * ( 1 , 2 , 3 . . . , ; 1 , 2 , 3 . . . )i j i j jx x x i n j p 11 nj 1 , 2 , 3 . . 人享用智慧清洁能源数据挖掘技术聚类极差标准化变换极差：变换后每个变量的均值为 0，极差为 1。 * ij 1 , . . . . .m a x m i nj i j i x x人人享用智慧清洁能源数据挖掘技术聚类极差规格化变换经过规格变换后，数据矩阵中每列即每个变量的最大值为 1，最小值为 0，其余数据均在 0 1 , . . .*m 1 ,

11、 2 , 3 . . . , ; 1 , 2 , 3 . . . )i j i i n j *01人人享用智慧清洁能源数据挖掘技术聚类 (基于划分 ) 基于划分的聚类方法给定一个由此数据集合构建），每个划分代表一个簇，即将数据集合分成多个簇的算法。要求：每个簇至少有一个对象；每个对象必须且仅属于一个簇。典型算法人享用智慧清洁能源数据挖掘技术聚类 (基于划分 ) 基本思想：（ 1）首先，随机选择（ 2）然后，计算其他点到这些聚类中心点的距离，通过对簇中距离平均值的计算，不断改变这些聚类中心的位置，直到这些聚类中心不再变化。人人享用智慧清洁能源数据挖掘技术聚类 (基于划分 ) 人人享用智慧清洁能源数据挖掘技术聚类 (基于划分 ) 优势：（ 1）算法简单；（ 2）在已知簇的个数时，可很好的实现数据的聚类分析；（ 3）执行和收敛过程较快，是一种常见的聚类算法。人人享用智慧清洁能源数据挖掘技术聚类 (基于划分 ) 局限性：（ 1）必须事先明确聚类数他们的选取对结果影响较大；（ 2）对孤立点较为敏感；（ 3）距离平均值的计算必须有适当的定义。人人享用智慧清洁能源数据挖掘技术聚类 (基于划分 ) 基本思想：（ 1）而选用簇中离

展开阅读全文