数据挖掘概述-王德民

上传人:pu****.1 文档编号:262985 上传时间:2017-01-12 格式:PDF 页数:98 大小:1.46MB
返回 下载 相关 举报
数据挖掘概述-王德民_第1页
第1页 / 共98页
数据挖掘概述-王德民_第2页
第2页 / 共98页
数据挖掘概述-王德民_第3页
第3页 / 共98页
数据挖掘概述-王德民_第4页
第4页 / 共98页
数据挖掘概述-王德民_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《数据挖掘概述-王德民》由会员分享,可在线阅读,更多相关《数据挖掘概述-王德民(98页珍藏版)》请在金锄头文库上搜索。

1、人人享用智慧清洁能源 慧聪网( ( 知识发现 关键步骤 989年 8月首次出现在在美国底特律召开的第 11届国际人工智能联合会议的专题讨论会中。 人人享用智慧清洁能源 数据挖掘现状 国外 1989年 至今 每年举行一次国际研讨会议,有 30多家公司已经有了数据挖掘软件,并且不少软件已经在北美、欧洲等国得到了应用 国内 1993年 至今 国内 1993年国家自然科学基金首次支持数据挖掘领域的项目研究, 此后,许多科研机构和高等学院相继展开了此方面的基础理论和应用 研究,并取得了一定的成果。 人人享用智慧清洁能源 数据挖掘的意义 数据挖掘的功能 分类:按照对象的数学 、 特征 , 建立不同的组来描

2、 述事物 。 如:银行贷款方案等 。 聚类:识别分析对象的内心规则,按照规则将对象分 类,如贷款风险分为高度、中度、低度等。 关联:某种事物发生时与其他事物会发生的一种内在联系,如:啤酒和尿布的例子。 预测:分析对象发展的规律,对未来的趋势做出预测,如:风电功率预测等。 人人享用智慧清洁能源 数据挖掘的流程步骤 业务理解 数据理解数据准备建立模型模型评估系统部署数据据挖掘标准模型图 人人享用智慧清洁能源 数据挖掘的流程步骤 1、业务理解 业务目标 可行性分析 数据挖掘目标 项目计划 项目背景 业务需求 最终目标 拥有资源 条件、限制 风险、效益评估 技术上表示:决策树等 明确挖掘目标 确定成功

3、标准 初步估计用到的工具和技术 人人享用智慧清洁能源 数据挖掘的流程步骤 2、数据理解 数据收集:收集项目涉及到的所有数据,做一些 初步的数据集成工作,生产相应报告。 数据描述:对数据进行大致的描述,如记录数、 属性数等,给出相应报告。 数据探索:对数据进行简单的统计分析 , 例如 关键属性的分布等 。 数据检查:数据的完整性、真实性等。 人人享用智慧清洁能源 数据挖掘的流程步骤 3、数据准备 数据选择:根据数据挖掘目标和数据质量选择合适 的数据。 数据清洁:提高所选数据的质量 , 例如去噪处理 、 估计缺失值等 。 数据创建:在原有数据的基础上生产新的属性或记 录 。 数据合并:利用表连接等

4、方式对数据集合进行合并。 数据格式化:将数据转换成适合数据挖掘处理的格 式。 人人享用智慧清洁能源 数据挖掘的流程步骤 4、模型建立 建模技术选择:确定数据挖掘算法和参数,可能会 利用多个算法; 测试方案设计:设计某种测试模型的质量和有效性 机制; 模 型 训 练 : 在准备好的数据集上运行数据挖掘 算法 , 得出一个或多个模型; 模型测试评估:根据测试方案进行测试,从数据挖 掘技术的角度确定数据挖掘目标是否成功。 人人享用智慧清洁能源 数据挖掘的流程步骤 5、模型评估 结果评估:从商业角度评估得到的模型,甚至实际试 用该模型测试其效果; 过程回顾:回顾项目的所有流程 , 确定每个阶段都 没有

5、失误; 确定下一步工作:根据结果评估和过程回顾得出的 结论 , 确定是部署该挖掘模型还是从某个阶段重新开始 。 人人享用智慧清洁能源 数据挖掘的流程步骤 6、模型部署 部署计划:对在业务运作中部署模型做出计划; 监控和维护计划:如何监控模型在实际业务中的使 用情况 , 如何维护该模型; 做出最终报告:项目总结 , 项目经验和项目结果; 项目回顾:回顾项目的实施过程 , 总结经验教训; 对数据挖掘的运行效果做一个预测 。 人人享用智慧清洁能源 原始数据数据模式知识应用准备挖掘解释运用数据挖掘的流程步骤 各步骤之间互相影响、反复调整,形成一种螺旋式上升过程。 人人享用智慧清洁能源 数据挖掘的流程步

6、骤 人人享用智慧清洁能源 数据挖掘技术 数据挖掘技术 聚类( 分类( 关联( 预测( 数据挖掘的工具 数据挖掘的可视化 人人享用智慧清洁能源 数据挖掘技术 聚类 聚类 ( 定义:“ 物以类聚 , 人以群分 ” , 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程称为聚类 。 同簇相似 ,他簇相异 。 ) 基于划分的方法 基于层次的方法 基于密度的方法 基于网络的方法 基于模型的方法 人人享用智慧清洁能源 数据挖掘技术 聚类 相似度 在各种聚类算法中 , 通常是需要借助量化的指标以表征数据对象之间的特征差异和不同 , 称之为聚类统计量 。聚类统计量包括:距离或相似度 。 标准化 由于不同

7、的特征采用不同的度量标准或尺度 , 这将对聚类结果产生不同的影响 , 为了消除这一差别 , 常进行标准化变换 , 使所有的特征能用一个共同的标准度量 。 人人享用智慧清洁能源 数据挖掘技术 聚类 距离的计算 距离可以自己定义,只要满足距离的条件就行。第个和第 个样本之间的距离 要满足三个条件: (1) (2) (3) 常用的距离计算方法有:欧氏距离和曼哈顿距离。 i = j 当 且 仅 当 成 立 ;ij d i j 对 一 切 和 成 立 ;0i j 对 一 切 和 成 立 ;ij ik d + d i j 对 一 切 和 成 立 ;人人享用智慧清洁能源 数据挖掘技术 聚类 欧氏距离( 计算

8、 欧式空间中两点间的距离公式。 人人享用智慧清洁能源 数据挖掘技术 聚类 曼哈顿距离( 计算 城市街区距离( 沿道路距离。 人人享用智慧清洁能源 数据挖掘技术 聚类 相似度计算 异 )度矩阵 ( 表示 。 它是一个 对角线元素为 1的对称矩阵 , 即 。 其中 , 是对象 和 之间相似性的量化表示 , 通常其值是非负的 。 对象和关系越亲密 , 其绝对值越接近 1;彼此关系越疏远 , 其值越接近于 0。 对象间相似度的计算方法包括:夹角余弦法 、 相关系数法及指数相似系数法等 。 ()ij i 数据挖掘技术 聚类 相关系数 其中: 12211( ) ( )( ) ) ( )i jk i jk

9、x x x x x 11 11 人人享用智慧清洁能源 余弦夹角 类似二维空间中两个向量的夹角余弦计算公式,机器学习中借用这一概念衡量 夹角余弦取值范围为 ,余弦越大表示夹角越小,两向量反向时夹角余弦值最小为 正同向最大为 1。 数据挖掘技术 聚类 12211c o i k i k 人人享用智慧清洁能源 数据挖掘技术 聚类 标准化处理 经过标准变换处理后,每个变量即数据矩阵中每列数据的平均值为 0,方差为 1. * ( 1 , 2 , 3 . . . , ; 1 , 2 , 3 . . . )i j i n j 211 ()1nj i j x 人人享用智慧清洁能源 数据挖掘技术 聚类 中心化变换

10、 中心化变换的结果是使每列数据之和均为 0,即每个变量的均值为 0。 * ( 1 , 2 , 3 . . . , ; 1 , 2 , 3 . . . )i j i j jx x x i n j p 11 nj 1 , 2 , 3 . . 人享用智慧清洁能源 数据挖掘技术 聚类 极差标准化变换 极差: 变换后每个变量的均值为 0,极差为 1。 * ij 1 , . . . . .m a x m i nj i j i x x人人享用智慧清洁能源 数据挖掘技术 聚类 极差规格化变换 经过规格变换后,数据矩阵中每列即每个变量的最大值为 1,最小值为 0,其余数据均在 0 1 , . . .*m 1 ,

11、 2 , 3 . . . , ; 1 , 2 , 3 . . . )i j i i n j *01人人享用智慧清洁能源 数据挖掘技术 聚类 (基于划分 ) 基于划分的聚类方法 给定一个由 此数据集合构建 ),每个划分代表一个簇,即将数据集合分成多个簇的算法。 要求:每个簇至少有一个对象; 每个对象必须且仅属于一个簇。 典型算法 人享用智慧清洁能源 数据挖掘技术 聚类 (基于划分 ) 基本思想: ( 1) 首先 , 随机选择 ( 2) 然后 , 计算其他点到这些聚类中心点的距离 , 通过对簇中距离平均值的计算 , 不断改变这些聚类中心的位置 , 直到这些聚类中心不再变化 。 人人享用智慧清洁能源 数据挖掘技术 聚类 (基于划分 ) 人人享用智慧清洁能源 数据挖掘技术 聚类 (基于划分 ) 优势: ( 1) 算法简单; ( 2) 在已知簇的个数时 , 可很好的实现数据的聚类分析; ( 3) 执行和收敛过程较快 , 是一种常见的聚类算法 。 人人享用智慧清洁能源 数据挖掘技术 聚类 (基于划分 ) 局限性: ( 1) 必须事先明确聚类数 他们的选取对结果影响较大; ( 2) 对孤立点较为敏感; ( 3) 距离平均值的计算必须有适当的定义 。 人人享用智慧清洁能源 数据挖掘技术 聚类 (基于划分 ) 基本思想: ( 1) 而选用簇中离

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号