数据挖掘(偶然看到比较好的--推荐)精编版

资源描述

《数据挖掘(偶然看到比较好的--推荐)精编版》由会员分享，可在线阅读，更多相关《数据挖掘(偶然看到比较好的--推荐)精编版（176页珍藏版）》请在金锄头文库上搜索。

1、工业控制技术研究所主要内容数据挖掘概述数据预处理数据挖掘算法分类与预测数据挖掘算法聚类数据挖掘算法关联分析序列模式挖掘数据挖掘软件数据挖掘应用工业控制技术研究所一数据挖掘概述工业控制技术研究所数据挖掘概念数据挖掘从大量数据中寻找其规律的技术是统计学数据库技术和人工智能技术的综合数据挖掘是从数据中自动地抽取模式关联变化异常和有意义的结构数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型数据挖掘与KDD 工业控制技术研究所数据挖掘与KDD 知识发现 KD 输出的是规则数据挖掘 DM 输出的是模型共同点两种方法输入的都是学习集 learningsets 目

2、的都是尽可能多的自动化数据挖掘过程数据挖掘过程并不能完全自动化只能半自动化工业控制技术研究所数据挖掘的社会需求国民经济和社会的信息化社会信息化后社会的运转是软件的运转社会信息化后社会的历史是数据的历史工业控制技术研究所数据挖掘的社会需求有价值的知识可怕的数据工业控制技术研究所数据挖掘的社会需求数据爆炸知识贫乏工业控制技术研究所数据挖掘的发展 1989IJCAI会议数据库中的知识发现讨论专题KnowledgeDiscoveryinDatabases G Piatetsky ShapiroandW Frawley 1991 1991 1994KDD讨论专题Adv

3、ancesinKnowledgeDiscoveryandDataMining U Fayyad G Piatetsky Shapiro P Smyth andR Uthurusamy 1996 1995 1998KDD国际会议 KDD 95 98 JournalofDataMiningandKnowledgeDiscovery 1997 1998ACMSIGKDD SIGKDD 1999 2002会议以及SIGKDDExplorations数据挖掘方面更多的国际会议PAKDD PKDD SIAM DataMining IEEE ICDM DaWaK SPIE DM etc 工业控制技术研究所

4、数据挖掘技术技术分类预言 Predication 用历史预测未来描述 Description 了解数据中潜在的规律数据挖掘技术关联分析序列模式分类预言聚集异常检测工业控制技术研究所异常检测异常检测是数据挖掘中一个重要方面用来发现小的模式相对于聚类即数据集中间显著不同于其它数据的对象异常探测应用电信和信用卡欺骗贷款审批药物研究气象预报金融领域客户分类网络入侵检测故障检测与诊断等工业控制技术研究所什么是异常 outlier Hawkins 1980 给出了异常的本质性的定义异常是在数据集中与众不同的数据使人怀疑这些数据并非随机偏差而是产生于完全不同的机制聚类算法

5、对异常的定义异常是聚类嵌于其中的背景噪声异常检测算法对异常的定义异常是既不属于聚类也不属于背景噪声的点他们的行为与正常的行为有很大不同工业控制技术研究所异常检测方法的分类基于统计 statistical based 的方法基于距离 distance based 的方法基于偏差 deviation based 的方法基于密度 density based 的方法高维数据的异常探测工业控制技术研究所数据挖掘系统的特征数据的特征知识的特征算法的特征矿山数据挖掘工具算法金子知识工业控制技术研究所数据的特征大容量POS数据某个超市每天要处理高达2000万笔交易卫星

6、图象 NASA的地球观测卫星以每小时50GB的速度发回数据互联网数据含噪音不完全不正确异质数据多种数据类型混合的数据源来自互联网的数据是典型的例子工业控制技术研究所系统的特征知识发现系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发现系统是一个自动半自动过程知识发现系统要有很好的性能工业控制技术研究所知识模式的特征知识发现系统能够发现什么知识计算学习理论COLT ComputationalLearningTheory 以FOL为基础的以发现关系为目的的归纳逻辑程序设计现行的知识发现系统只能发现特定模式的知识规则分类关联工业控制技术研究所知识表示规

7、则 IF条件THEN结论条件和结论的粒度抽象度可以有多种单值区间模糊值规则可以有确信度精确规则概率规则工业控制技术研究所知识表示分类树分类条件1 分类条件2 分类条件3 类1 类2 类3 类4 工业控制技术研究所数据挖掘算法的特征构成数据挖掘算法的三要素模式记述语言反映了算法可以发现什么样的知识模式评价反映了什么样的模式可以称为知识模式探索包括针对某一特定模式对参数空间的探索和对模式空间的探索工业控制技术研究所数据挖掘的主要方法分类 Classification 聚类 Clustering 相关规则 AssociationRule 回归 Regression 其他

8、工业控制技术研究所数据挖掘系统工业控制技术研究所数据挖掘系统第一代数据挖掘系统支持一个或少数几个数据挖掘算法这些算法设计用来挖掘向量数据 vector valueddata 这些数据模型在挖掘时候一般一次性调进内存进行处理许多这样的系统已经商业化第二代数据挖掘系统目前的研究是改善第一代数据挖掘系统开发第二代数据挖掘系统第二代数据挖掘系统支持数据库和数据仓库和它们具有高性能的接口具有高的可扩展性例如第二代系统能够挖掘大数据集更复杂的数据集以及高维数据这一代系统通过支持数据挖掘模式 dataminingschema 和数据挖掘查询语言 DMQL 增加系统的灵活性

9、工业控制技术研究所数据挖掘系统第三代数据挖掘系统第三代的特征是能够挖掘Internet Extranet的分布式和高度异质的数据并且能够有效地和操作型系统集成这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别 firstclass 的支持第四代数据挖掘系统第四代数据挖掘系统能够挖掘嵌入式系统移动系统和普遍存在 ubiquitous 计算设备产生的各种类型的数据工业控制技术研究所二数据预处理工业控制技术研究所为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值平滑噪声数据识

10、别删除孤立点并解决不一致来清理数据工业控制技术研究所污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码含有各种噪声工业控制技术研究所数据清理的重要性污染数据的普遍存在使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务垃圾进垃圾出工业控制技术研究所数据清理处理内容格式标准化异常数据清除错误纠正重复数据的清除工业控制技术研究所数据规约数据集的压缩表示但是能和原始数据集达到相同或基本相同的分析结果主要策略数据聚集维规约数据压缩数值规约工业控制技术研究所空缺值忽略元组人工填写空缺

11、值使用固定值使用属性平均值使用最有可能值工业控制技术研究所噪声数据如何平滑数据去掉噪声数据平滑技术分箱聚类计算机和人工检查相结合回归工业控制技术研究所分箱箱的深度表示不同的箱里有相同个数的数据箱的宽度每个箱值的取值区间是个常数平滑方法按箱平均值平滑按箱中值平滑按箱边界值平滑工业控制技术研究所聚类每个簇中的数据用其中心值代替忽略孤立点先通过聚类等方法找出孤立点这些孤立点可能包含有用的信息人工再审查这些孤立点工业控制技术研究所回归通过构造函数来符合数据变化的趋势这样可以用一个变量预测另一个变量线性回归多线性回归工业控制技术研究所数据集成将多个数据源

12、中的数据结合起来存放在一个一直得数据存贮中实体识别实体和模式的匹配冗余某个属性可以由别的属性推出相关分析相关性rA B rA B 0 正相关 A随B的值得增大而增大rA B 0 正相关 AB无关rA B 0 正相关 A随B的值得增大而减少重复同一数据存储多次数据值冲突的检测和处理工业控制技术研究所数据变换平滑聚集数据概化规范化属性构造特征构造工业控制技术研究所最小最大规范化小数定标规范化属性构造由给定的属性构造和添加新的属性以帮助提高精度和对高维数据结构的理解规范化工业控制技术研究所数据立方体聚集寻找感兴趣的维度进行再聚集工业控制技术研究所维规约删除不相关的属

13、性维来减少数据量属性子集选择找出最小属性集合使得数据类的概率分布尽可能地接近使用所有属性的原分布如何选取贪心算法逐步向前选择逐步后向删除向前选择和后向删除相结合判定树归纳工业控制技术研究所数据压缩有损无损小波变换将数据向量D转换成为数值上不同的小波系数的向量D 对D 进行剪裁保留小波系数最强的部分主要成分分析工业控制技术研究所数值规约回归和对数线形模型线形回归对数线形模型直方图等宽等深V 最优maxDiff 工业控制技术研究所数值规约聚类多维索引树对于给定的数据集合索引树动态的划分多维空间选样简单选择n个样本不放回简单选择n个样本放回聚类选样分层选样

14、工业控制技术研究所离散化和概念分层离散化技术用来减少给定连续属性的个数通常是递归的大量时间花在排序上对于给定的数值属性概念分层定义了该属性的一个离散化的值分箱直方图分析工业控制技术研究所数值数据离散化聚类分析基于熵的离散化通过自然划分分段3 4 5规则如果一个区间最高有效位上包括369个不同的值划分为3个等宽区间 7个不同值按2 3 3划分为3个区间最高位包含2 4 8个不同值划分为4个等宽区间最高位包含1 5 10个不同值划分为5个等宽区间最高分层一般在第5个百分位到第95个百分位上进行工业控制技术研究所分类数据的概念分层生成分类数据是离散数据一个分类属性可

15、能有有限个不同的值方法由用户和专家在模式级显式的说明属性的部分序通过显式的数据分组说明分层结构的一部分说明属性集但不说明他们的偏序只说明部分的属性集工业控制技术研究所三数据挖掘算法分类与预测工业控制技术研究所分类VS 预测分类预测分类标号或离散值根据训练数据集和类标号属性构建模型来分类现有数据并用来分类新数据预测建立连续函数值模型比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测工业控制技术研究所数据分类两步过程第一步建立一个模型描述预定数据类集和概念集假定每个元组属于一个预定义的类由一个类标号属性确定基本概念训练数据集由为建立模型而被分析的

16、数据元组形成训练样本训练数据集中的单个样本元组学习模型可以用分类规则判定树或数学公式的形式提供第二步使用模型对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集否则会出现过分适应数据的情况工业控制技术研究所第一步建立模型训练数据集分类算法 IFrank professor ORyears 6THENtenured yes 分类规则工业控制技术研究所第二步用模型进行分类分类规则测试集未知数据 Jeff Professor 4 Tenured 工业控制技术研究所准备分类和预测的数据通过对数据进行预处理可以提高分类和预测过程的准确性有效性和可伸缩性数据清理消除或减少噪声处理空缺值从而减少学习时的混乱相关性分析数据中的有些属性可能与当前任务不相关也有些属性可能是冗余的删除这些属性可以加快学习步骤使学习结果更精确数据变换可以将数据概化到较高层概念或将数据进行规范化工业控制技术研究所比较分类方法

展开阅读全文

数据挖掘(偶然看到比较好的--推荐)精编版

最新文档