对数据挖掘的认识－金锄头文库

资源描述

《对数据挖掘的认识》由会员分享，可在线阅读，更多相关《对数据挖掘的认识（6页珍藏版）》请在金锄头文库上搜索。

1、名师归纳总结精品word资料 - - - - - - - - - - - - - - - 第 6 页，共 6 页 - - - - - - - - -一、数据挖掘的懂得对数据挖掘的熟悉数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别出有效的、新奇的、潜在有用的，以及最终可懂得的学问的非平凡过程；这个定义包括几层含义：数据源必需是真实的、大量的、含噪声的；发觉的是用户感爱好的学问；发觉的学问要可接受、可懂得、可运用；并不要求发觉放之四海皆准的学问，仅支持特定的发觉问题；数据挖掘，简洁地可懂得为通过对环境数据的操作，从数据中发觉有用的学问；它是一门涉及面很广的交叉学科，包括机器

2、学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术；就详细应用而言，数据挖掘是一个利用各种分析工具在海量数据中发觉模型和数据间关系的过程，这些模型和关系可以用来做出猜测；从商业角度上看，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取帮助商业决策的关键性数据；数据挖掘与传统的数据分析如查询、报表、联机应用分析的本质区分是数据挖掘是在没有明确假设的前提下去挖掘信息、发觉学问；数据挖掘所得到的信息应具有从前未知，有效和可有用三个特点；从前未知的信息是指该信息是预先未曾预料到的，既数据挖掘是要发

3、觉那些不能靠直觉发觉的信息或学问，甚至是违反直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值；二、数据挖掘的主要方法数据挖掘技术主要来源于四个领域：统计分析、机器学习、神经网络和数据库；所以，数据挖掘的主要方法可以粗分为：统计方法、机器学习方法、神经网络方法和数据库方法；统计方法主要包括：回来分析（多元回来、自回来等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探干脆分析（主元分析法、相关分析法等）、以及模糊集、粗集、支持向量机等；模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析；系统的复杂性越高，

4、模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的；粗集方法建立在粗集理论上；粗集理论是一种讨论不精确、不确定学问的数学工具；粗集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简洁，易于操作；粗集处理的对象是类似二维关系表的信息表；目前成熟的关系数据库治理系统和新进展起来的数据仓库治理系统，为粗集的数据挖掘奠定了坚实的基础；但粗集的数学基础是集合论，难以直接处理连续的属性；而现实信息表中连续属性是普遍存在的；因此连续属性的离散化是制约粗集理论有用化的难点；机器学习方法主要包括：归纳学习方法（决策树、规章归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网

5、络等；决策树是一种常用于猜测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息；它的主要优点是描述简洁，分类速度快，特殊适合大规模的数据处理；最有影响和最早的决策树方法是由 Quinlan提出的闻名的基于信息熵的ID3 算法；它的主要问题是： ID3 是非递增学习算法； ID3决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系强调不够；抗噪性差；针对上述问题，显现了很多较好的改进算法，如Schlimmer和 Fisher设计了 ID4递增式学习算法 ;钟鸣，陈文伟等提出了IBLE 算法等；遗传算法是一种基于生物自然挑选与遗传机理的随机搜寻算法，是一种

6、仿生全局优化方法；遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用；但遗传算法的算法较复杂，收敛于局部微小的较早收敛问题尚未解决；神经网络方法主要包括：前向神经网络（BP 算法等）、自组织神经网络（自组织特点映射、竞争学习等）等；神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布储备和高度容错等特性特别适合解决数据挖掘的问题，因此近年来越来越受到人们的关注；典型的神经网络模型主要分3 大类：以感知机、 BP 反向传播模型、函数型网络为代表的，用于分类、猜测和模式识别的前馈式神经网络模型；以Hopfield的离散模型和连续模型为代表的，分别用于联想记忆

7、和优化运算的反馈式神经网络模型；以ART 模型、Koholon模型为代表的，用于聚类的自组织映射方法；神经网络方法的缺点是黑箱性，人们难以懂得网络的学习和决策过程；数据库方法主要是基于可视化的多维数据分析或OLAP 方法，另外仍有面对属性的归纳方法；三、数据挖掘的任务数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列分析准时间序列；另外，仍有孤立点分析、依靠关系分析、概念描述、偏差检测等；1、分类分析 Classification Analysis分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规章或决策树模式表示；分类是有制导

8、的学习，它利用训练数据集通过肯定的算法而求得分类规章；分类可被用于规章描述和猜测，常应用于风险治理、广告投放等商业环境；2、聚类分析 Clustering Analysis聚类又被称为分隔（ segmentatio），聚类分析是把数据依据相像性归纳成如干类别，同一类中的数据彼此相像，不同类中的数据相异；聚类分析可以建立宏观的概念，发觉数据的分布模式，以及可能的数据属性之间的相互关系；聚类分析是无制导的学习，聚类分析与分类分析不同，它不依靠于没有事先确定的类，也没有已具有类标识的训练集；好的聚类分析算法应当使得所得到的聚簇内的相像性很高，而不同的聚簇间的相像性很低；3、关联分析 Ass

9、ociation Analysis关联规章挖掘是由Rakesh Apwal等人第一提出的；两个或两个以上变量的取值之间存在某种规律性，就称为关联；数据关联是数据库中存在的一类重要的、可被发觉的学问；关联分为简洁关联、时序关联和因果关联；关联分析的目的是找出数据库中隐匿的关联网；一般用支持度和可信度两个阀值来度量关联规章的相关性，仍不断引入爱好度、相关性等参数，使得所挖掘的规章更符合需求；最典型的应用是市场中购物篮分析；4、序列分析准时间序列Sequence Analysis and Time Sequence序列分析准时间序列是指通过序列信息或时间序列搜寻出重复发生概率较高的模式；与回来

10、一样，它也是用己知的数据猜测将来的值，但这些数据的区分是变量所处的序列或时间的不同；四、数据挖掘项目的开发周期第 1 步数据收集将要挖掘的数据资源收集到数据库或数据仓库中；如已有数据仓库的主题数据不够丰富，仍需从其他相关数据源加入新数据；数据收集完后，仍要进行数据合理采样，以削减训练数据集的容量；多数情形下，从 50,000客户记录中发觉的模式有可能与从1,000,000 客户记录中发觉的模式是一样的；第 2 步数据清洗和转换数据清洗的目的是排除数据的噪音和其他无关信息；数据转换的目的是依据确定的数据类型和数据值将不同数据源的同类数据进行统一格式；数据清洗和转换常用的相关技术有：数据

11、类型转换、连续值属性转换、分组、集合、去处孤立点等；第 3 步模型建立模型建立是数据挖掘的核心阶段；第一，要和相关领域的专家组成团队，明确数据挖掘项目的目的和详细的数据挖掘任务；依据数据挖掘任务，挑选相关算法；用不同算法建立不同数据模型，再用专业的模型评估工具比较模型的精确度；即使是同一种算法，参数选取的不同，所建模型的精确度也不一样；第 4 步模型评估用模型评估工具对模型进行评估，熟悉发觉模式的实际意义；如模型中的模式没有用，必需要重新进行数据清洗和转换、建立模型；数据挖掘是一个循环的过程，要通过反复的循环发觉合理的模型；第 5 步报告报告是数据挖掘成果的主要交付手段；有两种类型的报告

12、：发觉模式报告和猜测报告；第 6 步猜测在很多数据挖掘项目中，发觉模式仍不够，仍要通过模式进行预测；比如，银行业可以利用已建立的风险评估模型去猜测每个新的贷款申请的潜在风险；第 7 步应用集成将数据挖掘集成到实际应用中，特殊是在应用中加入实时猜测组件是数据挖掘项目的进展趋势；比如，CRM 中有了数据挖掘功能，就可以对客户进行分类；ERP 中有了数据挖掘功能，就能够猜测产量；第 8 步模型治理每一个数据挖掘模型都有肯定的生命周期，保护好模型也是一项重要工作；不同应用中的模型的稳固期是不一样的，要依据实际情形对模型进行治理；另外，模型治理中仍要留意安全问题，防止敏锐数据的泄露；五、数据挖掘算法的使用当前提出的各种数据挖掘算法不下近百种，但没有任何一种数据挖掘的算法是万能的；算法的详细使用时应留意：不同的算法应用于详细数据的含义和才能不同；一个问题可能有多种算法可以求解但挖掘质量可能有差异；有些算法可以用于多种数据类型，有些算法就对某些数据类型不适用；有些算法的参数挑选依靠于体会；有些算法对数据有特殊的要求，需要做某些转换、过滤之类的操作；通过历史数据所建立的模型，其分析和挖掘出的结果，与当前实际客体的行为不肯定完全相同，因而在应用挖掘出的学问进行决策时存在非系统性风险；

展开阅读全文

对数据挖掘的认识

最新文档