数据挖掘十大经典算法概要

资源描述

《数据挖掘十大经典算法概要》由会员分享，可在线阅读，更多相关《数据挖掘十大经典算法概要（19页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘十大经典算法一、 C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。1、机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。

2、树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。2、从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。3、决策树学习也是数据挖掘中一个普通的方法。在这里，每个决策树都表述了一种树型结构，他由他的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来

3、以提升分类的正确率。决策树是如何工作的？1、决策树一般都是自上而下的来生成的。2、选择分割的方法有好几种，但是目的都是一致的：对目标类尝试进行最佳的分割。3、从根到叶子节点都有一条路径，这条路径就是一条规则4、决策树可以是二叉的，也可以是多叉的。对每个节点的衡量：1) 通过该节点的记录数2) 如果是叶子节点的话，分类的路径3) 对叶子节点正确分类的比例。有些规则的效果可以比其他的一些规则要好。由于ID3算法在实际应用中存在一些问题，于是Quilan提出了C4.5算法，严格上说C4.5只能是ID3的一个改进算法。相信大家对ID3算法都很.熟悉了，这里就不做介绍。C4.5算法继承了ID3算法的优点

4、，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。来自搜索的其他内容：C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.分类决策树算法是从大量事例中进行提取分类规则的自

5、上而下的决策树.决策树的各部分是: 根: 学习的事例集. 枝: 分类的判定条件. 叶: 分好的各个类.ID3算法1.概念提取算法CLS1) 初始化参数C=E,E包括所有的例子,为根.2) IF C中的任一元素e同属于同一个决策类则创建一个叶子节点YES终止. ELSE 依启发式标准,选择特征Fi=V1,V2,V3,Vn并创建判定节点划分C为互不相交的N个集合C1,C2,C3,Cn；3) 对任一个Ci递归. 2. ID3算法1) 随机选择C的一个子集W (窗口).2) 调用CLS生成W的分类树DT(强调的启发式标准在后).3) 顺序扫描C搜集DT的意外(即由DT无法确定的例子).4) 组合W

6、与已发现的意外,形成新的W.5) 重复2)到4),直到无例外为止.启发式标准: 只跟本身与其子树有关,采取信息理论用熵来量度. 熵是选择事件时选择自由度的量度,其计算方法为 P = freq(Cj,S)/|S|; INFO(S)= - SUM( P*LOG(P) ) ; SUM()函数是求j 从1到n和. Gain(X)=Info(X)-Infox(X); Infox(X)=SUM( (|Ti|/|T|)*Info(X);为保证生成的决策树最小,ID3 算法在生成子树时,选取使生成的子树的熵(即Gain(S)最小的的特征来生成子树.3、 ID3算法对数据的要求1）. 所有属性必须为离散量.2）

7、. 所有的训练例的所有属性必须有一个明确的值.3）. 相同的因素必须得到相同的结论且训练例必须唯一.C4.5对ID3算法的改进: 1. 熵的改进,加上了子树的信息. Split_Infox(X)= - SUM( (|T|/|Ti| ) *LOG(|Ti|/|T|) ); Gain ratio(X)= Gain(X)/Split Infox(X); 2. 在输入数据上的改进. 1)因素属性的值可以是连续量,C4.5 对其排序并分成不同的集合后按照ID3 算法当作离散量进行处理,但结论属性的值必须是离散值. 2) 训练例的因素属性值可以是不确定的,以 ? 表示,但结论必须是确定的 3. 对已生成的

8、决策树进行裁剪,减小生成树的规模.二、数据挖掘十大经典算法(2) k-means术语“k-means”最早是由James MacQueen在1967年提出的，这一观点可以追溯到1957年 Hugo Steinhaus所提出的想法。1957年，斯图亚特劳埃德最先提出这一标准算法，当初是作为一门应用于脉码调制的技术,直到1982年，这一算法才在贝尔实验室被正式提出。1965年， E.W.Forgy发表了一个本质上是相同的方法，1975年和1979年，Hartigan和Wong分别提出了一个更高效的版本。算法描述输入：簇的数目k；包含n个对象的数据集D。输出：k个簇的集合。方法：从D中任意选择k个对

9、象作为初始簇中心；repeat;根据簇中对象的均值，将每个对象指派到最相似的簇；更新簇均值，即计算每个簇中对象的均值；计算准则函数；until准则函数不再发生变化。算法的性能分析 1）优点（1）k-平均算法是解决聚类问题的一种经典算法，算法简单、快速。（2）对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O（nkt），其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常kn。这个算法经常以局部最优结束。（3）算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的，而簇与簇之间区别明显时，它的聚类效果很好。 2）缺点（1）k-平均方法只有在簇的平均值被定

10、义的情况下才能使用，不适用于某些应用，如涉及有分类属性的数据不适用。（2）要求用户必须事先给出要生成的簇的数目k。（3）对初值敏感，对于不同的初始值，可能会导致不同的聚类结果。（4）不适合于发现非凸面形状的簇，或者大小差别很大的簇。（5）对于噪声和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。算法的改进针对算法存在的问题，对K-means算法提出一些改进：一是数据预处理，二是初始聚类中心选择，三是迭代过程中聚类种子的选择。1、首先对样本数据进行正规化处理，这样就能防止某些大值属性的数据左右样本间的距离。给定一组含有n个数据的数据集，每个数据含有m个属性，分别计算每一个属性的均值、标准

11、差对每条数据进行标准化。3、其次，初始聚类中心的选择对最后的聚类效果有很大的影响，原K-means算法是随机选取k个数据作为聚类中心，而聚类的结果要是同类间尽可能相似，不同类间尽可能相异，所以初始聚类中心的选取要尽可能做到这一点。采用基于距离和的孤立点定义来进行孤立点的预先筛选，并利用两两数据之间的最大距离在剩余数据集合中寻找初始聚类中心。但对于实际数据，孤立点个数往往不可预知。在选择初始聚类中心时，先将孤立点纳入统计范围，在样本中计算对象两两之间的距离，选出距离最大的两个点作为两个不同类的聚类中心，接着从其余的样本对象中找出已经选出来的所有聚类中心的距离和最大的点为另一个聚类中心，直到选出k

12、个聚类中心。这样做就降低了样本输入顺序对初始聚类中心选择的影响。聚类中心选好以后，就要进行不断的迭代计算，在K-means算法中，是将聚类均值点(类中所有数据的几何中心点)作为新的聚类种子进行新一轮的聚类计算，在这种情况下，新的聚类种子可能偏离真正的数据密集区，从而导致偏差，特别是在有孤立点存在的情况下，有很大的局限性。在选择初始中心点时，由于将孤立点计算在内，所以在迭代过程中要避免孤立点的影响。这里根据聚类种子的计算时，采用簇中那些与第k-1轮聚类种子相似度较大的数据，计算他们的均值点作为第k轮聚类的种子，相当于将孤立点排除在外，孤立点不参与聚类中心的计算，这样聚类中心就不会因为孤立点的原因

13、而明显偏离数据集中的地方。在计算聚类中心的时候，要运用一定的算法将孤立点排除在计算均值点那些数据之外，这里主要采用类中与聚类种子相似度大于某一阈值的数据组成每个类的一个子集，计算子集中的均值点作为下一轮聚类的聚类种子。为了能让更多的数据参与到聚类中心的计算种去，阈值范围要包含大多数的数据。在第k-1轮聚类获得的类，计算该类中所有数据与该类聚类中心的平均距离S,选择类中与聚类种子相似度大于2S的数据组成每个类的一个子集，以此子集的均值点作为第k轮聚类的聚类种子。在数据集中无论是否有明显的孤立点存在，两倍的平均距离都能包含大多数的数据。对孤立点的改进基于距离法经典k均值算法中没有考虑孤立点。所谓孤立点都是基于距离的, 是数据U集中到U中最近邻居的距离最大的对象, 换言之, 数据集中与其最近邻居的平均距离最大的对象。针对经典k均值算法易受孤立点的影响这一问题, 基于距离法移除孤立点, 具体过程如下:首先扫描一次数据集, 计算每一个数据对象与其临近对象的距离, 累加求其距离和, 并计算出距离和均值。如果某个数据对象的距离和大于距离和均值, 则视该点为孤立点。把这个对象从数据集中移除到孤立点集合中, 重复直到所有孤立点都找到。最后得到新的数据集就是聚类的初始集合。对随机选取初始聚类中心的改进经典k均值

展开阅读全文