c4.5算法概述－金锄头文库

资源描述

《c4.5算法概述》由会员分享，可在线阅读，更多相关《c4.5算法概述（12页珍藏版）》请在金锄头文库上搜索。

1、目录目录1 决策树算法.21.1 具体应用场景和意义21.2 现状分析32 C4.5 算法对 ID3 算法的改进 .43 C4.5 算法描述.73.1 C4.5 算法原理73.2 算法框架83.3 C4.5 算法伪代码94 实例分析.95 C4.5 算法的优势与不足.125.1 C4.5 算法的优势125.2 C4.5 算法的不足：12参考文献.12C4.5C4.5 算法综述算法综述摘要摘要最早的决策树算法是由 Hunt 等人于 1966 年提出的 CLS。当前最有影响的决策树算法是 Quinlan 于 1986 年提出的 ID3 和 1993 年提出的 C4.5。ID3 只能处理离散型描述属

2、性，它选择信息增益最大的属性划分训练样本，其目的是进行分枝时系统的熵最小，从而提高算法的运算速度和精确度。ID3 算法的主要缺陷是，用信息增益作为选择分枝属性的标准时，偏向于取值较多的属性，而在某些情况下，这类属性可能不会提供太多有价值的信息。C4.5 是 ID3 算法的改进算法，不仅可以处理离散型描述属性，还能处理连续性描述属性。C4.5 采用了信息增益比作为选择分枝属性的标准，弥补了 ID3 算法的不足。C4.5 算法在 ID3 算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进，既适合于分类问题，又适合于回归问题，是目前应用最为广泛的归纳推理算法之一，

3、在数据挖掘中收到研究者的广泛关注。1 决策树算法决策树算法1.1 具体应用场景和意义具体应用场景和意义决策树（Decision Tree）是用于分类和预测的主要技术，它着眼于从一组无规则的事例推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同属性判断从该节点向下分支，在决策树的叶节点得到结论。因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识，只要训练事例能够用属性即结论的方式表达出来，就能使用该算法进行学习。决策树算法在很多方面都有应用，如决策

4、树算法在医学、制造和生产、金融分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了广泛应用。决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策树模型，提取有价值的分类规则，帮助决策者做出准确的预测已经应用在很多领域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树的典型算法有 ID3、C4.5 和 CART 等，基于决策树的分类模型有如下几个特点：（1）决策树方法结构简单，便于理解；（2）决策树模型效率高，对训练集

5、较大的情况较为适合；（3）决策树方法通常不需要接受训练集数据外的知识；（4）决策树方法具有较高的分类精确度。在决策树算法中，最常用的、最经典的是 C4.5 算法，它在决策树算法中的主要优点是：形象直观。该算法通过两个步骤来建立决策树：树的生成阶段和树的剪枝阶段。该算法主要基于信息论中的熵理论。熵在系统学上是表示事物的无序度，是系统混乱程度的统计量。C4.5 基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益率作为属性选择的度量标准，可以得出很容易理解的决策规则。1.2 现状分析现状分析决策树技术是迄今为止发展最为成熟的一种概念学习方法。它最早产生于二十世纪 60 年代，是由 Hunt

6、等人研究人类概念建模时建立的学习系统（CLS，Concept Learning System），到 70 年代末，J Ross Quinlan 提出 ID3 算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1975 年和 1984年，分别有人提出 CHAID（Chi-squared Automatic Interaction Detection）和CART（Classification and Regression Tree，亦称 BFOS）算法。1986 年，J.C.Schlimmer 提出 ID4 算法。1988 年，P.E.Utgoff 提出 ID5R 算法。1993 年

7、，Quinlan 本人以 ID3 算法为基础研究出 C4.5/C5.0 算法，C4.5 算法在 ID3 算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进，既适合于分类问题，又适合于回归问题，因而是目前应用最为广泛的归纳推理算法之一，在数据挖掘中收到研究者的广泛关注。数据挖掘需要选择复杂度低的算法和并行高效的策略，复杂度低的算法包括尽量把全局最优问题转化成局部最优的问题和近似线性或尽量低阶的多项式复杂度算法等，而高效并行的策略包括需要有高超的递归改为循环的技巧和尽量避免使用全局信息等。现在研究者们还在继续研究改进的决策树算法，对于 C4.5 算法研究人员们从

8、不同的角度对其进行了相应的改进，其中有针对 C4.5 算法处理连续型属性比较耗时的改进，利用数学上的等价无穷小提高信息增益率的计算效率等等方面。本报告时针对 C4.5 算法本身进行的分析和算法实现，同时会考虑进一步的深入学习。2 C4.5 算法对算法对 ID3 算法的改进算法的改进决策树构造的输入是一组带有类别标记的例子，构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断，如形式为 a=aj的逻辑判断，其中 a 是属性，aj 是该属性的所有取值：树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性，边是该属性的所有取值，有几个属性值就有几条边。树的叶子

9、节点都是类别标记。由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因，都会造成产生的决策树过大。因此，简化决策树是一个不可缺少的环节。寻找一棵最优决策树，主要应解决以下 3 个最优化问题：生成最少数目的叶子节点；生成的每个叶子节点的深度最小；生成的决策树叶子节点最少且每个叶子节点的深度最小。ID3 算法是一种经典的决策树算法，它从根节点开始，根节点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支，在每个分支上又生成新的节点。对于最好的属性的选择标准，ID3 采用基于信息熵定义的信息增益来选择内节点的测试属性，熵（Entropy）刻画了任意样本集的纯度。ID3 算法存在

10、的缺点：（1）ID3 算法在选择根节点和内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多是属性，在有些情况下这类属性可能不会提供太多有价值的信息。（2）ID3 算法只能对描述属性为离散型属性的数据集构造决策树。ID3 算法的局限是它的属性只能取离散值，为了使决策树能应用与连续属性值，Quinlan 给出了 ID3 的一个扩展算法，即 C4.5 算法。C4.5 算法是 ID3 的改进，其中属性的选择依据同 ID3。它对于实值变量的处理与接下来论述的CART 算法一致，采用多重分支。C4.5 算法能实现基于规则的剪枝。因为算法生成的每个叶子都和一条规则相关联，

11、这个规则可以从树的根节点直到叶子节点的路径上以逻辑合取式的形式读出。决策树的分类过程就是把训练集划分为越来越小的子集的过程。理想的结果是决策树的叶子节点的样本都有同类标记。如果是这样，显然决策树的分支应该停止了，因为所以的类别已经被分开了。C4.5 算法之所以是最常用的决策树算法，是因为它继承了 ID3 算法的所有优点并对 ID3 算的进行了改进和补充。C4.5 算法采用信息增益率作为选择分支属性的标准，克服了 ID3 算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化是处理，还能够对不完整数据进行处理。C4.5 算法属于基于信息论（Information Theo

12、ry）的方法，它是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。C4.5 算法主要做出了以下方面的改进：（1）用信息增益率来选择属性克服了用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为：其中，Grain（S，A）与 ID3 算法中的信息增益相同，而分裂信息SplitInfo（S， A）代表了按照属性 A 分裂样本集 S 的广度和均匀性。其中，S1 到 Sc 是 c 个不同值的属性 A 分割 S 而形成的 c 个样本子集。如按照属性 A 把 S 集（含 30 个用例）分成了 10 个用例和 20 个用例两个集合，则 SplitInfo(S，A)=-1

13、/3*log(1/3)-2/3*log(2/3)。（2）可以处理连续数值型属性C4.5 算法既可以处理离散型描述属性，也可以处理连续性描述属性。在选择某节点上的分枝属性时，对于离散型描述属性，C4.5 算法的处理方法与 ID3相同，按照该属性本身的取值个数进行计算；对于某个连续性描述属性 Ac，假GainRatio(S, A) = (,) (,)(1)SplitInfo(S, A) = - (2) = 1| | | 2(2)设在某个节点上的数据集的样本数量为 total，C4.5 算法将作以下处理：将该节点上的所有数据样本按照连续型描述的属性的具体数值，由小到大进行排序，得到属性值的取值序列A

14、1c，A2c，Atotalc。在取值序列生成 total-1 个分割点。第 i（0是样本集 S 中的一个训练实例，但是其属性 A 的值 A（x）未知。处理缺少属性值的一种策略是赋给它节点 n 所对应的训练实例中该属性的最常见值；另外一种更复杂的策略是为 A 的每个可能值赋予一个概率。例如，给定一个布尔属性Pr = c (3) (1 )/ e = +2 2+ 2 +2421 +2 (4) A，如果结点 n 包含 6 个已知 A=1 和 4 个 A=0 的实例，那么 A(x)=1 的概率是0.6，而 A(x)=0 的概率是 0.4。于是，实例 x 的 60%被分配到 A=1 的分支，40%被分配到

15、另一个分支。这些片断样例（fractional examples）的目的是计算信息增益，另外，如果有第二个缺失值的属性必须被测试，这些样例可以在后继的树分支中被进一步细分。C4.5 就是使用这种方法处理缺少的属性值3 C4.5 算法描述算法描述3.1 C4.5 算法原理算法原理设 S 是 s 个数据样本的集合。假定类标号 Ci(I = 1,m)具有 m 个不同的值，设 si 是类 Ci 中的样本数。对一个给定的样本分类所需的期望信息由下式给出：其中，pi是任意样本属于 ci的概率，并用 si/s 来估计。设属性 A 具有 v 个子集 s1,sv;其中，sj包含 S 中这样一些样本，它们在A 上具有值 aj。如果 A 选作测试属性，则这些子集对应于由包含集合 S 的节点生长出来的分枝。设 sij是子集 sj中类 ci的样本数。根据由 A 划分成子集的熵由下式给出：其中，项(sij+smj)/s 充当第 j 个子集的权，并且等于子集（即 A 值为 aj）中的样本个数除以 s 中的样本总数。熵值越小，子集划分的纯度越高。对于给定的子集 sj有：I(,) = (5) = 1()2E(A) = (6) = 1 + + (,)I() = - (7) 1,2,

展开阅读全文