咨询工具：决策树算法及应用拓展

资源描述

《咨询工具：决策树算法及应用拓展》由会员分享，可在线阅读，更多相关《咨询工具：决策树算法及应用拓展（41页珍藏版）》请在金锄头文库上搜索。

1、决策树算法及应用拓展内容简介概述预备知识决策树生成 BuildingDecisionTree 决策树剪枝 PruningDecisionTree 捕捉变化数据的挖掘方法小结概述一传统挖掘方法的局限性只重视从数据库中提取规则忽视了库中数据的变化挖掘所用的数据来自稳定的环境人为干预较少概述二捕捉新旧数据变化的目的挖掘出变化的趋势例啤酒尿布阻止延缓不利变化的发生例金融危机银行的信贷策略差异挖掘算法的主要思想合理比较新旧数据的挖掘结果并清晰的描述其变化部分预备知识一 BuildingTree 基本思想用途提取分类规则进行分类预测使用决策树进行分类决策树

2、一个树性的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布决策树生成算法分成两个步骤树的生成开始数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用对未知数据进行分割按照决策树上采用的分割属性逐层往下直到一个叶子节点决策树算法基本算法贪心算法自上而下分而治之的方法开始时所有的数据都在根节点属性都是种类字段如果是连续的将其离散化所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量如 informationgain 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数

3、据进行分割伪代码 BuildingTree ProcedureBuildTree S 用数据集S初始化根节点R用根结点R初始化队列QWhileQisnotEmptydo 取出队列Q中的第一个节点NifN不纯 Pure for每一个属性A估计该节点在A上的信息增益选出最佳的属性将N分裂为N1 N2 属性选择的统计度量信息增益 Informationgain ID3 C4 5 所有属性假设都是种类字段经过修改之后可以适用于数值字段基尼指数 Giniindex IBMIntelligentMiner 能够适用于种类和数值字段信息增益度度量 ID3 C4 5 任意样本分类的期望信息 I s1

4、s2 sm Pilog2 pi i 1 m 其中数据集为S m为S的分类数目 PiCi为某分类标号 Pi为任意样本属于Ci的概率 si为分类Ci上的样本数由A划分为子集的熵 E A s1j smj s I s1j smj A为属性具有V个不同的取值信息增益 Gain A I s1 s2 sm E A 训练集举例 ID3算法使用信息增益进行属性选择 ClassP buys computer yes ClassN buys computer no I p n I 9 5 0 940Computetheentropyforage HenceSimilarly DecisionTree 结果输

5、出 age overcast student creditrating no yes fair excellent 30 40 no no yes yes yes 30 40 基尼指数GiniIndex IBMIntelligentMiner 集合T包含N个类别的记录那么其Gini指标就是pj类别j出现的频率如果集合T分成两部分N1andN2 那么这个分割的Gini就是提供最小Ginisplit就被选择作为分割的标准对于每个属性都要遍历所有可以的分割方法预备知识二 PruningTree 目的消除决策树的过适应 OverFitting 问题实质消除训练集中的异常和噪声两种方法先剪枝

6、法 Public算法后剪枝法 Sprint算法两种剪枝标准最小描述长度原则 MDL 思想最简单的解释最期望的做法对Decision Tree进行二进位编码编码所需二进位最少的树即为最佳剪枝树期望错误率最小原则思想选择期望错误率最小的子树进行剪枝对树中的内部节点计算其剪枝不剪枝可能出现的期望错误率比较后加以取舍 CostofEncodingDataRecords 对n条记录进行分类编码的代价 2种方法 n 记录数 k 类数目 ni 属于类i的记录数 CostofEncodingTree 编码树结构本身的代价编码每个分裂节点的代价确定分类属性的代价确定分类属性值的代价其中

7、v是该节点上不同属性值的个数编码每个树叶上的记录分类的代价剪枝算法设N为欲计算其最小代价的节点两种情形 N是叶结点 C S 1 Cost1N是内部节点有两个子节点N1 N2已剪去N1 N2 N成为叶子节点 Cost1计算N节点及其子树的代价使用递归过程Csplit N 1 minCost1 minCost2 Cost2比较Cost1和Cost2 选取代价较小者作为返回值计算最小子树代价的伪代码 ProcedureComputeCost Prune NodeN ifN是叶子节点 return C S 1 minCost1 Compute Prune NodeN1 minCost2 Co

8、mpute Prune NodeN2 minCostN min C S 1 Csplit N 1 minCost1 minCost2 ifminCostN C S 1PrunechildnodesN1andN2returnminCostN 引入Public算法一般做法先建树后剪枝Public算法建树的同时进行剪枝思想在一定量用户定义参数的节点分裂后周期性的进行部分树的剪枝存在的问题可能高估 Over Estimate 被剪节点的值改进采纳低估 Under Estimate 节点代价的策略具体思路三种叶节点有待扩展需计算子树代价下界不能扩展纯节点剪枝后的结点 C

9、S 1 改进算法的伪代码 ProcedureComputCoste Prune NodeN IfN是仍待扩展的结点 returnN节点的代价下界IfN是纯节点或不可扩展的叶节点 return C S 1 两个子节点N1 N2minCost1 Compute Prune NodeN1 minCost2 Compute Prune NodeN2 minCostN min C S 1 Csplit N 1 minCost1 minCost2 ifminCostN C S 1PrunechildnodesN1andN2returnminCostN 计算子树代价下界 Public 1 假设节点N的代价至

10、少是1Public S S split计算以N为根且包含S个分裂点的子树代价的下界包括确定分裂节点属性的代价 Public V V splitvalue同上还包括确定分裂节点值的代价 Public S 算法一相关概念 Public S 算法二定理任何以N为根结点且有S个分裂点的子树的代价至少是2 S 1 S loga nii s 2 k证明编码树结构代价2 S 1确定节点分裂属性的代价S loga编码S 1个叶子结点的代价 nii s 2 k Public S 算法证明一证明编码S 1个叶子节点的代价至少为 nii s 2 k相关概念 1 主要类 MajorityClas

11、s if 有则Ci为主要类2 少数类 MinorityClass ifthenCj为少数类 Public S 算法证明二题设子树N有S个分裂点 Split K个类S 1个叶子节点至多有S 1个主要类至少有K S 1个少数类取Ci为某少数类 C Sj 为编码叶子节点j上记录的代价又有C S nij编码具有类i且位于叶子节点j的记录的代价是nij所有少数类的代价Cost nii 少数类计算minCost S的代码 ProcedurecomputeMinCostS NodeN Ifk 1return C S 1 S 1tmpCost 2 S 1 S loga inii s 2 kWhile

12、s 12 logado tmpCost tmpCost 2 loga ns 2S Returnmin C S 1 tmpCost Public S 示例 16 truck high 24 sports high 1 log2 1 1 1 N 65 family low 34 truck low 32 sports medi N 1 log2 1 log2 1 1 16 truck high 24 sports high 32 sports medi 65 family low 34 truck low 1 Public V 算法计算分类节点值的代价编码叶子节点记录的代价i 1 k 1 在所

13、有内部节点编码分裂节点值的代价 2 总代价 1 2 其中 Cj是叶子节点j上的主要类 M是S 1个叶子节点上的主要类的集合算法比较 Sprint 传统的二阶段构造剪枝算法Public 1 用保守的估计值1取代欲扩展节点的代价下界Public S 考虑具有分裂点的子树同时计算为确定分裂节点及其属性的代价下界Public V 比前者准确需计算确定结点上属性值的代价下界实验数据 Real life 实验结果一产生的节点数目实验结果二执行时间 S 算法结果分析总体上比Sprint算法有较大改进相对于最后的剪枝树仍有多余的结点有待改进挖掘效率与数据分布及噪声有关言归正传

14、捕捉数据变化的挖掘方法新生成一棵决策树与旧树完全没有关系生成一棵相关的树未达到旧树中叶节点的深度超出了旧树中相应节点的深度相同的属性最好的划分 bestcut 相同的属性相同的划分方法三的对应算法使新树与旧树有相同的属性和划分且能及早停止测试在旧树中每个叶子节点的错误变化的情况进一步生成新的树剪枝移除那些无预测特性的分枝比较新旧树识别变化部分标识几种不同的变化类型区域的连接旧树中的划分不必要边界的移动旧树中的划分移到了新的位置进一步细化 Refinement 旧树中的叶结点不足以描述新生成数据类标号变化旧树中的节点类标号发生了变化错误率的变化覆盖率的变化某个节点具有的数据量的比率小结 BuildingDecisionTree算法PruningDecisionTree算法Public算法Public 1 算法Public s 算法Public v 算法识别数据变化的挖掘算法个人观点计算分裂点属性代价下界的算法代码 ProcedureComputeMinCostS NodeN IfK 1return C S 1 S 1tmpCost 2 S 1 S loga nii s 1 kWhileS 12 logado tmpCost tmpCost 2 loga s Returnmin C S 1 tmpCost

展开阅读全文

咨询工具：决策树算法及应用拓展

最新文档