第4章2c5.0算法剖析

上传人:今*** 文档编号:107997559 上传时间:2019-10-22 格式:PPT 页数:31 大小:1.11MB
返回 下载 相关 举报
第4章2c5.0算法剖析_第1页
第1页 / 共31页
第4章2c5.0算法剖析_第2页
第2页 / 共31页
第4章2c5.0算法剖析_第3页
第3页 / 共31页
第4章2c5.0算法剖析_第4页
第4页 / 共31页
第4章2c5.0算法剖析_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《第4章2c5.0算法剖析》由会员分享,可在线阅读,更多相关《第4章2c5.0算法剖析(31页珍藏版)》请在金锄头文库上搜索。

1、Clementine 的决策树,C 5.0 算法,分类预测,分类预测: 通过向现有数据学习,使模型具备对未来新数据的分类预测能力。 分类预测包含分类和预测两个方面: 第一,分析新数据在分类型输出变量上的取值称为分类。 第二,研究新数据在数值型输出变量上的取值称为预测。 决策树算法: 使用最广泛的分类预测算法之一。,C 5.0,C5.0 是Clementine的决策树模型中的算法 最早(20世纪50年代)的算法是亨特CLS(Concept Learning System)提出,后经发展由J R Quinlan在1979年提出了著名的ID3算法,主要针对离散型属性数据 C4.5是ID3后来的改进算

2、法,它在ID3基础上增加了: -对连续属性的离散化 C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进,Clementine的决策树模型,决策树(Decision Tree)模型,也称规则推理模型 通过对训练样本的学习,建立分类规则 依据分类规则,实现对新样本的分类 属于有指导(监督)式的学习方法,有两类变量: 目标变量(输出变量) 属性变量(输入变量) 决策树模型与一般统计分类模型的主要区别 决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的,Clementine的决策树模型,常用的算法有CHAID、CART、 Quest 和C5.0。 对每个决策都要

3、求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。 决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作。,C5.0原理介绍,C5.0是经典的决策树模型的算法之一,可生成多分支的决策树,目标变量为分类变量 使用c5.0算法可以生成决策树(decision tree)或者规则集(rule sets)。C5.0模型根据能够带来最大信息增益(information gain)的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验

4、最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。,C5.0的优点,优点: C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健。 C5.0模型通常不需要很长的训练次数进行估计。 C5.0模型比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释。 C5.0也提供强大的增强技术以提高分类的精度。,C 5.0 算法,C5.0算法选择分支变量的依据 以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降,信息熵:信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵 信息ui(i=1,2,r)的发生概率P(ui)组成信源数学模型

5、, P(ui)1 信息量(单位是bit,对的底数取2): 信息熵: (先验不确定性) 信息熵H(U)的性质 H(U)=0时,表示只存在唯一的可能性,不存在不确定性 如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k, H(U)达到最大,不确定性最大 P(ui)差别越小, H(U)就越大; P(ui) 差别大, H(U)就越小,C5.0算法-熵,决策树中熵的应用 设S是一个样本集合,目标变量C有k个分类,freq(Ci,S)表示S中属于Ci类的样本数,|S|表示样本集合S的样本数。则集合S的信息熵定义为: 如果某属性变量T,有n个分类,则属性变量T引入后的条件熵定义为: 属性变

6、量T带来的信息增益为:,C 5.0 算法-决策树中熵的应用,C5.0算法的简单示例,该组样本的熵为: 关于T1的条件熵为: T1带来的信息增益为:,C5.0节点模型选项,模型名称(Model name) 输出类型(Output type):此处指定希望最终生成的模型是决策树还是规则集。 群体字符(Group symbolics)。如果选择该选项,C5.0会尝试将所有与输出字段格式相似的字符值合并。如果没有选择该选项,C5.0会为用于拆分母节点的字符字段的每个值创建一个子节点。 使用自举法(Use boosting):提高其精确率。这种方法按序列建立多重模型。第一个模型以通常的方式建立。随后,建

7、立第二个模型,聚焦于被第一个模型错误分类的记录。以此类推,最后应用整个模型集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测。The Number of trials选项允许控制用于助推的模型数量。,C5.0节点模型选项,交叉验证(Crossvalidate):如果选择了该选项,C5.0将使用一组基于训练数据子集建立的模型,来估计基于全部数据建立的模型的精确度。如果数据集过小,不能拆分成传统意义上的训练集和测试集,这将非常有用。或用于交叉验证的模型数目。 模式(Mode):对于简单的训练,绝大多数C5.0参数是自动设置。高级训练模式选项允许对训练参数更多的直接控制。,C5.0节点模型

8、选项,简单模式选项(simple) 偏好(Favor): 在accuracy下,C5.0会生成尽可能精确的决策树。在某些情况下,这会导致过度拟和。选择Generality(一般化)项以使用不易受该问题影响的算法设置。 期望噪声百分数(Expected noise (%): 指定训练集中的噪声或错误数据期望比率。,C5.0节点模型选项,高级模式选项 修剪纯度(pruning severity):决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小,更简洁的决策树。降低纯度值将获得更加精确的决策树。 子分支最少记录数(Minimum records per child branch):子群大小

9、可以用于限制决策树任一分支的拆分数。只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数,决策树才会继续拆分。默认值为2,提高该值将有助于避免噪声数据的过度训练。 全局修剪(Use global pruning): 第一阶段:局部修建 第二阶段:全局修剪 排除属性(Winnow attributes):如果选择了该选项,C5.0会在建立模型前检验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段元的模型非常有用,并且有助于避免过度拟和。,错误归类损失选项,图1 指定错误归类损失,错误归类损失允许指定不同类型预测错误之间的相对重要性。 错误归类损失

10、矩阵显示预测类和实际类每一可能组合的损失。所有的错误归类损失都预设设置为1.0。要输入自定义损失值,选择Use misclassification costs,然后把自定义值输入到损失矩阵中。,例子,目标:分析通过观看电视或网络信息,哪些客户有可能订购某种新闻服务 变量情况:年龄、性别、受教育程度、收入等级、每天收看电视的小时、子女数(newschan.sav),例子数据,例子设置,例子设置,分配训练样本和测试样本,例子结果,例子- decision tree,例子-model,例子-Rule Set,模型评价,evaluation,模型评价-Gains Chart,横坐标通常为分位点(按置信

11、度降序),纵坐标是累计Gains,定义为: 分位累计命中数/总命中数100 理想的Gains图应 在前期快速达到较 高的累计Gains,很 快趋于100并平稳,模型评价- Lift Chart,横坐标通常为分位点(按置信度降序),纵坐标是累计Lift,定义为: (分位累计命中数/分位样本数)/(总命中数/总样本数) 理想的Lift图应在较高的累计Lift上保持较长一段,然后迅速下降到1,模型评价- Response Chart,横坐标通常为分位点(按置信度降序),纵坐标是累积Response,定义为: (分位累计命中数/分位样本数)100% Response图与Lift图相似,但纵坐标计量单位

12、不同。一般从大于100开始逐渐减少至100。 理想的Response图应在较高的累计Lift上保持一段,然后迅速下降到100,模型评价- Profit Chart,横坐标通常为分位点(按置信度降序),纵坐标是累积Profit,定义为: 分位累积回报分位累积成本 Profit图反映了当样本不断增加过程中的利润变化情况。通常纵坐标从0(或大于0)开始,快速增加后将快速下降。 理想的Profit图应在前期快速上升,在50分位点纵坐标达到最大后快速下降,模型评价- ROI Chart,横坐标通常为分位点(按置信度降序),纵坐标是累积ROI,定义为: (分位累积利润/分位累积成本)100% ROI图与Response和Lift图类似,但纵坐标计量单位不同。一般从大于0开始逐渐减少至一般水平(可能为负数至100)。 理想的ROI图应在较高的累计ROI上保持一段,然后迅速下降至一般水平,谢谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号