分类模型——决策树

上传人:mg****85 文档编号:34129174 上传时间:2018-02-21 格式:DOC 页数:3 大小:41KB
返回 下载 相关 举报
分类模型——决策树_第1页
第1页 / 共3页
分类模型——决策树_第2页
第2页 / 共3页
分类模型——决策树_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《分类模型——决策树》由会员分享,可在线阅读,更多相关《分类模型——决策树(3页珍藏版)》请在金锄头文库上搜索。

1、决策树模型相比贝叶斯算法,决策树的优势在于构造过程中不需要任何的参数设置,因此决策树更偏重于探测式的知识发现。决策树的思想贯穿着我们的生活方方面面,人们在生活中的每一个选择都是输的一个分支节点,只不过生活是一根走不到尽头的决策树,而一般的问题的决策结论是正确或者错误。举个例子说明决策树,比如给寝室的哥们介绍对象时需要跟人家讲明女孩子的如下情况:A. 家是哪里的。B. 人脾气如何C. 人长相如何D. 人个头如何OK ,先举这几个,以上 4 个条件便是一个实例。然后男孩的决定策略便是决策树,比如说寝室的哥们的要求是:家北京的,脾气温柔的,长相一般,个头一般。那么这个决策树变构造成了。以上便是一个决

2、策树,实例的每一个特征在决策树中都会找到一个肯定或者否定的结论,至于每一个节点的权重还需要以后在学习中获得,可以根据不同的权重将节点排序,或者每个节点带一个权重。构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯” 。尽可能“纯” 就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况:人脾气不是北京是北京家住址不温柔温柔长相一般下一般上个头一般下一般上 1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子

3、集进行测试,按照“属于此子集” 和“不属于此子集”分成两个分支。3、属性是连续值。此时确定一个值作为分裂点 split_point,按照split_point 和=split_point 生成两个分支。构造决策树的关键性内容是进行属性选择度量,属性选择度量是一种选择分裂准则,是将给定的类标记的训练集合的数据划分 D“最好”地分成个体类的启发式方法,它决定了拓扑结构及分裂点 split_point 的选择。常用的有 ID3 算法和 C4.5 算法从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高。所以 ID3 算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进

4、行分裂。下面先定义几个要用到的概念。设 D 为用类别对训练元组进行的划分,则 D 的熵(entropy )表示为:其中 pi 表示第 i 个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是 D 中元组的类标号所需要的平均信息量。现在我们假设将训练元组 D 按属性 A 进行划分,则 A 对 D 划分的期望信息为:而信息增益即为两者的差值:对于计算机病毒的检测分类可以利用 ID3 算法,首先计算整个训练集的信息熵,然后计算训练集按照不同的属性进行划分的期望信息,当期望信息最小的时候的信息增益最大,也就是说决策树的节点是以该属性进行分裂的,

5、然后依次类推即可构造病毒分类的决策树。具体的计算过程如下:A. 将训练集 S 分为 1 .N 个最终类别,对于病毒检测为 2 个类别,是病毒,不是病毒B. 计算 S 的总信息熵 INFO(S),改值等于最终类别的各自信息量和几率质量函数的乘积,即每一个类别所占训练集的比例乘以该比例的对数值取负,然后加和。C. 确定用来进行分类的属性向量 V1,V2.VnD. 计算每一个属性向量对应的该属性向量对训练集的信息熵 INFO(S)Vi,比如对应的属性 Vi 将训练集分为了 M 类,那么改值等于在该属性划分下的某一类值出现的概率乘以对应的该值所在的集的信息熵。改值所在的集的信息熵再套公式发现等于最终分

6、类在 Vi 属性划分下的某一个类里的概率值乘以该概率值的对数值取负。表述的有些复杂,最好看公式。E. 在众多属性对于训练集的信息熵之中取最小的,这样信息增益最大,信息增益最大代表着信息的纯度越高,这样的分类越有效。F. 然后完成了一次属性的分裂,之后的递归。C4.5 算法:ID3 算法存在一个问题,就是偏向于多值属性,例如,如果存在唯一标识属性 ID,则 ID3会选择它作为分裂属性,这样虽然使得划分充分纯净,但这种划分对分类几乎毫无用处。ID3 的后继算法 C4.5 使用增益率(gain ratio)的信息增益扩充,试图克服这个偏倚。C4.5 算法首先定义了“分裂信息”,其定义可以表示成:其中各符号意义与 ID3 算法相同,然后,增益率被定义为:C4.5 选择具有最大增益率的属性作为分裂属性,其具体应用与 ID3 类似,不再赘述。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号