{决策管理}决策树完整

上传人:精****库 文档编号:140435344 上传时间:2020-07-29 格式:PPTX 页数:39 大小:1.86MB
返回 下载 相关 举报
{决策管理}决策树完整_第1页
第1页 / 共39页
{决策管理}决策树完整_第2页
第2页 / 共39页
{决策管理}决策树完整_第3页
第3页 / 共39页
{决策管理}决策树完整_第4页
第4页 / 共39页
{决策管理}决策树完整_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《{决策管理}决策树完整》由会员分享,可在线阅读,更多相关《{决策管理}决策树完整(39页珍藏版)》请在金锄头文库上搜索。

1、机器学习周志华,第4章 决策树 第5章 神经网络和深度学习 第6章 支持向量机 第8章 集成学习 第9章 聚类 关联规则学习,第4章 决策树,根据训练数据是否拥有标记信息 学习任务,决策树(decision tree)模型常常用来解决分类和回归问题。常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5等。,二分类学习任务 属性 属性值,根结点:包含全部样本 叶结点:对应决策结果 “好瓜” “坏瓜” 内部结点:对应属性测试,决策树学习的目的:为了产生一颗泛化能力强的决策树,即处理未见示例能力强。,决策树学习的关键是算法的第8行:选择

2、最优划分属性 什么样的划分属性是最优的? 我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高,可以高效地从根结点到达叶结点,得到决策结果。,三种度量结点“纯度”的指标: 信息增益 增益率 基尼指数,1. 信息增益,香农提出了“信息熵”的概念,解决了对信息的量化度量问题。 香农用“信息熵”的概念来描述信源的不确定性。,信息熵,对于二分类任务,信息增益,一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。 决策树算法第8行选择属性,著名的ID3决策树算法,举例:求解划分根结点的最优划分属性,根结点的信息熵:,用“色泽”将根结点划分后获得3个分

3、支结点的信息熵分别为:,属性“色泽”的信息增益为:,若把“编号”也作为一个候选划分属性,则属性“编号”的信息增益为:,根结点的信息熵仍为:,用“编号”将根结点划分后获得17个分支结点的信息熵均为:,则“编号”的信息增益为:,远大于其他候选属性 信息增益准则对可取值数目较多的属性有所偏好,2. 增益率,增益率准则对可取值数目较少的属性有所偏好 著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。,3. 基尼指数,基尼值,基尼指数,著名的CART决策树算法,过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当

4、作了所有潜在样本都会具有的一般性质,导致泛化性能下降。 欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。,过拟合无法彻底避免,只能做到“缓解”。,不足: 基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险,预剪枝使得决策树的很多分支都没有“展开” 优点: 降低过拟合的风险 减少了训练时间开销和测试时间开销,训练集:好瓜 坏瓜1,2,3,6,7,10,14,15,16,17,后剪枝决策树,预剪枝决策树,保留了更多的分支 欠拟合风险很小 泛化能力优于预剪枝决策树 训练时间开销比未减枝和预剪枝决策树大得多 生产完全决策树 所有非叶节点逐一考察,知识回顾: 四类学习任务 Hunt算法3种递

5、归返回情形、第8行 3种度量结点“纯度”的指标: 信息增益ID3 增益率C4.5 基尼指数CART 过拟合、欠拟合 决策树剪枝 预剪枝 后剪枝,现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑,属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分? (对于缺失属性值的样本如何将它从父结点划分到子结点中),训练集,训练集中在属性a上没有缺失值的样本子集,被属性a划分后的样本子集,中属于第k类的样本子集,无缺失值样本中在属性上取值的样本所占比例,无缺失值的样本子集上的信息增益,对于问题2:对于有缺失值的

6、样本如何将它从父结点划分到子结点中 若样本在划分属性a上的取值已知,则将划入与其取值对应的子结点,且样本权值在子结点中保持为 若样本在划分属性a上的取值未知,则将同时划入所有子结点,且样本权值在子结点中调整为,就是让同一个样本以不同的概率划入不同的子结点中。,其中,是为每个样本赋予的一个权重,运用: 问题1属性值缺失时,如何进行划分属性选择? =属性值缺失时,如何计算缺失属性的信息增益?,无缺失值样本中在属性上取值的样本所占比例,无缺失值样本中第k类所占比例,样本划分原则: 属性值已知,划入与其取值对应的子结点,样本权值不变,仍为 属性值未知,划入所有子结点,样本权值调整为,让同一个样本以不同的概率划入不同的子结点中,无缺失值样本中在属性上取值的样本所占比例,“纹理”属性值缺失的样本编号为:8,10 权值为: 8和10同时进入三个分支中,权值分别为:,不足:,可以从该结点所含的样本集D和属性集A上学得,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号