[精选]决策树学习培训讲义

资源描述

《[精选]决策树学习培训讲义》由会员分享，可在线阅读，更多相关《[精选]决策树学习培训讲义（39页珍藏版）》请在金锄头文库上搜索。

1、人工智能第6章学习智能体-决策树学习,巢文涵 G1001/G931 北航计算机学院智能信息研究所 5/4/2021,1,大纲,简介决策树学习算法应用实例,2,决策树(Decision Tree),决策树学习是应用最广的归纳推理算法之一它是一种逼近离散函数的方法学习到的函数以决策树的形式表示主要用于分类对噪声数据有很好的鲁棒性能够学习析取表达,3,分类任务基本框架,4,分类应用实例,垃圾邮件过滤信贷分析新闻分类人脸识别、手写体识别等,5,决策树的结构,图结构内部节点（非树叶节点，包括根节点）在一个属性上的测试分枝一个测试输出树叶节点类标识,6,决策树示例,Refu

2、nd,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single, Divorced, 80K, 80K,测试属性,训练数据,模型：决策树 (Refund=YES) (Refund=NO MarSt=Single,Divorced TaxInc 80K) (Refund=NO Married=NO),7,另一棵决策树,MarSt,Refund,TaxInc,YES,NO,NO,Yes,No,Married,Single, Divorced, 80K, 80K,相同的数据可产生多棵决策树,8,决策树分类任务框架,决策树,9,决策树应用,测试数据,从根节点开始,

3、10,决策树应用,测试数据,11,决策树应用,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single, Divorced, 80K, 80K,测试数据,12,决策树应用,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single, Divorced, 80K, 80K,测试数据,13,决策树应用,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single, Divorced, 80K, 80K,测试数据,14,决策树应用,Refund,Mar

4、St,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single, Divorced, 80K, 80K,测试数据,指定欺诈为： “No”,15,决策树分类任务框架,Decision Tree,16,大纲,简介决策树学习算法应用实例,17,决策树算法,Hunts Algorithm CART ID3, C4.5 SLIQ,SPRINT,18,基本的ID3算法,19,基本算法,Dont Cheat,20,决策树归纳,贪婪策略根据特定的性能度量选择最好的划分属性要素哪个属性是最佳的分类属性？如何确定最佳划分点如何确定停止条件,21,度量标准熵,熵(Entrop

5、y) 信息论中广泛使用的一个度量标准刻画任意样例集的纯度（purity）一般计算公式为：对于二元分类：给定包含关于某个目标概念的正反样例的样例集S，那么S相对这个布尔型分类的熵为： Entropy(S) -plog2p-plog2p 其中p是在S中正例的比例，p是在S中负例的比例。在有关熵的所有计算中我们定义0log0为0。,22,例子,Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0,Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650,Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=

6、1,23,度量标准熵,24,度量标准熵,信息论中熵的一种解释熵确定了要编码集合S中任意成员（即以均匀的概率随机抽出的一个成员）的分类所需要的最少二进制位数 = 1 接收者知道抽出的样例必为正，所以不必发任何消息，熵为0 = 0.5 必须用一个二进制位来说明抽出的样例是正还是负，熵为1 = 0.8 那么对所需的消息编码方法是赋给正例集合较短的编码，可能性较小的反例集合较长的编码，平均每条消息的编码少于1个二进制位,25,性能度量信息增益,属性的信息增益使用这个属性分割样例而导致的期望熵降低的数量 Values(A)是属性A所有可能值的集合 Sv 是S中属性A的值为v的子集，即Sv=sS|A

7、(s)=v 当对S的一个任意成员的目标值编码时，Gain(S,A)的值是在知道属性A的值后可以节省的二进制位数,26,例子,假设S是有关天气的训练样例集 9+,5- 其中： wind=weak的样例是 6+,2- wind=strong的样例+3,-3 问题:计算属性wind的信息增益 S的熵： E(S)= -(9/14)log(9/14) (5/14)log(9/14)=0.940,27,选择最好的分类属性,28,大纲,简介决策树学习算法应用实例,29,应用实例,问题及数据集根据其他属性，判断周六是否玩网球playTennis=Y/N?,30,Step1: 确定根节点,分别计算4个属性

8、的信息增益 Outlook: 0.246 =Sunny 2+,3- =Overcast 4+,0- =Rain 3+,2- Wind: 0.048 =weak的样例是 6+,2- =strong的样例+3,-3 Humidity : 0.151 Temperature : 0.029 因此：根节点为Outlook,31,Step 2: 分枝,选择哪个属性进行划分？,32,Step 3: 循环,选择哪个属性进行划分？,33,小结,实例是由“属性-值”对（pair）表示的目标函数具有离散的输出值可能需要析取的描述（disjunctive description）训练数据可以包含错误训练数据

9、可以包含缺少属性值的实例,34,作业,6-1画出表示下面布尔函数的决策树（a）AB （b）ABC （c）A XOR B （d）AB CD,35,作业,6-2考虑下面的训练样例集合手动给出决策树的构造过程,36,作业,6-3 ID3仅寻找一个一致的假设，而候选消除算法寻找所有一致的假设。考虑这两种学习算法间的对应关系（a）假定给定EnjoySport的四个训练样例，画出ID3学习的决策树（b）学习到的决策树和从同样的样例使用变型空间算法得到的变型空间间有什么关系？树等价于变型空间的一个成员吗？,37,作业,6-4 实现ID3算法，并以PlayTennis实例中的训练集进行训练，给出最终的决策树,38,

展开阅读全文