机器学习课件演示文稿第六次课

资源描述

《机器学习课件演示文稿第六次课》由会员分享，可在线阅读，更多相关《机器学习课件演示文稿第六次课（11页珍藏版）》请在金锄头文库上搜索。

1、,第四章示例学习的实用化 4.1 定量属性的定性化等宽离散法,L,2. 决策树连续属性值处理(二分离散法) 1) 切点法:,T,类熵(class entropy),类信息熵(class information entropy),S1: 切点T左边的例子集 S2:切点T右边的例子集. |s| 集合s中的例子数 N=|s| 2) 界点法:,T1,T2,T3,T4,T5,3)多切点法:,er,er+1,Tr,Tr+1,Emin是目前为止得到的最小信息熵,如果 E(Tr)-max_diff(Tr) Emin, 则E(Tr+1) Emin Max_diff(Tr)随着r的增加单调递减. 启发式1:

2、设Emin是迄今为止得到的最小信息熵,则从Tr开始下一个需要计算熵的切点是Tr+,与Emin有关,因此,被忽略的结点数与属性被处理的顺序有关,如果最相关的属性被首先处理,Emin就会被早些得到,因此,以后计算中值就会较大,所以省略的结点数就多,为减少算法的运行时间,最相关的属性应首先被处理. Max_diff(Tr)是单调递减的,所以连续属性排序后,属性值域的后半部分值较高. 通常,如果相关属性先被处理,对不相关属性使用启发式1,将是较有效的. 启发式2. 对于每个属性Ai,Tmi是其一个切点,把例子集分成两个例子数相等的子集, E(Tmi)是Tmi的熵,对各属性按E(Tmi)从小到大的顺序使

展开阅读全文