机器学习课件演示文稿第六次课

上传人:w****i 文档编号:92799947 上传时间:2019-07-13 格式:PPT 页数:11 大小:249KB
返回 下载 相关 举报
机器学习课件演示文稿第六次课_第1页
第1页 / 共11页
机器学习课件演示文稿第六次课_第2页
第2页 / 共11页
机器学习课件演示文稿第六次课_第3页
第3页 / 共11页
机器学习课件演示文稿第六次课_第4页
第4页 / 共11页
机器学习课件演示文稿第六次课_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《机器学习课件演示文稿第六次课》由会员分享,可在线阅读,更多相关《机器学习课件演示文稿第六次课(11页珍藏版)》请在金锄头文库上搜索。

1、,第四章 示例学习的实用化 4.1 定量属性的定性化 等宽离散法,L,2. 决策树连续属性值处理(二分离散法) 1) 切点法:,T,类熵(class entropy),类信息熵(class information entropy),S1: 切点T左边的例子集 S2:切点T右边的例子集. |s| 集合s中的例子数 N=|s| 2) 界点法:,T1,T2,T3,T4,T5,3)多切点法:,er,er+1,Tr,Tr+1,Emin是目前为止得到的最小信息熵,如果 E(Tr)-max_diff(Tr) Emin, 则E(Tr+1) Emin Max_diff(Tr)随着r的增加单调递减. 启发式1:

2、设Emin是迄今为止得到的最小信息熵,则从Tr开始下一个需要计算熵的切点是Tr+,与Emin有关,因此,被忽略的结点数与属性被处理的顺序有关,如果最相关的属性被首先处理,Emin就会被早些得到,因此,以后计算中值就会较大,所以省略的结点数就多,为减少算法的运行时间,最相关的属性应首先被处理. Max_diff(Tr)是单调递减的,所以连续属性排序后,属性值域的后半部分值较高. 通常,如果相关属性先被处理,对不相关属性使用启发式1,将是较有效的. 启发式2. 对于每个属性Ai,Tmi是其一个切点,把例子集分成两个例子数相等的子集, E(Tmi)是Tmi的熵,对各属性按E(Tmi)从小到大的顺序使

3、用启发式1进行离散化. 3.多区间划分 停止标准(最小描述长度),K1,k2分别是T左右两边例子的类别数,4. Bayes离散法 设有两类W1和W2 状态先验概率P(wi),条件概率p(x|Wi) i=1,2,P(Gj)=|Gj|/|sGs| P(x|Gj)=(k/mj)/A(k,x) mj=|Gj|, k= A(k,x)以x为中心,恰好包含了k个例子的区间长度.,算法 1)对I=1,2,.,n;求Gi类例子的个数 2) 所有例子的个数|UsGs| 3) 对I=1,2,n;求P(Gi)=|Gi|/|UsGs| 4) 从区间左端开始,按某步长step向右走,对于每一点x计算A(k,x),具体办法是:以x为中心点,以step为步长向两端扩展,直到包含k个例子为止,然后计算该点的P(x|Gj)=(k/mj)/A(k,x),如果有两个值Xs、Xs+1(Xs+1=Xs+step), 使得P(Xs|Gi1)P(Gi1)=maxP(Xs|Gj)P(Gj), P(Xs+1|Gi2)P(Gi2)=maxP(Xs+1|Gj)P(Gj), j=1,2,n, i1i2,则Xs+1 为切分点,背景 知识 库,数据 库,知识 库,数据库 接口模块,连续属性 离散化模块,规则抽 取模块,检测 模块,背景知识 编辑模块,总控模块,显示 模块,类型 未知 的例 子,例子类别,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号