基于计算动词决策树的股市数据分析8

上传人:wt****50 文档编号:44588233 上传时间:2018-06-14 格式:PDF 页数:24 大小:271.87KB
返回 下载 相关 举报
基于计算动词决策树的股市数据分析8_第1页
第1页 / 共24页
基于计算动词决策树的股市数据分析8_第2页
第2页 / 共24页
基于计算动词决策树的股市数据分析8_第3页
第3页 / 共24页
基于计算动词决策树的股市数据分析8_第4页
第4页 / 共24页
基于计算动词决策树的股市数据分析8_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《基于计算动词决策树的股市数据分析8》由会员分享,可在线阅读,更多相关《基于计算动词决策树的股市数据分析8(24页珍藏版)》请在金锄头文库上搜索。

1、传统决策树的动词化传统决策树的动词化答辩人:周悦颖答辩人:周悦颖 学号:学号:22220051204059 指导老师:杨涛指导老师:杨涛决策树小组的分工情况:决策树小组的分工情况:周悦颖:传统决策树的动词化周悦颖:传统决策树的动词化张娓娓:计算动词决策树的设计张娓娓:计算动词决策树的设计刘夏莹:基于计算动词决策树的股票数据分析刘夏莹:基于计算动词决策树的股票数据分析决策树数据挖掘技术是目前最有影响和使用最多的一种数据决策树数据挖掘技术是目前最有影响和使用最多的一种数据 挖掘技术。决策树分析法是一种用树形图来描述各分类情况挖掘技术。决策树分析法是一种用树形图来描述各分类情况 下对各自然状态出现概

2、率的计算,其决策是以历史记录为标下对各自然状态出现概率的计算,其决策是以历史记录为标 准来推断的。准来推断的。判定树分类算法output训练集决策树input-深度(m-1)- - - -深度1-深度0根C(1),F(1),D(1)C(n),F(n),D(n)C(i),F(i),D(i) 终端从根节点开始对整个决策树进行分支,从根节点开始对整个决策树进行分支,对每个切分都要求分对每个切分都要求分 成的组之间的“差异”最大。要根据合适算法在节点处选择成的组之间的“差异”最大。要根据合适算法在节点处选择 最佳属性对象进行切分从而得到最优方案。最佳属性对象进行切分从而得到最优方案。ID3算法把信息熵

3、作为选择测试属性的标准,选择具有最大信息增算法把信息熵作为选择测试属性的标准,选择具有最大信息增 益(或最大熵减方向)的条件属性作为当前节点。益(或最大熵减方向)的条件属性作为当前节点。已知有已知有C个结果的训练集个结果的训练集S Entropy(S) = -p(I) log2 p(I) Entropy(S,A) = (|Sv| / |S|) * Entropy(Sv)属性属性A在集在集S上的信息增益定义为:上的信息增益定义为: Gain(S,A) = Entropy(S) - Entropy(S,A) Gain(S,A)是指已知属性是指已知属性A的值后导致熵的减少。的值后导致熵的减少。Gai

4、n(S, A)越大,说明选越大,说明选 择测试属性择测试属性A对分类提供的信息越多。对分类提供的信息越多。开始开始 选择根节点选择根节点选下一个决策节点选下一个决策节点为下一个决策节点为下一个决策节点N找到最佳测试属性找到最佳测试属性A赋赋A为为N的测试属性的测试属性对于对于A的每个值都创建的每个值都创建N的新分支的新分支将训练样本分类到各叶子节点将训练样本分类到各叶子节点训练样本得以最佳分类训练样本得以最佳分类停止停止YesNo天数天数户外户外温度温度湿度湿度风速风速活动活动D1D1晴天晴天炎热炎热高高弱弱取消取消D2D2晴天晴天炎热炎热高高强强取消取消D3D3阴天阴天炎热炎热高高弱弱进行进

5、行D4D4雨天雨天温柔温柔高高弱弱进行进行D5D5雨天雨天凉爽凉爽正常正常弱弱进行进行D6D6雨天雨天凉爽凉爽正常正常强强取消取消D7D7阴天阴天凉爽凉爽正常正常强强进行进行D8D8晴天晴天温柔温柔高高弱弱取消取消D9D9晴天晴天凉爽凉爽正常正常弱弱进行进行D10D10雨天雨天温柔温柔正常正常弱弱进行进行D11D11晴天晴天温柔温柔正常正常强强进行进行D12D12阴天阴天温柔温柔高高强强进行进行D13D13阴天阴天炎热炎热正常正常弱弱进行进行D14D14雨天雨天温柔温柔高高强强取消取消假设我们希望用假设我们希望用ID3决定“天气是否适合打球”。决定“天气是否适合打球”。 目标分类是“我们要去打

6、球吗?”它有两种目标结果,取消或进目标分类是“我们要去打球吗?”它有两种目标结果,取消或进 行行 。天气可以用四个属性来刻画,户外,温天气可以用四个属性来刻画,户外,温 度,湿度和风速。它们的属性值分别度,湿度和风速。它们的属性值分别 户外户外=晴天,阴天,雨天晴天,阴天,雨天 温度温度=炎热,温柔,凉爽炎热,温柔,凉爽 湿度湿度=高,正常高,正常 风速风速=弱,强弱,强 1.根节点的选择(增益最大的属性作为根节点)根节点的选择(增益最大的属性作为根节点)(1)计算目标结果的熵计算目标结果的熵Entropy(活动活动) = - (9/14) Log2 (9/14) - (5/14) Log2

7、(5/14) = 0.940 (2)计算条件属性的熵计算条件属性的熵Entropy(S晴天晴天) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 Entropy(S阴天阴天) = - (4/4)*log2(4/4) = 0 (熵为(熵为0表示这一支比较纯,没有分下去的必要)表示这一支比较纯,没有分下去的必要) Entropy(S雨天雨天) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971 Entropy (S,户外户外) =(5/14)*Entropy(晴天)晴天)+ (4/14)*Entropy(S阴天阴天)

8、 +(5/14)* Entropy(S雨雨 天天)= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693 (3)计算条件属性的增益计算条件属性的增益 Gain(S, 户外户外) = Entropy(活动活动) - Entropy (S,户外户外) = 0.94- 0.693 = 0.246同理同理Entropy (S,温度温度) = 0.911 Entropy (S,湿度湿度) = 0.789 Entropy (S,风速风速) = 0.892Gain(S, 温度温度) = Entropy(活动活动) - Entropy (S,温度温度) = 0.94-

9、0.911 = 0.029 Gain(S, 湿度湿度) = Entropy(活动活动) - Entropy (S,湿度湿度) = 0.94- 0.789 = 0.151 Gain(S, 风速风速) = Entropy(活动活动) - Entropy (S,风速风速) = 0.94- 0.892 = 0.048条件属性户外有最大的增益,所以它用于决策树的根节点。条件属性户外有最大的增益,所以它用于决策树的根节点。2.支节点的选择支节点的选择 因为户外有三种类型,根节点就有三个分支(晴天,阴天,雨天)因为户外有三种类型,根节点就有三个分支(晴天,阴天,雨天) 以晴天支节点的选择为例,计算户外为晴天

10、的条件下各属性的增益以晴天支节点的选择为例,计算户外为晴天的条件下各属性的增益天数天数户外户外温度温度湿度湿度风速风速活动活动D1晴天晴天炎热炎热高高弱弱取消取消D2晴天晴天炎热炎热高高强强取消取消D8晴天晴天温柔温柔高高弱弱取消取消D9晴天晴天凉爽凉爽正常正常弱弱进行进行D11晴天晴天温柔温柔正常正常强强进行进行Gain(S晴天晴天,温度温度) = Entropy(S晴天晴天)- Entropy (S晴天晴天,温度温度) = 0.971 0.4 = 0.571 Gain(S晴天晴天,湿度湿度) = Entropy(S晴天晴天) - Entropy (S晴天晴天,湿度湿度) = 0.971 0

11、 = 0.971 Gain(S晴天晴天,风速风速) = Entropy(S晴天晴天) - Entropy (S晴天晴天,风速风速)= 0.971-0.951= 0.02 湿度有最大增益,所以它用作晴天的支节点。因为湿度有最大增益,所以它用作晴天的支节点。因为Entropy (S晴天晴天,湿度湿度)= 0,所以,所以 这一支的分类结束。这一支的分类结束。最后形成的分类树如下:最后形成的分类树如下:户外户外 N=14湿度湿度 N=5N=(4+,0-) 活动进行活动进行风速风速 N=5N=(3+,0-) 活动取消活动取消N=(2+,0-) 活动进行活动进行N=(3+,0-) 活动进行活动进行N=(2

12、+,0-) 活动取消活动取消晴天晴天阴天阴天雨天雨天高高正常正常弱弱强强在在 MATLAB 下用下用ID3算法实现决策树的构造算法实现决策树的构造 户外户外=晴天,阴天,雨天晴天,阴天,雨天=1=1,2,3; 温度温度=炎热,温柔,凉爽炎热,温柔,凉爽=2=1,2,3 ; 湿度湿度=高,正常高,正常=3=1,2; 风速风速=弱,强弱,强=4=1,2; 目标结果中取消用目标结果中取消用1表示,进行用表示,进行用2表示。表示。天数天数户外户外温度温度湿度湿度风速风速活动活动D1晴天晴天炎热炎热高高弱弱取消取消D2晴天晴天炎热炎热高高强强取消取消D3阴天阴天炎热炎热高高弱弱进行进行D4雨天雨天温柔温

13、柔高高弱弱进行进行D5雨天雨天凉爽凉爽正常正常弱弱进行进行D6雨天雨天凉爽凉爽正常正常强强取消取消D7阴天阴天凉爽凉爽正常正常强强进行进行D8晴天晴天温柔温柔高高弱弱取消取消D9晴天晴天凉爽凉爽正常正常弱弱进行进行D10雨天雨天温柔温柔正常正常弱弱进行进行D11晴天晴天温柔温柔正常正常强强进行进行D12阴天阴天温柔温柔高高强强进行进行D13阴天阴天炎热炎热正常正常弱弱进行进行D14雨天雨天温柔温柔高高强强取消取消1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 2 2 1 1 1 1 1 1 2 2 3 3 2 2 1 1 1 1 2 2 3 3 3 3 2 2

14、1 1 2 2 3 3 3 3 2 2 2 2 1 1 2 2 3 3 2 2 2 2 2 2 1 1 2 2 1 1 1 1 1 1 1 1 3 3 2 2 1 1 2 2 3 3 2 2 2 2 1 1 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 1 1 2 2 1 1 2 2 3 3 2 2 1 1 2 2 1 1 3 3 3 3 2 2 2 2 2 2 1 1 2 2 3 3 4 4 5 5Matlab下实现决策树构造的流程图如下:下实现决策树构造的流程图如下:计算目标结果的熵计算目标结果的熵计算条件属性的熵计算条件属性的熵计算条件属性的增益计算条件属性的增益比较条件属性的增益,取最大增益比较条件属性的增益,取最大增益 所对应的属性所对应的属性A做为节点做为节点对于对于A的每个值都创建新分支的每个值都创建新分支(A属性的属性值的属性的属性值的 熵!熵!=0)&(N1)结束该分支结束该分支NY导入数据库和导入数据库和N(N为属性的个数为属性的个数)生成新的数据库,生成新的数据库,N=N-1开始开始结

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号