数据挖掘作业

上传人:M****1 文档编号:508646922 上传时间:2023-05-17 格式:DOC 页数:5 大小:240.50KB
返回 下载 相关 举报
数据挖掘作业_第1页
第1页 / 共5页
数据挖掘作业_第2页
第2页 / 共5页
数据挖掘作业_第3页
第3页 / 共5页
数据挖掘作业_第4页
第4页 / 共5页
数据挖掘作业_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据挖掘作业》由会员分享,可在线阅读,更多相关《数据挖掘作业(5页珍藏版)》请在金锄头文库上搜索。

1、 1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“3135”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.5

2、0K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status 分为2个部分: Department分为4个部分:Senior 共计52 Sales 共计110Junior 共计113 Systems 共计 31 Marketing 共计14Secretary 共计10Age分为6个部分

3、: Salary分为6各部分:2125 共计20 26K30K 共计462630 共计49 31K35K 共计40 3135 共计79 36K40K 共计4 3640 共计10 41K45K 共计4 4145 共计3 46K50K 共计63 4650 共计4 66K70K 共计8 位位位位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31.3546K.50K30systemsjunior21.2546K.50K20s

4、ystemsjunior26.3046K.50K3marketingsenior36.4046K.50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:Salary26K:30K 66K:70K31K:35KJunior36K:40KSenior46K:50K41K:45KJuniorJuniorSeniorAge21:2536:4031:3526:30JuniorSeniorSeniorJunior3)给定一个数据元组,它在属性department,age和sal

5、ary上的值分别为“systems”,“26.30”和“46.50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=2630|status=senior)=1/52=0.0192P(age=2630|status=junior)=49/113=0.4336P(salary=

6、46K50K|status=senior)=40/52=0.7692P(salary=46K50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)* P(salary=46K50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|status=junior)* P(salary=46K50K|status= junior)=0.0180P(X|status=senior)* P(status=senior)= 7.2496e-004P(X|status=junior)* P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior2. 运用决策树或者贝叶斯算法,对鸢尾花数据集进行分类,显示分类结果。(可以采用Weka工具或者其他方法)在weka上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:在weka上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号