weka数据挖掘作业报告.doc

资源描述

《weka数据挖掘作业报告.doc》由会员分享，可在线阅读，更多相关《weka数据挖掘作业报告.doc（6页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘作业报告 1.修改数据类型，将binary和categorical数据类型改为nominal步骤：1.首先将数据的excel文件另存为.csv文件，这样可以用weka打开，然后用weka另存为.arff文件。本次作业使用ultraEdit编辑器打开arff文件，如下图所示：所有属性的数据类型都为numeric，将其中要修改的进行修改，修改后的数据截图如下：用weka打开如下2.建立分类模型2.1 采用决策树建立模型采用十折交叉验证从上面可以看出模型的准确度只有71%。原本分类为0的样本，有136个分类正确，而有164个样本错分到1的类。原本分类为1的样本，有574个分类正确，有126个

2、错分到0的类。由于所建模型精度不高，做如下处理：显然样本编号在分类中不起作用，因此去掉OBS#这个属性，重新建立模型得可以直观的观察建立的决策树：2.1.2 提高模型性能1）调整算法参数如图，可以设置算法的各个参数，其中本次实验只修改以下几个参数：confidencefactor，minNum0bj（用来设置叶子上的最小实例数），numFolds。通过几次设置之后发现，当confidencefactor的值为0.1时，其余参数不变的情况下（即如图所示），模型准确率最高，达71.9%2）对原属性进行处理，剔除部分属性利用分类器特征筛选，选择supervised - attribute下面的Att

3、ributeSelection，如下图所示：选择InformationGainAttributeEval（即信息增益）作为evaluator，使用Ranker作为search，然后设置阈值，点击apply之后，没有达到阈值的属性会被删除。以下是各种情况下不同阈值对应的结果：28个属性的训练结果，阈值为0.00001再次调整阈值0.001，减少属性的个,23个，结果如下：精度反而下降，再次调整阈值0.0005，使剩余的属性个数在23到28个之间的26个，同样道理，修改阈值为,0.002,剩下21个属性，最后再尝试只有19个属性情况下的结果。全部结果整合成一张表如下：阈值00.000010.000

4、50.0010.0020.003属性数302826232119准确率71.2%71.3%70.6%70.9%72.7%71.8%从表中可得，当阈值设为0.002，根据信息增益的大小，剔除了9个信息增益相对较小的属性时，模型的分类精确度相对较高。2.2 神经网络这里编号属性已经去掉，并且也采用十折交叉验证，下同选择上图的算法，即构建神经网络模型，训练结果如下：同样的方法，利用信息增益的大小，尝试设置不同的阈值，对含有较小信息增益的属性进行部分剔除，试验过程没有给出，直接在下表2给出不同情况下的准确度。属性数302826232119准确率72.7%73.0%72.4%72.3%70.4%70.9%

5、从表中可以看出，当属性数在28个时，模型的准确率最高。2.3 最邻近算法KNN选择lazy，ibk实现KNN算法，选取不同参数k值来调整模型，期望选出相对较好的参数使得模型的准确度最好。下表给出了K不同取值的时的结果。由于从K到8逐步递增到10的时，准确率也逐步递增，因此再次增加K值，从表中可以发现，当k从1开始增加到5时，准确率基本成递增趋势，当从8开始也一直递增，最后在14的时候取得最优的情况。K值12345678910准确率68.2%62.1%70.9%68.7%71.6%70.8%71.9%71.1%72.3%72.4%K值12141618准确率72.6%73.2%72.5%72.8%

6、2.4贝叶斯模型采用朴素贝叶斯模，得到的结果如下（没有进行参数调整）3.各种方法之间的性能比较（每种方法都选出调试过程中最好的结果）模型决策树神经网络KNN朴素贝叶斯准确率72.7%73.0%73.2%76%混淆矩阵a b131 169104 596a b159 141129 571a b103 19771 629a b157 14397 603从最好的结果来看，朴素贝叶斯的准确率最高（但本次实验中没有进行参数调整等措施来提高贝叶斯模型的性能。）而决策树，神经网络和KNN模型的准确度相近，在73%附近。本次实验采用十折交叉验证，因此最后的准确率基本反映出模型的预测能力，但是并不能简单的认为一定是朴素贝叶斯的建模效果最好，因为不同模型涉及到不同参数，在参数调整过后，所建立的模型并不一定是在最优参数的情况之下。

展开阅读全文