文档详情

数据挖掘weka数据分类实验报告

壹****1
实名认证
店铺
DOCX
532.60KB
约11页
文档ID:552365998
数据挖掘weka数据分类实验报告_第1页
1/11

一、实验目的使用数振挖掘中的分类算法,对数据集进行分类训练并测试应用不同的分类算法,比校他 们之间的不 同与此同时了解Wcka平台的基本功能与使用方法实验采用Wcka平台,数据使用Weka安装目录下data文件夹下的默认数据集iris, arff °Wcka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发Neka使用Java写成的,并且 限制在GNU通用公共证书的条件下发布它可以运行于几乎所有操作平台,是一款免费的,非商业 化的机器学习以及数据挖掘软件oWcka提供了 一个统一界面,可结合预处理以及后处理方法,将许 多不同的学习算法应用于任何所给的数損集,并评估 由不同的学习方案所得出的结果三、数据预处理Wcka平台支持ARFF格式和CSV格式的数据由于本次使用平台自带的ARFF格式数据,所以不 存在格式转换的过程实验所用的ARFF格式数損集如图1所示556155558551.54.95?43.42?90.21・结17 3154.S5 S3.QX03.93?50.2|Iris0.2 Iris555I fiq§uViewerpe talwi dthR电].乩t ion: iris0. 1 Iris.0. 1 Iris..,ldth豐f盘二3”05. 4u. 4 Iris.…0. 3 Iri•Zu QS.u4.6图1 ARFF格式数据集(iris, arff)对于iris数据集,它包含了 150个实例(每个分类包含50 个实例),共有 sepal length 'sepal width • petal length、petal width 和 class 五种属性。

期中前四 种属性为数值类型,class属性为分类属性,表示实例所对应的的类别该数据集中的全部实例共可 分为三 类:Iris Setosa、Iris VersicolouMIris Virginies实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问趣若所采用的数 据集中存在大童的与实骑无关的属性,则需要使用wcka平台的Filter・(过滤器)实现属性的筛选实验所需的训练集和测试集均为iris.ai・仃四、实验过程及结果应用ids数据集,分别采用LibSVM <4. 5决策树分类器和朴素贝叶斯分类器进行测试和评价, 分别在训练数損上训练出分类模型,找出各个模型最优的参数值,并对三个模型进 行全面评价比较, 得到一个最好的分类模型以及该模型所有设置的最优参数最后使用这些 参数以及训练集和校验集数 据一起构违出一个最优分类器,并利用该分类器对测试数据进行 预测1 、LibSVM 分类Weka平台部没有集成libSVM分类器,要使用该分类器,需要下载libsvni. jar并导入到Weka 中用u Explorer打开数据集Miris. arffM,并在Explorer中将功能面板切换到“Classify”。

点“Choose” 按钮选择 Mfunctions (weka.classifiers. functions. LibSVM ) m * 选择 LibSVM 分类算 法在Test Options面板中选择Cross-Validatioin folds=10 *即十折交叉验证然后点击“start”按 钮:使用LibSVM分类算法训练数据集得出的结果参数一SO -K2 -D3 -G0.0 -R0.0 -NO. 5 - M 40.0 -C1.0 -E0.0010 • P 0.1==Classifier ncxiel (full training 3et)==(二WLS\M)LibSVM wrapper, original code Ly Yas3er EL-ManzalawyTime taken to build nodcl: 0 ・ 02 3cconda==Stratified cross-validation === == SunmaryCorrectLy Classified Instances Incorrectly14596.6667Classified Instances Kappa statistic53.3333Mean absolute error0.95Root mean squared error Relative absolute0.0222errorD.1491Root relative squared error Total Number of5Instances%31.6228 %Accuracy By Cla3S ===TP RaAeFP RatePrecisionRecallF-MeasureROC AreaClass101111Iris-3etosa0.940.020.9590.940.9490.9€Iris-versicolor0.960.030.9410.960.950.96SIris-virgmicaWelgnted Avg ・0.9670.0170.9670.9670.9670.975Confusion Matrix =■■; 》< classified a350 0 0 I a = Iris-setcsa0 47 3 I b = Iris-versicolcr0 2 48 I c = Iris-virginica结果分析:使用该参数指定的LibSVM训练数据集,得到准确率为96.6667%,其中150个实例中的145个被 正确分类・5个被错误分类。

根扌思混淆矩阵,被错误分类实例的为:2个b类实例被错误分类到c :3个c类实例被错误分类到b该算法P=0. 967, R二0. 967, ROC面积为0. 975将模型应用于测试集:使用LibSVM分类算法测试数据集得出的结果===Re-evaluation on test set ===User supplied test 3etRelation: irisInstances: unknown (yet)・ Reading increirfin^allyAttributes: 5==Summary ==Correctly Classified Instances Incorrectly14898.6667 %Classified Instances Kappa statistic21.3333 %Mean absolute error0.98Root mean squared error0.0089Toual Nuiri>er or InsuancesQ - 0943150=Detailed Accuracy ByClass =TP RateFP RatePrecision !RecallF-MeasureROC AreaClass101111Iri3-aetosa0.96010.95o.g?0.98Iri3-ver3icolor10.020.95210.920.99Iris-virginicaWeighted Avg. 0.9870.0070.9270.9270.9270.99==Confusion Matrix ===a b c <—classified asIris-setosaIris-versicclor Iris-virginicaSO 0 0 I a = 0 48 2 I b = 0 0 50 I c =分类误差:Weka Classifier Visualrze: 10:01:47 ・ functions.LibSVM (iris)Class col^"urIris-setcsa Zris-versicolor结果分析:准确率为9& 6667%,只有两个实例被错误分类。

P二0. 987, R二0. 987, ROC面积为0. 99 2、C4.5 决策树分类器依然使用十折交又验证,训练集和测试集相同使用C4.5决策树分类算法训练数据集得出的结果参数:-C 0.25 -M 2=== ===Suranary ======Stratified cross-validationCorrectly Classified InstancesIncorrectly Classified InsranoesKappa statisticKean absolute errorRoot mean squared errorRelative absolute errorRoot relative squared errorTotal Nunber of Instances144 966 40.940.0350 ・158€7.8705 %33.6353 %150——Detailed Accuracy By Clas3 TP RateF? RatePrecisionRecallF-MeasureROC AreaClass0.98010.980.990.99Iris-setosa0.940.030.940.940.940.9S2Ins-versicolor0.030.9410.9€0・9S0.961Iri3-virginicQReiahted Avq ・0・960.020.960.960.960.968===Confusion Matrix ===a b c < claAAificd an49 10 I a= Iris-setosa0 473 I b= Iris-versicolor0 248 I c= Iris-virginioa1petalwidth7 1.7petalwidthj W?ka Classifier Tree Visu^lizer: 10:30:10 ・ trees J48 (iris)Iris^setosa (50,0)Iris-virginic3 (46.0/1.0)Iris-versicolor (48.0/1.0)Iris-virginica (3.0)Iris-versicolor (3,0/1.0)petal length——ic — r—__v 4.9 >4,9p eta Iwi dth严0.6二片概结果分析:使用该参数指定的 C4.5 决策树分类器训练数扌忌集,得到准确率为 96%,其中 150 个实例中 的144 个被正确分类,6 个被错误分类。

下载提示
相似文档
正为您匹配相似的精品文档