商务智能与数据挖掘实验报告

上传人:飞*** 文档编号:3234698 上传时间:2017-08-01 格式:DOC 页数:10 大小:764KB
返回 下载 相关 举报
商务智能与数据挖掘实验报告_第1页
第1页 / 共10页
商务智能与数据挖掘实验报告_第2页
第2页 / 共10页
商务智能与数据挖掘实验报告_第3页
第3页 / 共10页
商务智能与数据挖掘实验报告_第4页
第4页 / 共10页
商务智能与数据挖掘实验报告_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《商务智能与数据挖掘实验报告》由会员分享,可在线阅读,更多相关《商务智能与数据挖掘实验报告(10页珍藏版)》请在金锄头文库上搜索。

1、 商务智能与数据挖掘实验报告课程: 商务智能与数据挖掘 地点:L2607 时间:2012 年 5 月 13 日学生姓名 * 班级 电商 学号 * 成绩实验项目 数据挖掘应用实验 指导教师 *实验目的1. 掌握 Microsoft SQL server 的数据库恢复;2. 掌握 Microsoft SQLserver Anlysis Service 的多维数据分析功能;3. 至少掌握一种数据挖掘工具,并能正确地使用;4. 利用所掌握的数据挖掘工具进行分类分析、关联分析、聚类分析等。实验要求1. 根据提供的“SQL2008SBSDW.bak”文件恢复 SQL2008SBSDW 数据库;2. 在 S

2、QL2008SBSDW 数据库上搭建多维数据集。3. 根据提供的“data02”进行分类分析;4. 根据提供的“data02”进行关联分析;5. 根据提供的“data01”进行聚类分析;(数据可利用系统自带的进行分析,也可利用提供的数据进行分析)实验内容及实验结果一、对“data02” 进行分类分析1.数据格式的转换(1)打开“data02.xls” 另存为 CSV 类型,得到“data02.csv ”。 (2)在 WEKA 中提供了一个 “Arff Viewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF 文件,得到“data02.arff” 。 2.分类过程(1)决

3、策树分类用“Explorer”打开数据“data02.arff” ,然后切换到“Classify” 。点击“Choose” ,选择算法“trees-J48”,再在“Test options”选择“Cross-validation(Flods=10) ”,点击“Start” ,开始运行。训练结果:系统默认 trees-J48 决策树算法中 minNumObj=2,得到如下结果= Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %Kappa statisti

4、c 0.7636Mean absolute error 0.141 Root mean squared error 0.3255Relative absolute error 30.7368 %Root relative squared error 68.0307 %Total Number of Instances 26 = Detailed Accuracy By Class =TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.824 0 1 0.824 0.903 0.892 N1 0.176 0.75 1 0.857

5、0.892 YWeighted Avg. 0.885 0.061 0.913 0.885 0.887 0.892= Confusion Matrix =a b - classified as14 3 | a = N0 9 | b = Y使用不同的参数准确率比较:minNumObj 2 3 4 5Correctly Classified Instances23(88.4615 %)22(84.6154 %)23(88.4615 %)23(88.4615 %)由上表,可知 minNumObj 为 2 时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果: 分析说明:在用 J48 对数据集进

6、行分类时采用了 10 折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个 Y,N。一部分结果如下:Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix =a b - classified as14 3 | a = N0 9 | b = Y这个矩阵是说,原来是“Y”的实例,有 14 个被正确的预测为“Y”, 有 3 个错误的预测成了“N”。原本是“NO”的实例有 0 个被正确的预测成为“Y” ,有 9 个正确的预测成了“N”。

7、 “14+3+0+9=26”是实例的总数,而(14+9)/ 26=0.884615 正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K 最近邻分类算法用“Explorer”打开数据“data02.arff” ,然后切换到“Classify” 。点击“Choose” ,选择算法“lazy-IBk”,再在“Test options”选择“Cross-validation(Flods=10) ”,点击“Start” ,开始运行。训练结果:系统默认 lazy-IBk K 最近邻分类算法中 KNN=1,得到如下结果= Summary =Correctly Classifi

8、ed Instances 20 76.9231 %Incorrectly Classified Instances 6 23.0769 %Kappa statistic 0.4902Mean absolute error 0.252 Root mean squared error 0.4626Relative absolute error 54.9136 %Root relative squared error 96.694 %Total Number of Instances 26 = Detailed Accuracy By Class =TP Rate FP Rate Precision

9、 Recall F-Measure ROC Area Class0.824 0.333 0.824 0.824 0.824 0.768 N0.667 0.176 0.667 0.667 0.667 0.768 YWeighted Avg. 0.769 0.279 0.769 0.769 0.769 0.768= Confusion Matrix =a b - classified as14 3 | a = N3 6 | b = Y使用不同的参数准确率比较:KNN 1 2 3 4Correctly Classified Instances20(76.9231 %)19(73.0769%)23(8

10、8.4615 %)20(76.9231 %)由上表,可知 KNN 为 3 时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用 lazy-Ibk(KNN=3)对数据集进行分类时采用了 10 折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个 Y,N。一部分结果如下:= Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix =a b - classified as16 1 | a =

11、N 2 7 | b = Y这个矩阵是说,原来是“Y”的实例,有 16 个被正确的预测为“Y”, 有 1 个错误的预测成了“N”。原本是“NO”的实例有 2 个被正确的预测成为“Y” ,有 9 个正确的预测成了“7” 。 “16+1+2+7=26”是实例的总数,而(16+7)/ 26=0.884615 正好是正确分类的实例所占比例。二、对“data01” 进行聚类分析1.数据格式的转换(1)打开“data01.xls” 另存为 CSV 类型,得到“data01.csv ”。 (2)在 WEKA 中提供了一个 “Arff Viewer”模块,打开一个“data01.csv”进行浏览,然后另存为AR

12、FF 文件,得到“data01.arff” 。 2.聚类过程用“Explorer”打开数据“data01.arff” ,然后切换到“Cluster” 。点击“Choose” ,选择算法“SimpleKMeans(n umClusters=6, seed=200) ,再在“Test options”选择“U se training set”,点击“Start” ,开始运行。训练结果:采用 simpleKMeans 算法,其中 numClusters=6, seed=100,得到如下结果:Number of iterations: 3Within cluster sum of squared er

13、rors: 6.065322314450069(平方误差之和)Clustered InstancesClustered Instances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各类的包含的实例个数以及占总实例的百分比)说明:其中当 seed 的取值越大,平方误差之和越小。在这次实验 seed=100,得到: Within cluster sum of squared errors: 6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。接下来“Cluster centroids”:列出了各个簇中心的位置:Attribute Full Data 0 1 2 3 4 5(26) (4) (3) (4) (3) (2) (10)=sample 13.5 22.5 4.6667 20.5 14.6667

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号