商务智能与数据挖掘实验报告

资源描述

《商务智能与数据挖掘实验报告》由会员分享，可在线阅读，更多相关《商务智能与数据挖掘实验报告（10页珍藏版）》请在金锄头文库上搜索。

1、商务智能与数据挖掘实验报告课程：商务智能与数据挖掘地点：L2607 时间：2012 年 5 月 13 日学生姓名 * 班级电商学号 * 成绩实验项目数据挖掘应用实验指导教师 *实验目的1. 掌握 Microsoft SQL server 的数据库恢复；2. 掌握 Microsoft SQLserver Anlysis Service 的多维数据分析功能；3. 至少掌握一种数据挖掘工具，并能正确地使用；4. 利用所掌握的数据挖掘工具进行分类分析、关联分析、聚类分析等。实验要求1. 根据提供的“SQL2008SBSDW.bak”文件恢复 SQL2008SBSDW 数据库；2. 在 S

2、QL2008SBSDW 数据库上搭建多维数据集。3. 根据提供的“data02”进行分类分析；4. 根据提供的“data02”进行关联分析；5. 根据提供的“data01”进行聚类分析；(数据可利用系统自带的进行分析，也可利用提供的数据进行分析)实验内容及实验结果一、对“data02” 进行分类分析1.数据格式的转换(1)打开“data02.xls” 另存为 CSV 类型，得到“data02.csv ”。 (2)在 WEKA 中提供了一个 “Arff Viewer”模块，打开一个“data02.csv”进行浏览，然后另存为ARFF 文件，得到“data02.arff” 。 2.分类过程(1)决

3、策树分类用“Explorer”打开数据“data02.arff” ，然后切换到“Classify” 。点击“Choose” ，选择算法“trees-J48”，再在“Test options”选择“Cross-validation（Flods=10） ”，点击“Start” ，开始运行。训练结果：系统默认 trees-J48 决策树算法中 minNumObj=2，得到如下结果= Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %Kappa statisti

4、c 0.7636Mean absolute error 0.141 Root mean squared error 0.3255Relative absolute error 30.7368 %Root relative squared error 68.0307 %Total Number of Instances 26 = Detailed Accuracy By Class =TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.824 0 1 0.824 0.903 0.892 N1 0.176 0.75 1 0.857

5、0.892 YWeighted Avg. 0.885 0.061 0.913 0.885 0.887 0.892= Confusion Matrix =a b - classified as14 3 | a = N0 9 | b = Y使用不同的参数准确率比较：minNumObj 2 3 4 5Correctly Classified Instances23（88.4615 %）22（84.6154 %）23（88.4615 %）23（88.4615 %）由上表，可知 minNumObj 为 2 时，准确率最高。根据测试数集，利用准确率最高的模型得到的结果：分析说明：在用 J48 对数据集进

6、行分类时采用了 10 折交叉验证（Folds=10）来选择和评估模型，其中属性值有两个 Y，N。一部分结果如下：Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix =a b - classified as14 3 | a = N0 9 | b = Y这个矩阵是说，原来是“Y”的实例，有 14 个被正确的预测为“Y”, 有 3 个错误的预测成了“N”。原本是“NO”的实例有 0 个被正确的预测成为“Y” ，有 9 个正确的预测成了“N”。

7、 “14+3+0+9=26”是实例的总数，而（14+9）/ 26=0.884615 正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大，说明预测得越好。(2)K 最近邻分类算法用“Explorer”打开数据“data02.arff” ，然后切换到“Classify” 。点击“Choose” ，选择算法“lazy-IBk”，再在“Test options”选择“Cross-validation（Flods=10） ”，点击“Start” ，开始运行。训练结果：系统默认 lazy-IBk K 最近邻分类算法中 KNN=1，得到如下结果= Summary =Correctly Classifi

8、ed Instances 20 76.9231 %Incorrectly Classified Instances 6 23.0769 %Kappa statistic 0.4902Mean absolute error 0.252 Root mean squared error 0.4626Relative absolute error 54.9136 %Root relative squared error 96.694 %Total Number of Instances 26 = Detailed Accuracy By Class =TP Rate FP Rate Precision

9、 Recall F-Measure ROC Area Class0.824 0.333 0.824 0.824 0.824 0.768 N0.667 0.176 0.667 0.667 0.667 0.768 YWeighted Avg. 0.769 0.279 0.769 0.769 0.769 0.768= Confusion Matrix =a b - classified as14 3 | a = N3 6 | b = Y使用不同的参数准确率比较：KNN 1 2 3 4Correctly Classified Instances20（76.9231 %）19（73.0769%）23（8

10、8.4615 %）20（76.9231 %）由上表，可知 KNN 为 3 时，准确率最高。根据测试数集，利用准确率最高的模型得到的结果：分析说明：在用 lazy-Ibk(KNN=3)对数据集进行分类时采用了 10 折交叉验证（Folds=10）来选择和评估模型，其中属性值有两个 Y，N。一部分结果如下：= Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix =a b - classified as16 1 | a =

11、N 2 7 | b = Y这个矩阵是说，原来是“Y”的实例，有 16 个被正确的预测为“Y”, 有 1 个错误的预测成了“N”。原本是“NO”的实例有 2 个被正确的预测成为“Y” ，有 9 个正确的预测成了“7” 。 “16+1+2+7=26”是实例的总数，而（16+7）/ 26=0.884615 正好是正确分类的实例所占比例。二、对“data01” 进行聚类分析1.数据格式的转换(1)打开“data01.xls” 另存为 CSV 类型，得到“data01.csv ”。 (2)在 WEKA 中提供了一个 “Arff Viewer”模块，打开一个“data01.csv”进行浏览，然后另存为AR

12、FF 文件，得到“data01.arff” 。 2.聚类过程用“Explorer”打开数据“data01.arff” ，然后切换到“Cluster” 。点击“Choose” ，选择算法“SimpleKMeans（n umClusters=6， seed=200），再在“Test options”选择“U se training set”，点击“Start” ，开始运行。训练结果：采用 simpleKMeans 算法，其中 numClusters=6， seed=100，得到如下结果：Number of iterations: 3Within cluster sum of squared er

13、rors: 6.065322314450069（平方误差之和）Clustered InstancesClustered Instances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)（各类的包含的实例个数以及占总实例的百分比）说明：其中当 seed 的取值越大，平方误差之和越小。在这次实验 seed=100，得到： Within cluster sum of squared errors: 6.065322314450069.这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离就越小。接下来“Cluster centroids”：列出了各个簇中心的位置：Attribute Full Data 0 1 2 3 4 5(26) (4) (3) (4) (3) (2) (10)=sample 13.5 22.5 4.6667 20.5 14.6667

展开阅读全文