数据仓库与数据挖掘实验指导书王浩畅资料

资源描述

《数据仓库与数据挖掘实验指导书王浩畅资料》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘实验指导书王浩畅资料（31页珍藏版）》请在金锄头文库上搜索。

1、数据仓库与数据挖掘实验指导书东北石油大学计算机与信息技术系王浩畅实验一 Weka实验环境初探一、实验名称：Weka实验环境初探二、实验目的：通过一个已有的数据集，在weka环境下，测试常用数据挖掘算法，熟悉Weka 环境。三、实验要求1. 熟悉weka的应用环境。2. 了解数据挖掘常用算法。3. 在weka环境下，测试常用数据挖掘算法。四、实验平台新西兰怀卡托大学研制的Weka系统五、实验数据Weka 安装目录下 data 文件夹中的数据集 weather.nominal.arff，weather.arff六、实验方法和步骤1、首先，选择数据集weather.nominal.arff，操作步

2、骤为点击Explorer，进入主界面，点击左上角的“Open file.按钮，选择数据集weather.nominal.arff文件，该文件中存储着表格中的数据，点击区域2中的“Edit”可以看到相应的数据：FiltwCllOOS 4I加亦idqu.4 tfonjQAt XfitTlttLCujTnt i-tLii l c-it4.11 on: Mon4Inst ATiC4： M?D4pH. UBJ-.p vti IlB.aa |DClusler | sei | set et tribal:EHplor 4trViewerB.1 ation： weather, symbolicNq.out

3、lookn=rniii31temier ati-ire lTMrniiLa.1hum l di ty7i-|=iniLiia.lwindyKoniiii3.1play1SUTlTLykoihighFALSEno2EurmyhothighTRUEno3overcastKothighFALSE4r airym订!highFALSEyes5rainycoolnormalFALSEyes6rainycoolnormalTRUEnoTovercastcoolnormilTRUEyes8suimymildhighFALSEno9suimycoolnormalFALSEyes10rainymildnci-m

4、alFALSEyes11surmymildnQrmalTRUEyes12vercastmildhighTRUEyes13overcasthotnci-malFALSEyes14rainymildhighTRUEno选择上端的Associate选项页，即数据挖掘中的关联规则挖掘选项，此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面：2、现在打开weather.arff，数据集中的类别换成数字。选择上端的Associate选项页，但是在Associate选项卡中Start按钮为灰色的，也就是说这个时候无法使用Apriori算法进行规则的挖掘，原因在于Apriori算法不能应用于连续

5、型的数值类型。所以现在需要对数值进行离散化，就是类似于将 20-30C划分为“热” 0-10C定义为“冷”这样经过对数值型属性的离散化，就可以应用Apriori算法了。Weka提供了良好的数据预处理方法。第一步：选择要预处理的属性temperrature从中可以看出，对于“温度”这一项，一共有12条不同的内容，最小值为64 （单位：华氏摄氏度，下同），最大值为85，选择过滤器“choose”按钮，或者在同行的空白处点击一下，即可弹出过滤器选择框，逐级找到“Weka.filters.unsupervised.attribute.Discretize”，点击；若无法关闭这个树，在树之外的地

6、方点击“Explorer”面板即可。现在“ Choose ”旁边的文本框应该显示“ Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。因为这里不打算对所有的属性离散化，只是针对对第2个和第3个属性，故把attributeIndices右边改成“2,3”。计划把这两个属性都分成3段,于是把“bins” 改成“3”。其它文本框里的值不用更改，关于这些参数的意义可以点击“More” 查看。点 “OK” 回到 “Explorer”，可以看到“temperature”和“humidity” 已经被离散化成为分类型的属性。若想放

7、弃离散化可以点“Un do”。可以看到temperature属性信息如下显示:J：=JTie : tenipsr a+w e1工4： Ncrrii n：alMi e eins: 0 (09&)Hi zt met: 3Url : 0 (0%)Wo.CoiULt1J C-inf-TlJ62J tTlF43J tT8-iRfy4Humidity属性变成如下样式:Sele ctel attr iLu+ eNiiuie: hujTiidityType：； NumirualMLSzing： 0 CO%)Iliztinct ： 3Um q.ue: 0 No.LabelCount1 (-in-75.33333

8、3J52* (75.333333-35. B&66B7/33J (85.55&6e7-in)J53、在Classify, Cluster, Associate选项中分别尝试不同算法。七、通过实验,掌握Weka的使用实验二基于关联规则的信息获取一、实验名称：基于关联规则的信息获取二、实验目的：通过一个已有的训练数据集，观察训练集中的实例，进行关联信息获取，更好地理解和掌握关联规则算法的基本原理，建立相应的预测模型，然后对新的未知实例进行预测，预测的准确程度来衡量所建立模型的好坏。三、实验要求1、熟悉Weka平台2、掌握关联规则算法3、对数据进行预处理，利用Weka和不同参数设置进行关联分析，

9、对比结果，得出结论，对问题进行总结。四、实验平台新西兰怀卡托大学研制的Weka系统五、实验数据1、使用银行对资产进行评估的数据bank-data.arf，数据里有12个属性，分别是 id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共 600 个实例。六、实验方法和步骤1、打开 WEKA 界面如下：界面中有四个选择 Simple CLC, Explorer,Experimenter, KnowledgeFlow。我们选择 Explorer 进行实验。文件格式转化为ARFF

10、的方式。2、选择Explorer选项，选择Open file打开bank-data.arff数据，打开可以看见数据中的属性，选择属性从右边可以看到它的取值范围1）CSV换成ARFF格式将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。运行 WEKA的主程序，出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方（上方是不能写字的）输入框写上java weka.core.converters.CSVLoader filename.csv filename.arff 即可完成转换。在WEKA 3.5中提供了一个“

11、Arff Viewer”模块，我们可以用它打开一个 CSV文件将进行浏览，然后另存为ARFF文件。进入“Explorer”模块，从上方的按钮中打开CSV文件然后另存为ARFF 文件亦可。3、进行数据过滤，选择Filter中的Discretize方法，点击Apply，先对ARFF 文件进行离散化：用UltraEdit (或者其它文本编辑器)对其进行编辑： attribute children numeric 改为：attribute children 0,l,2,3 然后用 discretize 算法对 age 和 income 离散化，并删掉id项因为它对关联规则分析无影响，保存文件。4、选择

12、Associate项中的Apriori算法分析进行关联信息获取，并进行参数设置。七、通过实验,要求同学在关联规则信息获取实验中解决以下问题，并递交完整的实验报告1. 对于非xls格式的数据如何转换成ARFF数据类型?请给出你了解到的几种数据类型到ARFF的转换方式？2. 在算法出来的lift排前1的规则中，如：1.age=52_max save_act=YES current_act=YES 113 = income=43759_max61conf：(0.54) lev：(0.08) 45 conv：(1.85)请说明其中113、61、conf:(0.54都表示什么含义？实验三基于N

13、aive Bayes的信息获取一、实验名称：基于Naive Bayes的信息获取二、实验目的：通过一个已有的训练数据集，观察训练集中的实例，建立Bayes网络的预测模型，更好地理解和掌握Bayes算法的基本原理，建立相应的预测模型，然后对新的未知实例进行预测，预测的准确程度来衡量所建立模型的好坏。三、实验要求1、熟悉Weka平台2、掌握Naive Bayes算法3、对数据进行预处理，利用Weka和不同参数设置进行关联分析，对比结果, 得出结论，对问题进行总结。四、实验平台新西兰怀卡托大学研制的Weka系统五、试验数据1、使用银行对资产进行评估的数据bank-data.arf，数据里有12个

14、属性，分别是 id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共 600 个实例。2、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练集，在另外300个实例中取50个作为待预测的实例。3、本测试集中将pep属性作为分类的目标类别，因此将其设为缺失值.缺失值用？表示。六、试验方法和步骤1、数据准备(1 )将原来的“ bank-data.csv ”文件转化为arff 文件 “bank-data.csv.arff”。(2) “ID ”属性不需要的去掉。(3) 把“ Ch il dren ”属性转换成分类型的两个值“ YES”和“ NO”。(4) 将“bank-data.csv.arff”文件的600条数据中前300条数据作为训练数据集，并保存为文件。(5) 从后300条数据里抽取50条数据作为测试数据集，它们的“pep”属性都设为缺失值，并保存为文件。2、训练过程(1) 用“ Explorer ”打开训练集，观察一下它是不是按

展开阅读全文