数据仓库与数据挖掘实验指导.

资源描述

《数据仓库与数据挖掘实验指导.》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘实验指导.（18页珍藏版）》请在金锄头文库上搜索。

1、数据仓库与数据挖掘课程实验本实验是数据仓库与数据挖掘课程的验证性实验环节。课程共计8学时。实验目标:1、掌握建立和配置数据仓库的基本操作技能。主要包括数据仓库系统的安装。2、掌握数据仓库中数据的处理技术。主要包括数据仓库的建模、事务数据的转换、备份数据的恢复。3、掌握基于数据仓库的自动数据分析技术的基本操作技能。包括多维数据分析和数据挖掘。4、掌握一种专用数据挖掘软件,用以分析处理文本或电子表格的数据。实验环境:l Microsoft SQLServer2000l Microsoft SQLServer2000 Analysis Servcel DBMiner2.0l Microsoft S

2、QLServer2000 PACK4l JAVA运行时环境:JRE5.0l WEKA3.55实验项目:l实验1:安装数据仓库系统平台 1.5学时l实验2:构建数据仓库数据环境 1.5学时l实验3:多维数据分析 1.5学时l实验4:基于数据仓库的数据挖掘实验 2.0学时l实验5:数据挖掘平台应用实验 1.5学时实验1:安装数据仓库系统平台l实验任务:1.掌握Microsoft Server2000 数据仓库系统的安装与配置2.安装实验分析环境:1安装Microsoft Server2000 analysis Service2安装DBMiner2.03 安装Java运行时环境JRE5.04安装WE

3、KAl实验准备:请从黑板或网上获取安装文件所在的网络地址。并记在下面:网络资料的地址是:_本实验不得超过1.5学时。l实验指导:Lab1.1检查并安装Microsoft Server2000单元目标:确保完整正确的数据仓库实验环境工作步骤:1.检查你所使用的电脑上是否有Microsoft Server2000。如果有,启动并检查Microsoft Server2000 是否安装了Server Pack3以上的补丁文件。2.如果以上都没问题,则本实验结束。3.下载相应的系统文件安装。先安装Microsoft Server2000,再安装Server Pack3或Server Pack4。Lab1

4、.2检查并安装数据分析环境单元目标:确保安装了相应的数据分析软件工作步骤:1.检查你所使用的电脑是否安装了Microsoft Server2000 analysisService,DBMiner2.0, JRE5.0, WEKA3.5.5。如果都已安装且能正常运行,则本实验结束。否则进入以下步骤。2.如果没有安装以上软件。请按以下次序从网络资料地址上下载软件完成安装。完成Lab1.1 和Lab1,2后,本实验结束。实验2:构建数据仓库数据环境l实验任务:本实验主要验证ETL的数据处理过程。主要实验任务有:1.构建数据仓库模型,并在数据仓库系统中生成相应的数据表。2.将事务数据库中的数据转入数据

5、仓库中。3.还原备份和还原的数据仓库中的数据。l实验准备:请从黑板或网上获取数据文件所在的网络地址。并记在下面:数据文件的地址是:_ 本实验不得超过1.5学时。本实验将使用Microsoft SQLserver的示例数据库:Northwind,这是一个商贸公司的销售数据库。我们将这个事务型的数据导入到分析型的数据仓库中去。l实验指导:Lab2.1用caseStudio2.15 建立数据仓库的星型模型单元目标:建立Northwind_DW的数据仓库模型。如下图所示。并根据该模型生成相应的数据仓库的维表和事实表的结构。工作步骤:1. 按下图样式建立Northwind_DW的昨型数据模型,请根据原事

6、务数据库中相应字段的数据类型和宽度,对应地设计相应字段的数据类型和宽度。 2. 安装并启动CaseStudio2.15,设计以上模型。3. 运行生成脚本(Generate script生成相应的SQL代码。Lab2.2将事务型数据加载到分析数据环境中单元目标:根据以上实验单元建立的数据模型,在MicrosoftSQL2000中建立相应的物理数据仓库。工作步骤:1. 请从教师课件中“数据仓库与数据挖掘”目录下的Lab2008中下载文档“多维数据分析操作演练.pdf ”2. 用Adobe reader打开该文档。3. 在数据仓库创建部分,可以使用Lab2.1中的模型进行创建和转化。4. 按照上面所

7、列步骤进行操作。最终完成事实表和维表的数据转移。Lab2.3数据仓库中数据的备份与恢复单元目标:1.将已生成的数据仓库的数据进行备份。2.利用备份文件向新的数据库中还原数据仓库的数据。工作步骤:1、备份打开Sqlserver企业管理器,在需要备份的数据库上点鼠标右键,所有任务中选备份数据库。再从Sqlserver安装目录中的Data目录下,拷贝出要备份的数据库文件*.mdf,*.ldf,并备份这两个文件2、还原将要还原的数据库文件*.mdf,*.ldf拷贝到Sqlserver安装目录下的Data目录下。打开Sqlserver企业管理器,新建一个数据库,在数据库这一项上点鼠标右键,在所有任务中选

8、导入数据库,以拷贝到Data目录下的mdf恢复数据库。还原过程中,如果有什么异常,请参考“数据仓库与数据挖掘技术上机”目录下的“数据仓库实习指导.pdf”中的还原部分的内容。实验3:多维数据分析l实验任务:本实验主要验证OLAP多维分析的过程。主要包括完成OLAP数据库的创建,多维数据集的创建。存储和处理多维数据,浏览多维数据集等实验任务。l实验准备:本实验使用的操作参考为Lab2.2中下载的文档,“多维数据分析操作演练.pdf ”。本实验不得超过1.5学时。l实验指导:Lab3.1多维数据分析实验单元目标:1.掌握Microsoft analysis Service的中对OALP数据库的操作

9、步骤2.在使用过程中熟悉和理解相应的概念。工作步骤:1.在“多维数据分析操作演练.pdf ”中从P85开始进行相应的操作演练。2.在实验过程中,如果对相应的操作还不是很理解,请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserver数据分析.rar ”文档,解压后,有详细的帮助和演练信息。实验4:基于数据仓库的数据挖掘实验l实验任务:1.基于Microsoft SQLserver2000 Analyses Service的数据挖掘模型对数据仓库中的数据进行决策树分析和聚类分析;2.使用DBMiner2.0对数据仓库中的数据进行聚类、关联分析;3.使用DBMiner2.0对数据仓库的数据分析

10、进行可视化。l实验准备:本实验的实验指导参考资料在网上,请下载参考。本实验不得超过1.5学时。l实验指导:Lab4.1 基于Microsoft SQLserver2000 Analyses Service的数据挖掘单元目标:掌握Microsoft SQLserver2000 Analyses Service的数据挖掘模型的使用步骤工作步骤:请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserver数据分析.rar ”文档,解压后,按下图所指,完成“数据挖掘”的演练。 Lab4.2 基于DBMiner2.0的数据挖掘(选做单元目标:掌握DBminer2.0对数据仓库中的数据进行可视化分类、聚

11、类、关联分析由于时间有限,指导教师将进行一些现场的演练指导。工作步骤:1. 在”数据仓库与数据挖掘技术Lab2008”目录下下载相应的操作手册“DBMinerManual.pdf ”文档,阅读第一、二章。2. 对多维数据集进行可视化分析。(chapter 43. 对多维数据集进行关联分析。(chapter 64. 对多维数据集进行分类挖掘。(chapter 75. 对多维数据集进行聚类分析。(chapter 8实验5:数据挖掘平台应用实验l实验任务:1.熟悉WEKA数据挖掘平台的基本功能。2.能够对存于文本或电子表格中的数据进行数据挖掘分析3.本实验为选做,对毕业论文分析数据有利用价值。l实验

12、准备:1.下载Java运行时环境JRE1.5。2.下载WEKA并安装运行3. 在”数据仓库与数据挖掘技术Lab2008”目录下下载“WEKA中文使用手册.pdf”,有较详细的使用说明4.所需要的数据存放在“数据仓库与数据挖掘技术Lab2008WEKA_DATA”下。l实验指导:Lab5.1用WEKA进行决策树分析单元目标:掌握WEKA进行决策树分析的步骤。工作步骤:WEKA把分类(Classification和回归(Regression都放在“Classify”选项卡中,这是有原因的。在这两个任务中,都有一个目标属性(输出变量。我们希望根据一个样本(WEKA中称作实例的一组特征(输入变量,对目

13、标进行预测。为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。在WEKA中,待预测的目标(输出被称作Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。选择算法我们使用C4.5决策树算法对bank-data建立起分类模型。我们来看原来的“bank-data.csv”文件。“ID”属性肯定是不需要的。由于C4.5算法可以处理数值型的属性,我

14、们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此,我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。另外,我们的训练集仅取原来数据集实例的一半;而从另外一半中抽出若干条作为待预测的实例,它们的“pep”属性都设为缺失值。经过了这些处理的训练集数据在这里下载;待预测集数据在这里下载。我们用“Explorer”打开训练集“bank.arff”,观察一下它是不是按照前面的要求处理好了。切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。3.5版的WEKA中,树型框下方有一个“Filter.”按钮

15、,点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型(即只有两个类的分类型和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binary attributes”“Numeric attributes”和“Binary class”。点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能用。选择“trees”下的“J48”,这就是我们需要的C4.5算法,还好它没有变红。点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。现在来看左中的“Test Option”。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting的现象,我

展开阅读全文