数据仓库与数据挖掘实验

上传人:re****.1 文档编号:492411877 上传时间:2023-04-06 格式:DOC 页数:26 大小:1.31MB
返回 下载 相关 举报
数据仓库与数据挖掘实验_第1页
第1页 / 共26页
数据仓库与数据挖掘实验_第2页
第2页 / 共26页
数据仓库与数据挖掘实验_第3页
第3页 / 共26页
数据仓库与数据挖掘实验_第4页
第4页 / 共26页
数据仓库与数据挖掘实验_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《数据仓库与数据挖掘实验》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘实验(26页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘 第I页数据仓库与数据挖掘学 号: 姓 名: 任课教师: 朱 焱 二零一四年十二月目录目录1实验1.1 数据仓库的构建与OLAP分析11实验题目及实验目的12实验内容13实验相关的算法原理或所设计的模型介绍14实验结果分析与总结25收获与问题分析4实验1.2 创建OLAP数据立方体51实验题目及实验目的52实验内容53实验相关的算法原理或所设计的模型介绍54实验结果分析与总结55收获与问题分析6实验1.3 通过OLAP进行数据分析71实验题目及实验目的72实验内容73实验相关的算法原理或所设计的模型介绍74实验结果分析与总结75收获与问题分析9实验1.4/1.5 “Frequ

2、ent-Flyer flight segment“信息进行数据仓储化管理1实验题目及实验目的101实验题目及实验目的 题目:“Frequent-Flyer flight segment”信息进行数据仓储化管理.102实验内容103实验相关的算法原理或所设计的模型介绍 所建立的数据库模型为雪花模型,一个事实表对应多个飞机事件,一个飞机事件对面3个机场表:起始机场、中转机场、终点机场。雪花模型中还有时间表、顾客模型等。如图1-13:114实验结果分析与总结115收获与问题分析12实验2.1 Apriori关联规则算法应用实例131实验题目及实验目的132实验内容133实验相关的算法原理或所设计的模

3、型介绍134实验结果分析与总结145收获与问题分析15实验2.2 KMeans聚类算法应用实例161实验题目及实验目的162实验内容163实验相关的算法原理或所设计的模型介绍164实验结果分析与总结175收获与问题分析17实验2.3 KNN分类算法应用实例181实验题目及实验目的182实验内容183实验相关的算法原理或所设计的模型介绍184实验结果分析与总结185收获与问题分析192.4 在SQL Server2008上完成上述的数据挖掘实验201实验目的202实验内容203实验相关的算法原理或所涉及的模型介绍204实验结果与总结20数据仓库与数据挖掘 第23页实验1.1 数据仓库的构建与OL

4、AP分析1实验题目及实验目的(1)熟悉SSIS工具,初步掌握数据仓库数据的ETL过程及操作流程(2)加深对ETL(提取、转换、加载的理解)2实验内容此实例的背景是基于Adventure Works cycle公司,该公司新增了5个销售区域,以前这5个销售区域的数据没有汇总到数据仓库中,现在需要用到这些数据,于是公司让这5个区域的主管把客户信息全部导入到一个文本文件中,命名为customers.txt。因为这几个区域的数据完全混合在一起,而且有一些数据是无效销售区域的数据,现在的任务就是要通过SSIS的数据提取、转换和加载功能把customers.txt的数据分区域导入数据仓库中,同时对于一个错

5、误的数据用一个特定的文件保存起来。3实验相关的算法原理或所设计的模型介绍ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,

6、数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。SSIS是Microsoft SQL Server 2005 Integr

7、ation Services的简称,是生成高性能数据集成解决方案(包括数据仓库的提取、转换和加载 (ETL) 包)的平台。Integration Services 包括用于生成和调试包的图形工具和向导;用于执行工作流函数(如 FTP 操作)、执行 SQL 语句或发送电子邮件的任务;用于提取和加载数据的数据源和目标;用于清理、聚合、合并和复制数据的转换;用于管理 Integration Services 的管理服务 Integration Services 服务;以及用于对 Integration Services 对象模型编程的应用程序编程接口(API)。4实验结果分析与总结在本实验中,新增了

8、5个销售区域,需要将这些数据导入数据仓库,我们可以选择“Foreach循环容器”组件,以在数据仓库中新建5张数据表;然后进入数据的清洗和加载。首先新建“平面数据源”,选择加载customers.txt文本文件;利用“条件性拆分”组件对该数据源获得的数据按区域进行拆分。对于合法的数据,可以使用5个“OLE目标”组件分别映射之前建立好的5张数据表,命名分别为“OLE目标1”至“OLE目标5”(这里命名不能重名),将按条件拆分后的数据分别连接到这5个OLE目标,即可完成数据的装载。而对于有错误的数据,我们新建一个平面文件连接,然后连接到一个特定的文件,文件名为CustomersWithInvalid

9、TerrritoryID.txt,然后将其保存起来。对于区域2的数据,由于在数据录入时,有些邮编数据省略了前面的0,因此需要对邮编进行清洗操作才能导入到表中。因此,需要在数据加载到数据表之前引用“派生列”组件,写表达式将缺省的0补齐,替换掉原来的邮编数据,再加载到区域2对应的数据表中。(1)实验调试结果如图1-1所示。我们可以看出,项目成功执行,并且可以看出数据表/数据文件的记录数目。图1-1 运行成功的控制流图图1-2 运行成功的数据流图(2)实验生成的区域目标表如图1-3所示。图1-3 五个区域的目标数据表(3)从图1-4和图1-5,CustomersWithInvalidTerritor

10、yID文本文件中共存放了8条错误数据。可以在第二部分红圈中可以看到,Terrritory 5的数据被筛选到了错误集中。图1-4错误数据前一部分图1-5错误数据后二部分5收获与问题分析(1)收获通过本次实验,初步掌握了SSIS工具的运用,SSIS比较方便,用户不用编程也可以对数据仓库进行数据挖掘。并且初步了解了数据仓库的ETL(提取、转换、加载)过程,并且在实践中加深了对ETL的理解。(2)问题分析在实验指导书中的第7部分,“派生列”组件的表达式中输入的代码是“LEN(PostalCode)=4?“0”+PostalCode:PostalCode”,刚开始直接拷贝过去,结果报错,后来发现标点符号

11、是中文的,改为英文标点符号就可以了。实验1.2 创建OLAP数据立方体1实验题目及实验目的(1)熟悉SSAS工具的使用(2)学会使用自底向上方法创建数据立方2实验内容本实验的数据源是基于SQL 2005中的示例数据库Adventure Works DW,利用自下而上的设计方法生成Cube。3实验相关的算法原理或所设计的模型介绍随着数据库技术的发展和数据库规模的日益扩大,人们希望从已有的数据库中提炼出有用的信息服务于决策。数据仓库及其联机分析处理技术为了适应这种需要而逐步发展起来,是近年来商业数据处理领域中的两个重大的新技术。OLAP按照数据立方体模型组织数据,从而方便了查询。数据立方体是从数据

12、仓库中提取的全部或部分表构成的多维数据集合。物理上,它可以用多维数组实现,让用户从多个角度分析数据仓库。数据立方体以多维对数据建模和观察。它由维和事实定义。数据立方体是对多维度数据存储的一种比喻,这种数据的实际物理存储不同于它的逻辑表示。重要的是,数据立方体是n维的,而不仅限于三维,例如,微软的SQL Server 2000 Analysis Services工具允许维度数高达64个,所以也称为“超立方”。在数据仓库中,我们可以使用全部或者部分表构成的多位数据集合表示数据立方,而OLAP可以对数据立方进行聚合和组织。在SQL Server中,Analysis Services就是建立和管理多维

13、数据集并且对数据立方进行分析的工具。有了Analysis Services,我们可以使用Inmon的自上而下的方法或者R.Kimball的自下而上的设计方法设计数据仓库了。4实验结果分析与总结更改了各个表“属性”的FriendlyName后的数据源视图如图1-6所示。从图种可以看出,它是一个典型的雪花模型。图1-6 数据源视图成功部署Cube后,SSAS项目的浏览器视图如图1-7所示。图1-7 部署成功后浏览器显示界面5收获与问题分析通过本次实验,我对数据立方体有了一定的理解,具体到Sql Server中可以用多维表来理解它,并且这里的多维是超过3维的。通过使用SASS工具创建Cube,熟悉了

14、SSAS工具的使用,按照一定的步骤可以构建数据立方体。在此实验中介绍的是R.Kimballs定义的自底向上的方法,今后可以做Inmon定义的自顶向下的实验。实验1.3 通过OLAP进行数据分析1实验题目及实验目的学会运用OLAP的四个分析操作分析数据仓库。2实验内容切片:以Aworks数据立方体为例,选定此立方体的客户维和产品维,在时间维选取一个属性成员(如2002年1月),就得到了产品销售立方体在产品和客户两维上的一个切片。切块:在立方体的三个维度上取一定区间的属性成员或全部属性成员。如果将时间维上的取值设定为一个区间(如2003年1月至2003年6月),而非单一的属性成员时,就得到了一个数

15、据切块,它可以看成由2003年1月至2003年6月6个切片叠合而成。钻取:包括上钻和下钻两种操作。从高级数据到明细数据视图称为下钻;从明细数据到高级数据视图称为上钻。旋转:即是改变一个报告或页面显示的维方向。通过旋转可以得到不同视角的数据。3实验相关的算法原理或所设计的模型介绍联机分析处理(On-Line Analytical Processing,简称OLAP),是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP专门设计

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号