数据仓库与数据挖掘实验报告

上传人:re****.1 文档编号:431572222 上传时间:2023-07-22 格式:DOC 页数:18 大小:373.50KB
返回 下载 相关 举报
数据仓库与数据挖掘实验报告_第1页
第1页 / 共18页
数据仓库与数据挖掘实验报告_第2页
第2页 / 共18页
数据仓库与数据挖掘实验报告_第3页
第3页 / 共18页
数据仓库与数据挖掘实验报告_第4页
第4页 / 共18页
数据仓库与数据挖掘实验报告_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《数据仓库与数据挖掘实验报告》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘实验报告(18页珍藏版)》请在金锄头文库上搜索。

1、-一、上机目的及内容目的:1理解数据挖掘的根本概念及其过程;2理解数据挖掘与数据仓库、OLAP之间的关系3理解根本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:将创立一个数据挖掘模型以训练销售数据,并使用Microsoft 决策树算法在客户群中找出购置自行车模式。请将要挖掘的维度事例维度设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录

2、实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写出实验报告。二、实验原理及根本技术路线图方框原理图或程序流程图关联分析:关联分析是从数据库中发现知识的一类重要方法。时序模式:通过时间序列搜索出重复发生概率较高的模式。分类:分类是在聚类的根底上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。三、所用仪器、材料设备名称、型号、规格等或使用软件1台PC及Microsoft SQL Server套件四、实验方法、步骤或:程序代码或操作过程及实验过程原始记录( 测试数据、图表、计算等)创立 A

3、nalysis Services 工程1. 翻开 Business Intelligence Development Studio。2. 在文件菜单上,指向新建,然后选择工程。3. 确保已选中模板窗格中的Analysis Services 工程。4. 在名称框中,将新工程命名为 AdventureWorks。5. 单击确定。 更改存储数据挖掘对象的实例1. 在 Business Intelligence Development Studio 的工程菜单中,选择属性。2. 在属性页窗格的左侧,单击部署。3. 在目标选项局部,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该

4、实例的名称。单击确定。创立数据源1. 在解决方案资源管理器中,右键单击数据源文件夹,然后选择新建数据源。系统将翻开数据源向导。2. 在欢迎使用数据源向导页面中,单击下一步按钮。3. 在选择如何定义连接页上,单击新建向 Adventure Works 数据库中添加连接。系统将翻开连接收理器对话框。4. 在连接收理器的提供程序列表中,选择本机 OLE DBMicrosoft OLE DB Provider for SQL Server。5. 在效劳器名称列表中,键入或选择承载 AdventureWorksDW 的效劳器的名称。6. 在登录到效劳器组中,选择身份验证方法,并输入凭据。7. 在选择或输

5、入数据库名称列表中,选择 AdventureWorksDW,再单击确定按钮。8. 单击下一步按钮进入向导的下一页。9. 在模拟信息页中,选择使用效劳*,再单击下一步。10. 请注意,在完成向导页中,数据源名称默认为 Adventure Works DW。11. 单击完成。新的数据源 Adventure Works DW 将显示在解决方案资源管理器的数据源文件夹中。创立数据源视图1. 在解决方案资源管理器中,右键单击数据源视图,选择新建数据源视图。系统将翻开数据源视图向导。2. 在欢迎使用数据源视图向导页上,单击下一步。3. 在选择数据源页的关系数据源下,系统将默认选中您在上一个任务中创立的 A

6、dventure Works DW 数据源。 单击下一步。 假设要创立新数据源,请单击新建数据源,启动数据源向导。4. 在选择表和视图页上,选择以下各表,然后单击右箭头键,将这些表包括在新数据源视图中: dbo.ProspectiveBuyer dbo.vAssocSeqLineItems dbo.vAssocSeqOrders dbo.vTargetMail dbo.vTimeSeries5. 单击下一步。6. 在完成向导页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击完成。系统将翻开数据源视图设计器,显示 Adventure Works DW 数据源视

7、图。创立用于目标方案的挖掘构造1. 在解决方案资源管理器中,右键单击挖掘构造并选择新建挖掘构造启动数据挖掘向导。2. 在欢迎使用数据挖掘向导页上,单击下一步。3. 在选择定义方法页上,确保已选中从现有关系数据库或数据仓库,再单击下一步。4. 在创立数据挖掘构造页的您要使用何种数据挖掘技术.下,选择Microsoft 决策树。5. 单击下一步。6. 在选择数据源视图页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击浏览查看各表,然后单击关闭返回该向导。7. 单击下一步。8. 在指定表类型页上,选中 vTargetMail 表旁边事例列中的复选框,再单击下一步。9.

8、 在指定定型数据页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。10. 选中 BikeBuyer 列旁边的输入和可预测。11. 单击建议翻开提供相关列建议对话框。只要选中至少一个可预测属性,即可启用建议按钮。提供相关列建议对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进展排序。值大于 0.05 的列将被自动选中,以包括在模型中。12. 阅读建议,然后单击取消忽略建议并保存向导设置的原始值。13. 选中以下各列旁边的输入复选框: Age muteDistance Engl

9、ishEducation EnglishOccupation FirstName Gender GeographyKey HouseOwnerFlag LastName MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalChildren YearlyIne14. 单击下一步。15. 在指定列的内容和数据类型页上,单击检测以运行对数值数据进展取样并确定数值列是否包含连续或离散值的算法。例如,*列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围例如 1 = $25,000;2 = 从 $2

10、5,000 到 $50,000。16. 单击检测后,请查看内容类型和数据类型列中的各项;如有必要,请进展更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进展数学运算是不对的。列 内容类型 数据类型 AgeContinuousLongBikeBuyerDiscreteLongmuteDistanceDiscreteTe*tCustomerKeyKeyLongEnglishEducationDiscreteTe*tEnglishOccupationDiscret

11、eTe*tFirstNameDiscreteTe*tGenderDiscreteTe*tGeographyKeyDiscreteTe*tHouseOwnerFlagDiscreteTe*tLastNameDiscreteTe*tMaritalStatusDiscreteTe*tNumberCarsOwnedDiscreteLongNumberChildrenAtHomeDiscreteLongRegionDiscreteTe*tTotalChildrenDiscreteLongYearlyIneContinuousDouble17. 单击下一步。18. 在将数据拆分为定型集和测试集页上,对于测

12、试数据百分比,请保存默认值 30。19. 对于测试数据集中的最大事例数,请键入 1000。单击下一步。20. 在完成向导页上的挖掘构造名称中,键入 Targeted Mailing。21. 在挖掘模型名称中,键入 TM_Decision_Tree。22. 选中允许钻取复选框。23. 单击完成。测试挖掘模型的准确性映射输入列如果使用外部数据测试挖掘模型,则必须确保挖掘构造中的列与输入数据中的列匹配。为此,可以使用指定列映射对话框。如果直接映射列名,则数据挖掘设计器将自动创立关系。假设要删除两列之间的映射,请选择将挖掘构造表中的列到选择输入表表中的列的行,再按 Delete 键。还可以通过单击选择

13、输入表中的列并将其拖到挖掘构造中相应的列来手动创立映射。将输入列映射到挖掘构造1. 在数据挖掘设计器中的挖掘准确性图表选项卡的输入选择选项卡中,选择选项指定其他数据集。2. 单击指定其他数据集选项右侧的 () 按钮。此时将翻开指定列映射对话框。如果您要测试的构造未显示在挖掘构造窗格中,请单击选择构造并选择目标。3. 在选择输入表框中,单击选择事例表。系统将翻开选择表对话框。在此对话框中选择包含表或需要使用的表的数据源视图,然后选择该表。用于确定模型准确性的数据必须包含可以映射到可预测列的列。为了实现本教程的教学目标,您需要对用于处理模型的输入列使用一样的数据并对数据应用筛选器。但是,理想情况下

14、,您将使用用于处理该模型的数据中保存的测试数据集。在选择输入选择选项卡上选择选项使用挖掘构造测试事例,将选择该数据作为输入。4. 在数据源列表中,确保已选中 Adventure Works DW。5. 在表/视图名称列表中,选择 vTargetMail,再单击确定。挖掘构造中的列会自动映射到输入表中具有一样名称的列。筛选输入行如果选择指定其他数据集选项,则可以通过使用显示事例表列和嵌套表列的一组对话框生成筛选条件。可以从运算符、类型值的列表中进展选择,并连接条件与逻辑运算符,以创立限制测试所用事例的复杂条件。对测试数据应用筛选器1. 在数据挖掘设计器中的挖掘准确性图表选项卡的输入选择选项卡上,单击翻开筛选器编辑器。2. 此时将翻开vTargetMail 数据集筛选器对话框。在此网格内,输入转换为将应用于源表的 WHERE 子句的条件,以限制用于测试的事例。3. 在挖掘构造列下,单击网格内顶部的行。选择 vTargetMail。4. 单击值单元。此时将翻开筛选器对话框,该对话框可帮助您对 vTargetMail 表设置条件。5. 在第一

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号