实验8 决策树

上传人:豆浆 文档编号:10920410 上传时间:2017-10-11 格式:DOC 页数:7 大小:85KB
返回 下载 相关 举报
实验8 决策树_第1页
第1页 / 共7页
实验8 决策树_第2页
第2页 / 共7页
实验8 决策树_第3页
第3页 / 共7页
实验8 决策树_第4页
第4页 / 共7页
实验8 决策树_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《实验8 决策树》由会员分享,可在线阅读,更多相关《实验8 决策树(7页珍藏版)》请在金锄头文库上搜索。

1、一、准备 Analysis Services 数据库(一) 、创建 Analysis Services 项目1. 打开 Business Intelligence Development Studio。2. 在“文件”菜单上,指向“新建”,然后选择“项目”。3. 确保已选中“模板”窗格中的“Analysis Services 项目”。4. 在“名称”框中,将新项目命名为 AdventureWorks。5. 单击“确定”。(二) 、创建数据源1. 在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。系统将打开数据源向导。2. 在“欢迎使用数据源向导”页面中,单击“下一步”按

2、钮。3. 单击“新建”向 Adventure Works 数据库添加连接。系统将打开“连接管理器”对话框。4. 在“连接管理器”的“提供程序”列表中,选择默认值。5. 在“服务器名称”列表中,选择承载 AdventureWorksDW 的服务器。6. 输入您的凭据。例如,如果在本地服务器上承载数据库,则选择 localhost。7. 在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“确定”按钮。8. 单击“下一步”按钮进入向导的下一页。9. 在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。10.请注意,在“完成向导”页面中,数据源的默认名称为 Adv

3、enture Works DW。11.单击“完成”。新的数据源 Adventure Works DW 将显示在解决方案资源管理器的“数据源”文件夹中。(三)创建数据源视图1. 在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。系统将打开数据源视图向导。2. 在“欢迎使用数据源视图向导”页上,单击“下一步”。3. 在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。单击“下一步”。若要创建新数据源,请单击“新建数据源”,启动数据源向导。4. 在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表

4、包括在新数据源视图中:o dbo.ProspectiveBuyer o dbo.vAssocSeqLineItems o dbo.vAssocSeqOrders o dbo.vTargetMail o dbo.vTimeSeries 5. 单击“下一步”。6. 在“完成向导”页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。单击“完成”。系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。(四)创建新的表格关系1. 在数据源视图设计器的数据源视图窗格中,选择 vAssocSeqLineItems 表中的 OrderNumber 列。

5、2. 将该列拖到 vAssocSeqOrders 表中,并将其放到 OrderNumber 列上。现在,vAssocSeqOrders 和 vAssocSeqLineItems 表之间便存在新的多对一关系。二、生成决策树方案Adventure Works Cycle 公司的市场部需要标识其以前客户的特征,这些特征可以指示这些客户以后是否有可能购买其产品。AdventureWorks 数据库存储了描述其以前客户的人口统计信息。通过使用 Microsoft 决策树算法分析这些信息,市场部可以生成一个模型,该模型根据有关特定客户的已知列的状态(如人口统计或以前的购买模式)预测该客户是否会购买产品。(

6、一) 算法的原理Microsoft 决策树通过在树中创建一系列拆分(也称为节点)来生成数据挖掘模型。每当发现输入列与可预测列密切相关时,算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。通过柱状图可以演示 Microsoft 决策树算法为可预测的离散列生成树的方式。下面的关系图显示了一个根据输入列 Age 绘出可预测列 Bike Buyers 的柱状图。该柱状图显示了客户的年龄可帮助判断该客户是否将会购买自行车。该关系图中显示的关联将会使 Microsoft 决策树算法在模型中创建一个新节点。随着算法不断向模型中添加新节点,便形成了树结构。该树的顶

7、端节点描述了客户总体可预测列的分解。随着模型的不断增大,该算法将考虑所有列。Microsoft 决策树算法支持多个参数,这些参数会对所生成的挖掘模型的性能和准确性产生影响。下表对各参数进行了说明:参数 说明 MAXIMUM_INPUT_ATTRIBUTES定义算法在调用功能选择之前可以处理的输入属性数。如果将此值设置为 0,则表示关闭功能选择。默认值为 255。MAXIMUM_OUTPUT_ATTRIBUTES定义算法在调用功能选择之前可以处理的输出属性数。如果将此值设置为 0,则表示关闭功能选择。默认值为 255。SCORE_METHOD确定用于计算拆分分数的方法。可用选项包括:Entrop

8、y (1)、Bayesian with K2 Prior (2) 或 Bayesian Dirichlet Equivalent (BDE) Prior (3)。默认值为 3。SPLIT_METHOD确定用于拆分节点的方法。可用选项包括:Binary (1)、Complete (2) 或 Both (3)。默认值为 3。MINIMUM_SUPPORT确定在决策树中生成拆分所需的叶事例的最少数量。默认值为 10。COMPLEXITY_PENALTY控制决策树的增长。该值较低时,会增加拆分数;该值较高时,会减少拆分数。默认值基于特定模型的属性数,详见以下列表: 对于 1 到 9 个属性,默认值为

9、0.5。对于 10 到 99 个属性,默认值为 0.9。对于 100 或更多个属性,默认值为 0.99。FORCED_REGRESSOR强制算法将指示的列用作回归量,而不考虑算法为这些列计算出的重要性。此参数只用于预测连续属性的决策树。 (二)创建决策树挖掘结构1. 在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”。系统将打开数据挖掘向导。2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。3. 在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4. 在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策

10、树”。在本教程中,您将创建数个基于这种初始挖掘结构的模型。第一个模型将在您完成该向导时与结构一起创建,且基于 Microsoft 决策树算法。5. 单击“下一步”。6. 在“选择数据源视图”页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。7. 单击“下一步”。8. 在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”。9. 在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该

11、列作为模型的键。10. 选中 BikeBuyer 列旁边的“输入”和“可预测”。当表示某列可预测时,将启用“建议”按钮。单击“建议”打开“提供相关列建议”对话框,该对话框列出与可预测列关系最密切的列。“提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。值大于 0.05 的列将被自动选中,以包括在模型中。如果您同意这些建议,请单击“确定”,以便在向导中将所选列标记为输入列。对于本教程,请单击“取消”,忽略这些建议。 11. 选中以下各列旁边的“输入”复选框: Age CommuteDistance EnglishEducation EnglishOccupation FirstN

12、ame Gender GeographyKey HouseOwnerFlag LastName MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalChildren YearlyIncome使用 Shift 键可以同时选中多列。12. 单击“下一步”。13. 在“指定列的内容和数据类型”页上,单击“检测”。某个算法将运行此示例数字数据,并确定这些数字列是包含连续值还是包含离散值。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如 1 = $25,000;2 = 从 $25,

13、000 到 $50,000)。 14. 单击“检测”之后,请确保“内容类型”和“数据类型”列中的各项具有下表中列出的设置。列 内容类型 数据类型 Age 连续 LongBikeBuyer 离散 LongCommuteDistance 离散 TextCustomerKey 键 LongEnglishEducation 离散 TextEnglishOccupation 离散 TextFirstName 离散 TextGender 离散 TextGeographyKey 离散 TextHouseOwnerFlag 离散 TextLastName 离散 TextMaritalStatus 离散 Tex

14、tNumberCarsOwned 离散 LongNumberChildrenAtHome 离散 LongRegion 离散 TextTotalChildren 离散 LongYearlyIncome 连续 Double15. 单击“下一步”。16. 在“完成向导”页上的“挖掘结构名称”中,键入 Targeted Mailing。17. 在“挖掘模型名称”中,键入 TM_Decision_Tree。18. 选中“允许钻取”复选框。19. 单击“完成”。(三)查看 Microsoft 决策树模型处理了项目中的模型后,可使用数据挖掘设计器中的“挖掘模型查看器”选项卡查看这些模型。可使用该选项卡顶部的

15、“挖掘模型”列表检查挖掘结构中的各个模型。为 Adventure Works DM 教程项目切换到数据挖掘设计器中的“挖掘模型查看器”选项卡时,该设计器将打开并显示结构中的第一个模型,即目标邮件挖掘模型。用于在 Analysis Services 中生成模型的每种算法将返回不同类型的结果。所以,Analysis Services 将为每个算法提供单独的查看器。浏览挖掘模型时,系统会使用该模型相应的查看器,在“挖掘模型查看器”选项卡上显示该模型。在本例中,对于决策树模型,使用的是 Microsoft 树查看器。此查看器包含两个选项卡,即“决策树” 和“相关性网络”。决策树在“决策树”选项卡上,可

16、以检查构成挖掘模型的所有树模型。由于本教程项目中的目标邮件模型仅包含单个可预测属性 (Bike Buyer),所以只需查看一个树。如果存在更多树,则可以使用“树” 框来选择其他树。默认情况下,Microsoft 树查看器仅显示树的前三个级别。如果树级别不到三个,则查看器仅显示现有级别。可以使用“显示级别”滑块或“默认扩展” 列表查看更多级别。有关如何配置查看器的详细信息,请参阅使用 Microsoft 树查看器查看挖掘模型。修改树1. 将“显示级别 ”滑块滑到 5。2. 将“背景 ”列表更改为 1。通过更改“背景 ”设置,可以迅速查看每个节点中现有数目为 1 的 Bike Buyer 事例。节点的底纹颜色越深,表示节点中的事例越多。决策树中的每个节点可显示下列信息: 要从某节点的前一个节点访问该节点所需的条件。可以在“挖掘图例”中查看完整节点路径,也可以将光标停留在节点上以显示 InfoTip。 按畅销程度说明可预测列的状态分布的直方图。可以使用“直方图”控件控制直方图中显示的状态数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 经济/贸易/财会 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号