sql2005决策树挖掘－金锄头文库

资源描述

《sql2005决策树挖掘》由会员分享，可在线阅读，更多相关《sql2005决策树挖掘（10页珍藏版）》请在金锄头文库上搜索。

1、3.3利用Microsoft SQL Server 2005实践决策树算法Microsoft SQL Server 2005 Analysis Services（SSAS）)提供了Microsoft 决策树算法，用于对离散和连续属性进行预测性建模。对于离散属性，该算法根据数据集中输入列之间的关系进行预测。对于连续属性，该算法使用线性回归确定决策树的拆分位置。本节将利用Microsoft 决策树算法，为新出生婴儿的体重是否正常建立一棵决策树，旨在为妇幼保健工作提供一些数值依据。因为婴儿出生体重不仅反映了宫内胎儿的生长发育情况，对产后的生长发育、成年期心血管疾病、高血压、糖尿病等慢性疾病的发生也

2、有着一定的影响。一般来说，新出生的婴儿体重如果低于2500克，则认为是低出生体重儿。3.3.1 案例背景本实例使用的数据集是某地区医院新出生婴儿信息的一个样本数据集。整个数据集由100个实例组成，其中21个实例的婴儿出生体重属于低出生体重，其余的实例婴儿体重正常。数据集中共有9个属性，其中第9个属性表示婴儿出生体重是否正常, 部分数据如图3-2所示(附录中提供了全部数据源)，这里数据库名称为baby，数据表名也是baby。图3-2 某地区医院新出生婴儿信息的部分样本数据集各属性取值描述如下：l ID：主键l AGE:孕妇年龄，划分为三个区间，分别是： 20、2030、30l BABYSUM：胎

3、数, 1表示单胎，2表示双胎l FMFS：分娩方式，取值为“阴道分娩”、“剖宫分娩”l YZS:孕周数，取值为37、37（即早产）l YYJG：取值为“合理”、“不良”l PX:是否贫血，1表示无贫血，2表示贫血l BABYSEX:婴儿性别，1表示男，表示女l WEIGHT:婴儿出生体重是否正常，取值为“低出生体重”、“正常出生体重”3.3.2 Microsoft SQL Server 2005 Analysis Services操作步骤1. 打开Analysis Service集成环境界面依次执行“开始”“所有程序”“Microsoft SQL Server 2005”“SQL Server

4、 Business Intelligence Development Studio”命令，打开Analysis Service集成环境界面。2. 新建项目（1）执行菜单栏的“文件”“新建”“项目”命令，打开如图3-3所示的“新建项目”对话框。（2）选中“Analysis Services”项目，分别在“名称”、“解决方案名称”文本框中，填写项目名称和解决方案名称；在“位置”下拉文本框中，单击右侧的“浏览”钮，选择解决方案的保存路径。如图3-3所示。（3）单击“确定”按钮，返回集成环境的起始界面，在右上角显示“解决方案资源管理器”字样，如图3-4所示。图3-3 “新建项目”对话框图3-4

5、解决方案资源管理器3. 创建数据源（1）在解决方案资源管理器中，右击“数据源”文件夹，在弹出的快捷菜单中选择执行“新建数据源”命令，进入欢迎界面。在欢迎界面上单击“下一步”按钮，进入“选择如何定义连接” 界面（见图3-6）。（2）单击“新建”按钮，向baby数据库添加连接，打开“连接管理器”对话框。（3）在“提供程序”下拉列表框中，选择“本机 OLE DBMicrosoft OLE DB Provider for SQL Server”选项。在“服务器名”下拉列表框中，选择数据库baby 的服务器，如果在本地服务器上承载数据库，可以输入localhost。在“登录到服务器”区域重，根据服

6、务器的安全设置，选择“使用Windows身份验证”或“使用SQL Server身份验证”单选按钮，本例选择前者。在“连接到一个数据库”区域中，选择“选择或输入数据库名称”单选按钮，并在其下拉列表框中，选择baby选项，得到如图3-5所示的界面。图3-5 “连接管理器”对话框（4）单击“确定”按钮，返回到图3-6所示的“选择如何定义连接” 界面。图3-6 “选择如何定义连接”窗口（5）单击“下一步”按钮，进入“模拟信息”对话框，选择“默认值”选项；再单击“下一步”按钮进入“完成向导”界面。（6）数据源的默认名称为 baby，单击“完成”按钮，即完成了数据源的创建，新的数据源baby将显

7、示在解决方案资源管理器的“数据源”文件夹中。4.创建数据源视图（1）在解决方案资源管理器中，右击“数据源视图”文件夹，在弹出的快捷菜单中选择执行“新建数据源视图”命令，打开数据源视图向导“选择数据源”界面，在“关系数据源”下，系统将默认选中刚才创建的baby数据源。（2）若要创建新数据源，单击“新建数据源”按钮，启动数据源向导；否则单击“下一步”按钮，打开“选择表和视图” 界面。（3）在“选择表和视图” 界面中，选择dbo.baby表，单击右箭头键，将dbo.baby包括在新数据源视图中，如果有多个表，则这些表都应包含在右边的列表框中。（4）单击“下一步”按钮，进入“完成向导”对话框，

8、默认情况下，系统将数据源视图命名为 baby。（5）单击“完成”按钮，系统将打开数据源视图设计器窗口，如图3-7所示，显示baby 数据源视图。在该窗口中，也可对数据源视图进行修改。图3-7数据源视图设计器5. 创建用于婴儿体重的挖掘结构（1）在解决方案资源管理器中，右击“挖掘结构”文件夹，在弹出的快捷菜看重选择执行“新建挖掘结构”命令，打开“数据挖掘向导”窗口。（2）在“欢迎使用数据挖掘向导” 界面中，单击“下一步”按钮，进入“选择定义方法”界面。（3）选中“从现有关系数据库或数据仓库”选项，单击“下一步”按钮，进入“选择数据挖掘技术” 界面。（4）在“您要使用何种数据挖掘技术？”

9、下拉列表框中，选择“Microsoft 决策树”选项，如图3-8所示。图3-8 “选择数据挖掘技术”页面（5）单击“下一步”按钮，进入“选择数据源视图”界面，已默认选中baby在数据源视图中。单击“浏览”按钮可查看视图中各表。（6）单击“下一步”按钮，进入“指定表类型”界面，选中baby表旁边“事例”列中的复选框；单击“下一步”按钮，进入“指定定型数据”界面，如图3-9所示。图3-9 “指定定型数据”界面（7） “键”列表示唯一可识别的字段，选中相应复选框即可，本例中选择字段“ID”。如果数据源视图中的源表中设置了主键列，则数据挖掘向导将自动选择该列作为模型的键。（8） “可预测”列用来选

10、择类标号，本例中选择字段“WEIGHT”。当表示某列可预测时，“建议”按钮变为可用。单击“建议”按钮，打开“提供相关列建议”对话框。（9）在“提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。值大于 0.05 的列将被自动选中，已经包括在模型中。如果采纳这些建议，单击“确定”按钮，便将所选列标记作为输入列，本例中不采纳建议。（10） “输入”列表示分类的依据，根据所选的列构造决策树，本例中选中除主键和可预测列外的所有属性，选择的结果如图3-9所示。（11）单击“下一步”按钮，进入“指定列的内容和数据类型”界面，单击“检测”按钮，系统会自行确定各属性列是连续值还是离散值，如图

11、3-10所示。图3-10 “指定列的内容和数据类型”界面（12）单击“下一步”按钮，进入“完成向导”界面，如图3-11所示。图3-11“完成向导”界面在“挖掘结构名称”和“挖掘模型名称”中输入baby，选中“允许钻取”复选框，单击“完成”按钮，进入数据挖掘设计器界面，如图3-12所示。图3-12 数据挖掘编辑器界面在设计器界面，包含了五个选项卡，分别是：挖掘结构、挖掘模型、挖掘模型查看器、挖掘准确性图表、挖掘模型预测。“挖掘结构”选项卡由树视图、数据源视图两个窗格组成，显示在解决方案资源管理器中选择的挖掘结构，可以使用该选项卡修改通过数据挖掘向导创建的挖掘结构。挖掘模型选项卡提供参数的浏览

12、和修改。挖掘模型查看器用来显示生成的决策树以及对树的一些解释。6. 部署项目并处理挖掘模型（1）单击数据挖掘设计器中的挖掘模型查看器选项卡或者按【F5】键，Analysis Services 数据库将部署到服务器上，处理挖掘模型。首先会弹出两个提示框，均单击“是”按钮，打开“处理挖掘模型-baby”窗口，如图3-13所示。图3-13 “处理挖掘模型-baby”对话框（2）单击“运行”按钮，打开“处理进度”窗口，如图3-14所示，显示有关模型处理的信息。模型处理需要的时间取决于计算机及数据量的规模。（3）处理完毕后，在“处理进度”和“处理挖掘结构”窗口中单击“关闭”按钮，baby决策树模型

13、即已生成。图3-14 “处理进度”对话框7. 模型解释Analysis Services为每个算法提供单独的查看器。在本例中，对于决策树模型，使用的是Microsoft 树查看器。此查看器包含两个选项卡，即“决策树”和“相关性网络”。图3-15显示了Microsoft决策树查看器的屏幕快照，该图显示了baby-weight分类树模型。在该图中树是按水平的方式布局的，根节点在最左边。树中每一个节点包含一个柱状条，并且用不同的颜色来代表不同的状态。节点的底纹颜色越深，表示节点中的事例越多。选中树中的节点，可通过挖掘图例显示下列信息：l 节点中按可预测属性的状态划分的事例的数目。l 节点的可预测属性

14、的各种事例的概率。l 一个直方图，其中包含可预测属性的各种状态的数目。访问某个特定节点所需的条件，也称为“节点路径”。本例中，选中“babynum=2”节点，挖掘图例显示如图3-15所示，表明在条件“babynum=2and 37”情况下，婴儿低出生体重占正常孕周样本的24.31%。图3-15 决策树查看器使用“决策树”选项卡工具栏上的缩放按钮可以放大或缩小某个树，也可以使用“调整为合适大小”命令将整个模型放入查看器的屏幕中。如果某个树太大而无法将其调整为适合屏幕的大小，则可使用“导航”命令在树中导航。单击“导航”按钮将打开一个单独的导航窗口，通过它选择要显示的模型部分。默认情况下，Micro

15、soft 树查看器仅显示树的前三个级别。如果树级别不到三个，则查看器仅显示现有级别。使用“显示级别”滑块或“默认扩展”列表可以查看更多级别。在图3-15中，显示级别滑块设置为3的位置。由于在创建数据挖掘结构时选择了“允许钻取”选项，即可访问支持某个节点的定型事例。右击树中的某节点，在弹出的快捷菜单中选择执行“钻取”命令。如“YZS37”的节点钻取的数据如图3-16所示（该图中数据为图3-1中“YZS37”的部分数据）。图3-16钻取结果图3-17是决策树算法的“依赖关系网络”选项卡。显示了模型中的输入属性和可预测属性之间的依赖关系。查看器左侧的滑块可起到与依赖关系强度相联系的筛选器作用。如果向下拉动滑块，查看器中显示的链接强度逐渐加大，本例中显示了“WEIGHT”与 “YZS”之间弱相关关系的联系。当我们将滑块拉到最下面，系统显示强相关，如图3-18所示。图3-17 决策树查看器的依赖关系网络窗格图3-18 最强依赖关系通过上述分析，发现早产（孕周小于37周）和双胎是发生低出生体重儿的主要原因之一，其中以早产更为显著。因此应加强孕期检查，指导孕期卫生，对可能引起早产的因素给予充分重视，并予以纠正，以减少早产的发生，对孕期保健的指导具有重要意义。

展开阅读全文