《数据挖掘项目实施ppt课件》由会员分享,可在线阅读,更多相关《数据挖掘项目实施ppt课件(41页珍藏版)》请在金锄头文库上搜索。
1、数据挖掘原理与数据挖掘原理与SPSSClementine应用宝典应用宝典元昌安元昌安主编主编邓松李文敬刘海涛编著邓松李文敬刘海涛编著电子工业出版社电子工业出版社2024/9/42024/9/42024/9/42024/9/42024/9/42 2本章包括:本章包括:数据挖掘数据挖掘项目实施项目实施步骤步骤123数据挖数据挖掘项目掘项目周期周期单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容建立项目建立项目和报告和报告处理缺处理缺失值失值导入和导入和导出导出PMML模型模型3452024/9/4202
2、4/9/42024/9/43 323.123.123.123.1数据挖掘项目实施步骤数据挖掘项目实施步骤数据挖掘项目实施步骤数据挖掘项目实施步骤2323.1.1.1.1一般实施步骤一般实施步骤一般而言,数据挖掘项目要经历的过程包括:一般而言,数据挖掘项目要经历的过程包括:问题理解和提出、问题理解和提出、数据准备、数据整理数据准备、数据整理、建立模型、评价和解释等一系列任务建立模型、评价和解释等一系列任务,其流程,其流程如图如图23231 1所示所示 。2024/9/42024/9/423.1.223.1.223.1.223.1.2企业解决方案企业解决方案企业解决方案企业解决方案23.1.2.1
3、 SEMMA23.1.2.1 SEMMA模式模式2024/9/42024/9/423.1.2.2 SPSS23.1.2.2 SPSS5A5A模型模型2024/9/42024/9/423.1.323.1.3标准过程模型标准过程模型 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布2024/9/42024/9/42024/9/47 723.223.223.223.2数据挖掘项目周期数据挖掘项目周期数据挖掘项目周期数据挖掘项目周期2024/9/42024/9/423.323.323.323.3建立项目和报告建立项目和报告建立项目和报告建立项目
4、和报告23.3.123.3.1项目概述项目概述表面上,Clementine项目只是一种组织输出的简单方式,但实际上它能做更多的工作,主要包括以下工作:(1 1)注释项目文件中的每个对象。(2 2)使用CRISP-DM方法指导数据挖掘工作。项目还包含CRISP-DM帮助系统,该系统针对使用CRISP-DM进行的数据挖掘提供详细信息以及现实示例。(3 3)将非Clementine项目添加到Clementine项目,如用于展现数据挖掘目标的PowerPoint幻灯片或与计划使用的算法相关的文档等。(4 4)根据注解生成全面更新报告和简单更新报告。为了便于在局域网上发布,可以用HTML的形式生成这些报
5、告。2024/9/42024/9/423.3.1.1CRISP-DM23.3.1.1CRISP-DM23.3.1.1CRISP-DM23.3.1.1CRISP-DM视图视图视图视图2024/9/42024/9/423.3.1.223.3.1.223.3.1.223.3.1.2类视图类视图类视图类视图2024/9/42024/9/423.3.223.3.223.3.223.3.2建立项目建立项目建立项目建立项目23.3.2.123.3.2.1新建项目新建项目在Clementine窗口中新建项目非常简单。可以从构建新项目开始(如果没有项目打开),也可以关闭现有项目并重新开始。从流工作区菜单中,选择
6、从流工作区菜单中,选择“文件文件”“工工程程” “新建工程新建工程.”命令。命令。2024/9/42024/9/423.3.2.223.3.2.2添加到项目添加到项目创建或打开项目后,便可以使用多种方法来添加对象,如数据流、节点和报告等。(1 1)用管理器添加对象)用管理器添加对象使用Clementine窗口右上角的管理器,可以添加流或输出。从其中一个管理器选项卡中选择一个对象(如表或流)。右键单击,然后选择“添加到工程”命令。如果以前保存过该对象,则会自动将它添加到适当的对象文件夹(在类视图中)或默认的阶段文件夹(在CRISP-DM视图中)。或者,可以将对象从管理器拖放到项目工作区中。将项目
7、添加到项目工程中,如图237从项目管理器中加入项目项到工程中所示。2024/9/42024/9/4(2 2)从工作区添加节点)从工作区添加节点可以使用“保存”对话框从流工作区添加单个节点。在工作区中选择一个节点。单击右键,然后选择“保存节点”命令;或者,从菜单中选择“编辑”“节点”“保存节点.”命令。在“保存”对话框中,选中“将文件添加到工程”命令。为节点创建名称,然后单击“保存”命令。从流工作区中加入节点的主要操作对话框如图238从流工作区中加入节点所示,这样会保存文件并将其添加到项目中,同时节点会被添加到类视图中的Nodes文件夹以及CRISP-DM视图中的默认阶段文件夹。2024/9/4
8、2024/9/4(3 3)添加外部文件)添加外部文件将外部文件添加到项目的一般步骤如下:Step1.将文件从桌面上直接拖到项目中;或右键单击CRISP-DM视图或类视图中的目标文件夹。Step2.从菜单中,选择“添加到文件夹”命令。Step3.在对话框中选择一个文件,然后单击“打开”命令。这将会在Clementine项目内添加对所选对象的引用。2024/9/42024/9/423.3.2.323.3.2.323.3.2.323.3.2.3设置项目属性设置项目属性设置项目属性设置项目属性可以使用项目属性对话框来自定义项目的内容和文档。要访问项目属性,一般执行以下操作:Step1.Step1.右键
9、单击项目工具中的根文件夹,然后选择“工程属性”命令;或者右键单击项目工具中的非根文件夹,然后选择“工程” “工程属性”命令。工程选项卡对话框如图239工程选项卡对话框所示。Step2.Step2.单击“工程”选项卡以指定项目的相关信息。2024/9/42024/9/4在工程选项卡中包含下列信息,如图239工程选项卡对话框所示。创建时间:创建时间:显示项目的创建时间(此项内容不可编辑)。摘要摘要:可以输入将在项目报告中显示的数据挖掘项目的摘要。内容:内容:列出项目文件引用的组成文件的类型和数量(此项内容不可编辑)。将未保存的对象保将未保存的对象保另另存为单选项:存为单选项:指定是应将未保存的对象
10、保存到本地文件系统还是存储在PredictiveEnterpriseRepository中。载入项目时更新对象引用复选框:载入项目时更新对象引用复选框:选中此选项可更新项目对其组成文件的引用。2024/9/42024/9/423.3.2.423.3.2.4注解项目注解项目项目工具提供了多种方式来注解数据挖掘工作。项目级注解常用于跟踪宏观目标和决策,而文件夹或节点注解提供其他详细信息。“注解”选项卡提供了足够空间记录项目级详细信息,比如具有不可恢复丢失数据的数据排除、数据探索过程中形成的可能假设等。2024/9/42024/9/423.3.2.523.3.2.5对象属性对象属性可以查看对象属性并
11、选择是否在项目报告中纳入单个对象。要访问对象属性,需要执行以下操作:Step1.右键单击项目窗口中的对象。Step2.从菜单中,选择“对象属性”命令。对象属性的设置,如图23-12对象属性对话框所示。2024/9/42024/9/423.3.2.623.3.2.623.3.2.623.3.2.6关闭项目关闭项目关闭项目关闭项目关闭项目文件的操作步骤一般如下:关闭项目文件的操作步骤一般如下:Step1.从“文件”菜单中,选择关闭项目。Step2.如果系统询问是关闭所有与项目关联的文件还是让其保持打开,请单击“保持打开”命令,将关闭工程文件(.cpj)本身而让所有关联文件(如流、节点或图形等)保持
12、打开。2024/9/42024/9/42024/9/4202023.3.323.3.323.3.323.3.3建立报告建立报告建立报告建立报告项目最有用的一项功能是能够根据项目项和注解生成报告。可以直接生成若干种文件类型的报告,也可以直接输出到屏幕窗口以便立即查看。从输出窗口中,可以打印、保存或查看Web浏览器中的报告。还可以将保存的报告分发给组织中的其他人。2024/9/42024/9/423.3.3.123.3.3.123.3.3.123.3.3.1设置报告选项设置报告选项设置报告选项设置报告选项2024/9/42024/9/423.3.3.223.3.3.223.3.3.223.3.3.
13、2生成报告生成报告生成报告生成报告2024/9/42024/9/423.3.3.223.3.3.2保存和输出报告保存和输出报告在屏幕上生成的报告显示在新输出窗口中,此报告中包括的所有图形都会显示为内嵌图像。保存报告的一般步骤如下:保存报告的一般步骤如下:Step1.从“文件”菜单中,选择“保存”命令。Step2.指定文件名。导出报告的一般步骤如下:导出报告的一般步骤如下:Step1.从“文件”菜单中,选择导出以及要导出为的文件类型。Step2.指定文件名。可以将报告导出为如下类型的文件:可以将报告导出为如下类型的文件:HTML文本Microsoft WordMicrosoft ExcelMic
14、rosoft PowerPoint2024/9/42024/9/423.423.423.423.4处理缺失值处理缺失值处理缺失值处理缺失值 23.4.123.4.1指定缺失值指定缺失值用户可以用类型节点或者来源节点的类型选项卡来指定某个特定的值为缺失值,也可以决定是否把系统的缺失值或空白看作空格。在“缺失”栏上,从下拉菜单中选择“指定”来打开一个对话框,然后确定缺失值选项。如图23-16确定连续变量的缺失值所示。2024/9/42024/9/4图图23-16 23-16 确定连续变量的缺失值确定连续变量的缺失值2024/9/42024/9/423.4.223.4.2处理缺失值处理缺失值用户应根
15、据所从事的专业领域知识来确定如何处理缺失值。为了减少训练时间以及提高精度,可能需要除去数据集中的空值。此外,空值的出现还可能会带来新的业务机会或其他灵感。在在ClementineClementine中有许多技巧来处理缺失值,可以根据数据的以中有许多技巧来处理缺失值,可以根据数据的以下特征来选择最佳方法:下特征来选择最佳方法:数据集的大小包含空值的字段数缺失信息量一旦分析了上述因素,就可以选择下述两种方法来处理:忽略带有缺失值的字段或记录可以使用各种方法归因、替换或强制赋值缺失值2024/9/42024/9/423.4.2.123.4.2.1处理带缺失值的记录处理带缺失值的记录如果大部分缺失值都
16、集中在少量记录中,只需排除这些记录即可。例如,银行通常会保存详细而完整的贷款客户的记录。但是,如果银行在审批内部职员的贷款时管制不严,则所收集的员工贷款数据可能会存在空白字段。此种情况下,有两种方法两种方法可以处理缺失值:可以使用选择节点删除员工记录。可以使用选择节点删除员工记录。如果数据集很大,使用者可以在一个选择节点上,使用如果数据集很大,使用者可以在一个选择节点上,使用BLANKBLANK和和NULLNULL函数来函数来剔除带有空格的所有记录。剔除带有空格的所有记录。2024/9/42024/9/423.4.2.223.4.2.2处理带缺失值的字段处理带缺失值的字段如大部分缺失值都集中在
17、少量字段中,可通过字段而不是记录查找如大部分缺失值都集中在少量字段中,可通过字段而不是记录查找这些缺失值。这些缺失值。确定要采用的方法时,还应考虑带有缺失值的字段类型。确定要采用的方法时,还应考虑带有缺失值的字段类型。数值字段对于数值字段类型(如范围),应在构建模型前清除所有非数字值,因为如果数值字段中包含空值,很多模型将无效。分类字段对于分类字段(如集合和标志),虽然不必更改缺失值,但更改后可以提高模型的精度。2024/9/42024/9/4要筛选或删除带有大量缺失值的字段,可以采用以下几要筛选或删除带有大量缺失值的字段,可以采用以下几种方法:种方法:使用数据审核节点根据质量过滤字段。可以使
18、用特征选择节点来筛选缺失值超过指定百分比的字段,并根据相对于特定目标的重要性来对字段进行排序。除删除字段以外,还可以使用类型节点将字段方向设置为无。此操作可将字段保留在数据集中,但不会对其进行建模操作。2024/9/42024/9/423.4.2.323.4.2.3归因或填充缺失值归因或填充缺失值在仅有少量缺失值的情况下,可以用插入值来替换空值。下列方在仅有少量缺失值的情况下,可以用插入值来替换空值。下列方法可用于输入缺失值:法可用于输入缺失值:替换为固定值(可以选用字段平均值、范围中间值或者指定的常数)。替换为基于正态分布或均匀分布产生的随机值。用于指定定制表达式。例如,可以使用设置全局量节
19、点创建的全局变量进行替换。基于C&RT算法替换为模型预测的值。对于使用此方法输入的每个字段,都会有一个单独的C&RT模型,还有一个填充节点会使用该模型预测的值替换空白值和Null值。然后使用过滤节点删除该模型生成的预测字段。如果还要为特定字段强制赋值,则可以使用类型节点来确保字段类型仅包含合法值,然后将需要替换空值字段的检查列设置为强制。2024/9/42024/9/423.4.323.4.3用用CLEMCLEM函数处理缺失值函数处理缺失值表达式操作语言CLEM全名为Clementine Language for Expression Manipulation,是在Clementine中执行函
20、数运算时的专用语法,用于分析和操纵在Clementine流中流动的数据,是一个功能强大的语言。2024/9/42024/9/4有多个有多个CLEMCLEM函数可用于处理缺失值。选择节点和填充节点中经常会用以下函数来删除或填充缺失值:函数可用于处理缺失值。选择节点和填充节点中经常会用以下函数来删除或填充缺失值:count_nulls(LIST)BLANK(FIELD)NULL(FIELD)undef函数可以与FIELD函数一起使用,来识别一个或多个字段中是否存在空值或非Null值。当出现空值或非Null值时,一般会对此类字段进行标记,也可以用替换值填充或者在各种其他操作中使用此类字段。如下所示,
21、可以计算字段列表中的非如下所示,可以计算字段列表中的非NullNull值的数量:值的数量:count_nulls(cardtenurecard2tenurecard3tenure)如果要使用接受输入类型的字段列表的函数,则可以使用特定的FIELDS_BETWEEN和FIELDS_MATCHING函数,如下所示:count_nulls(FIELDS_MATCHING(card*)在选择字段中用填充节点把缺失值替换成0,如图2318用填充节点将选定字段中的非Null值替换为0所示。2024/9/42024/9/423.523.523.523.5导入和导出导入和导出导入和导出导入和导出PMMLPMM
22、LPMMLPMML模型模型模型模型PMML(predictive model markup language,称为预测模型标记语言)是一个XML基础的标准,以XML文件类型定义DTD形式,用于描述数据挖掘和统计模型,包括模型的输入、用于为数据挖掘准备数据的变换、以及定义模型自身的参数。Clementine可导入和导出PMML模型,使其能够与其他支持此格式的应用程序(例如,SPSS、SPSS Categorize)共享模型 。2024/9/42024/9/423.5.123.5.1支持支持PMMLPMML的模型类型的模型类型23.5.1.1 PMML 3.123.5.1.1 PMML 3.1导入
23、导入Clementine可以导入并评分由SPSS所有产品生成的PMML 3.1模型,包括从Clementine导出的模型和由SPSS 15.0生成的模型或变换PMML模型。实质上,这包括了实质上,这包括了SPSS SPSS SmartscoreSmartscore组件可组件可以评分的所有以评分的所有PMMLPMML模型,但以下几种情况例外:模型,但以下几种情况例外:(1)无法导入Apriori、CARMA及异常检测模型。(2)将PMML模型导入到Clementine后,虽然可以对其进行评分,但不能进行浏览。(3)不能导入无法评分的模型。(4)以PMML格式导出的IBM Intelligent
24、Miner模型,无法重新导入到Clementine中。2024/9/42024/9/423.5.1.223.5.1.2导入导入PMMLPMML的较早版本的较早版本对于从Clementine较早版本(11.0之前版本)中导出的遗存模型,只有某些模型类型(而不是所有类型)支持PMML导入,模型支持PMML导入关系如表231所示:模型模型类型型PMMLPMML导入(入(2.12.1或或3.03.0)神经网络不可用不可用C&R树是是CHAID树是是QUEST树是是C5.0树不可用不可用规则集不可用不可用Kohonen网络不可用不可用K-Means不可用不可用两步是是线性回归是是Logistic回归是是
25、因子/主成分分析不可用不可用序列不可用不可用CARMA不可用不可用Apriori不可用不可用文本提取不可用不可用特征选择不可用不可用异常检测不可用不可用非精练(GRI,CEMI) 不可用不可用2024/9/42024/9/423.5.1.3 Clementine23.5.1.3 Clementine23.5.1.3 Clementine23.5.1.3 Clementine模型模型模型模型PMMLPMMLPMMLPMML导导导导出出出出Clementine中的所有模型,除了CHAID 、Anomaly 、GRI 、Factor/PCA、特征选择等少数几个模型以外,都可以用PMML编码的XML文
26、件的方式输出。对于PMML模型输出,应该选择一个XML文件名。Clementine中的模型是否支持PMML输出类型,模型支持PMML输出关系如表232所示 .模型类型支持PMML输出类型神经网络是是建立C5.0是是Kohonen是是线性回归是是GRI否否Apriori是是K-Means是是逻辑回归是是两步是是分类和回归(C&R)树是是序列探测是是QUEST是是CHAID否否Anomaly否否Carma是是特征选择否否因子分析/主成分分析否否文本提取否否2024/9/42024/9/423.5.1.423.5.1.4数据库本地模型数据库本地模型PMMLPMML导出导出对于使用数据库本地算法生成的
27、模型,仅在IBM Intelligent Miner模型中可使用PMML导出,无法导出使用Microsoft的Analysis Services或Oracle Data Miner创建的模型。此外,以PMML格式导出的IBM模型无法重新导入到Clementine中 2024/9/42024/9/423.5.223.5.223.5.223.5.2导入导入导入导入PMMLPMMLPMMLPMML模型模型模型模型2024/9/42024/9/423.5.323.5.3导出导出PMMLPMML模型模型在Clementine中生成模型后,可按以下的步骤用PMML代码输出:Step1.在管理窗口中的“模型
28、”选项卡,用右键点单击一个模型。Step2.从内容菜单中,选择“导出PMML”命令。Step3.给模型命名,然后点击“保存”命令即可。2024/9/42024/9/423.6 23.6 23.6 23.6 小结小结小结小结根据本章讲述的数据挖掘项目实施的方法论和生命周期、SPSS Clementine的项目管理、数据挖掘项目的建立和报告的生成、缺失值的处理和PMML模型的导入导出等内容,将数据挖掘项目实施的理论与SPSS Clementine数据挖掘软件结合,能够完成数据挖掘项目的一般实施过程。而更为详细的数据挖掘项目实施的内容,可以参考下一章的SPSS Clementine典型案例分析,通过更多具体的数据挖掘的实践才能更好地把握数据挖掘项目的实施。2024/9/42024/9/4