数据挖掘原理与SPSSClementine应用宝典第21章数据模型

资源描述

《数据挖掘原理与SPSSClementine应用宝典第21章数据模型》由会员分享，可在线阅读，更多相关《数据挖掘原理与SPSSClementine应用宝典第21章数据模型（209页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典元昌安元昌安主编主编邓松李文敬刘海涛编著邓松李文敬刘海涛编著电子工业出版社电子工业出版社2 2本章主要内容本章主要内容建模前的通用设置神经网络C5.0算法生成决策树C&RT基于树的分类预测Kohonen网络模型K-Means聚类分析TwoStep聚类分析异常模型Apriori模型GRI关联规则生成规则集模型序列节点模型主成分/因子分析特征选择模型回归分析Logistic回归模型点击进入相点击进入相关节内容关节内容建模节点选项板包括以下节点：建模节点选项板包括以下节点：神经网络神经网络C5.0C&RTQUESTCH

2、AIDKohonenKMeansTwoStep异常异常图图21-1建模节点选项板建模节点选项板AprioriGRICarma序列序列主成分主成分/因子分析因子分析特征选择特征选择回归回归Logistic从图示来辨认一个生成模型的类型从图示来辨认一个生成模型的类型图21-2按列序分别为：神经网络C5.0C&RTCHAIDQUESTKohonenK-Means特征选择图图21-2生成模型选项板生成模型选项板Logistic回归TwoStep主成分/因子分析未精炼关联规则Apriori异常Carma规则集21.2 21.2 21.2 21.2 建模前的通用设置建模前的通用设置建模前的通用设置建模前的

3、通用设置21.1.1建模节点字段页签建模节点字段页签所有的建模节点都有一个“字段”页签，用户可以在此指定用于建模的字段。各建模节点的“字段”页签选项稍有区别，如图21-3、21-4所示是神经网络节点的“字段”页签和C&RT节点的“字段”页签。在建模前，需要指定使用哪些字段作为目标字段和输入字段。在默认状态下，除了序列节点，所有的建模节点都从上游的“类型”节点获取字段信息。如果使用“类型”节点选择输入字段和目标字段，无须在这一表上修改任何东西。对于序列检测模型，必须具体设定建模节点字段表上的字段。要了解更详细的内容，请看“21.15.1序列节点字段页签”。建模节点的字段页签选项综合为：图图21

4、-3 神经网络节点对话框字段页签神经网络节点对话框字段页签图图21-4 C&RT节点对话框字段页签节点对话框字段页签使用类型节点设置：这一选项告诉节点从上游的“类型”节点获取字段信息。这是默认设置。使用定制设置：这一选项告诉节点使用本节点指定的字段信息而不是来自上游节点的设置。在选择了该选项后，需要指定以下字段：（1）目标：对于需要至少一个目标字段的模型，选择目标字段。这类似于在“类型”节点中把字段方向设置为“输出”。（2）输入：选择输入字段。这类似于在“类型”节点中把字段方向设置为“输入”。（3）分区：选择分区字段，将会把源数据分区成不同的部分，以方便做测试等。使用频数字段：这一选项允

5、许用户选择一个字段作为频率权值。如果训练数据集中的每个记录代表不止一个单元例如使用汇总数据时，就可以选择该选项。字段值是每个记录所代表的单元数。频率字段的值应当是正整数。频率权值会影响 C&RT模型分支案例的计算。频率权值为零或者负值的记录将不参与分析。非整数频率权值取整为最相邻的整数。使用加权字段：这一选项允许选择某一字段作为案例权值。案例权值用于解释输出字段各水平之间的方差。这些权值用于模型估计但是并不影响 C&RT模型分支案例的计算。个案权值必须为正，但是可以不是整数。权值为零或者负值的记录将不参与分析。后项：在关联规则节点（Apriori 和 GRI）中，选择用作结论规则集中的结果的

6、字段。（这对应于“类型”节点中类型为“输出”或者“两者”的字段）。前项：在关联规则节点（Apriori 和 GRI）中，选择用作结论规则集中的前提的字段。（这对应于“类型”节点中类型为“输入”或者“两者”的字段）。使用事务格式（仅在 Apriori 节点中出现）：Apriori 节点既可以处理交易数据格式，也可以处理表格数据格式。交易型数据有两个字段：一个用于存储 ID 号，一个用于存储交易内容。每个记录代表一项交易，相关交易通过相同的 ID号关联起来。使用表格格式使用表格格式(Apriori节点仅有）：表格数据各项分别由二分变量表示，每个记录表节点仅有）：表格数据各项分别由二分变量表示

7、，每个记录表示一个完整的交易项。示一个完整的交易项。如表如表21-2所示为一个表格格式的来源实例。所示为一个表格格式的来源实例。 21.2.1 21.2.1 21.2.1 21.2.1 在数据流中使用生成模型在数据流中使用生成模型在数据流中使用生成模型在数据流中使用生成模型新产生的模型可以放置在数据流中，用于对新数据评估和创建新节点。使用一个生成模型来评估数据，其步骤如下：（1）在生成模型面板中点击选择所需模型。（2）点击流区域中的所需位置以便将模型加入到流中。（3）连接生成模型节点与数据源或转入数据的流。（4）加入或连接一个或多个过程或输出节点（如表节点）到生成模型节点。（5）执行生成模型

8、节点的某个下游节点。使用一个生成模型节点来创建过程节点，其步骤如下：（1）浏览（在选项板上）或编辑（在数据流区域上）这个模型。（2）从这个生成模型浏览器窗口的“生成”菜单中选择所需节点类型。根据不同生成模型节点的类型，有效选项将发生变化。参看特定生成模型类型的细节，用户能够得知从某个特定模型能生成什么。21.2.221.2.2使用生成模型浏览器使用生成模型浏览器生成模型浏览器允许用户检验和使用模型结果。从浏览器中，用户可以存储、打印和输出生成模型，整体观察模型，查看和编辑注释等。对于一些生成模型，用户也可以创建新的节点，（如筛选节点和规则集节点）。有些模型，用户也可以查看它的参数（如规则或类中

9、心）。对于决策树模型（C5.0和C&RT），用户可以查看模型结构的图形表示，如图21-7所示。图图21-7 C5.0模型浏览器窗口模型浏览器窗口21.3 21.3 21.3 21.3 神经网络建模神经网络建模神经网络建模神经网络建模神经网络节点用于创建并训练神经网络。神经网络，有时也称作多层感知器，本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元工作，这些处理单元是按层排列的。在神经网络中通常有三部分：一个输入层，其单元代表输入字段；一个或者更多的隐藏层；以及一个输出层，其单元代表输出字段。这些单元通过不断变化的连接强度或权值连接。神经网络学习包括：检查单个记录、为

10、每个记录生成预测、一旦发现生成错误的预测便对权值进行调整。这一进程多次重复，神经网络不断提高预测效果，直到满足一个或者多个终止准则。要求：对字段类型没有限制。神经网络可以处理数值型、字符型以及标志型输入输出字段。神经网络节点要求一个或更多字段有“输入”方向，以及一个或更多字段有“输出”方向。设置为“两者” 或者“无” 的字段将被忽略。在执行节点时，字段类型必须被充分实例化。优点：神经网络在执行一般估计功能时非常强大。他们一般能够和其他方法一样执行预测任务，有时甚至执行得更好。同时，训练和应用神经网络需要用户掌握的统计和数学知识很少。Clementine 中包含几项特有的功能，用以避免运用神

11、经网络时的一些常见问题，包括：敏感度分析辅助解释神经网络结果，修剪和验证以避免过度训练，动态网络以自动找出合适的网络结构设计。21.3.121.3.1神经网络节点页签神经网络节点页签图图21-8 神经网络节点对话框模型页签神经网络节点对话框模型页签模型名称：指定要生成的神经网络名称。（1）自动：选择该选项后，模型名称将根据目标字段名自动生成，这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。训练方式：Clementine为建立神经网络模型提供六种训练方式：（1）快速：这种方法采用粗略估计方法，根据数据特征选择神经网络的合适类型（拓扑结构），需要注意的是计算

12、隐藏层默认规模的方法已经与 Clementine 以前的版本不同。新的方法通常会生成更小规模的隐藏层，训练起来更快，生成的模型更好。如果发现采用默认规模的隐藏层得到的模型精确度较低，用户可以尝试通过“专家”页签提高隐藏层规模或者使用别的训练方法。（2）动态：这种方法首先创建一个初始拓扑结构，然后随着训练的进展添加或剔除隐藏单元以修改拓扑结构。（3）多重：这种方法创建拓扑结构不同的几个神经网络（具体的数目取决于训练数据的情况）。随后这些网络以伪平行方式训练。在训练结束时，RMS错误最小的模型代表最终的模型。（4）修剪：这种方法以一个大型神经网络开始，随着训练的进行剔除（修剪）隐藏层和输入层

13、的最差单元。这种方法通常很慢，但是常常生成比其它方法更好的结果。（5）径向基函数网络（RBFN）：径向基函数网络(RBFN)使用类似于K-Means 聚类的方法，根据目标字段值拆分数据。（6）彻底修剪：这种方法与“修剪”方法有关。这种方法以一个大型神经网络开始，随着训练的进行剔除（修剪）隐藏层和输入层的最差单元。由于是彻底修剪，神经网络训练参数的选择要确保对可能模型空间进行彻底的搜索以选出最好的模型。这种方法通常是最慢的，但是常常生成最好的结果。需要注意的是这种方法会花很长的时间训练数据，特别是训练大型数据集。预防过度训练：选择该选项后数据随机被拆分成训练集和验证集。网络在训练集中训练，

14、而精确度则根据验证集估计。可以在“样本”框中指定用于训练的数据比率。（数据集中的其余部分用于验证）。设置随机数种子：如果没有设置随机数子，则用于初始化神经网络权值的随机数序列在每次执行节点时各不相同。这样，即使神经网络设置和数据值完全一样，节点也会在各次执行生成不同的模型。选择该选项后，可以把随机数种子设置成某一具体值，这样结果模型就完全可再现。一个确定的随机数种子总是生成相同的随机数序列值，这样执行该节点总是生成同样的模型。停止于：可以从以下终止准则中选择一个：（1）默认：在这一设置下，网络将在其看起来达到最佳训练状态时停止训练。如果该设置与“多重”训练方法一起使用，训练不好的神经网络在

15、训练过程中将被舍弃。（2）精确性：选择该选项后，训练将一直持续直到达到指定精确度。也许永远不能达到指定精确度，但是可以在任意点终止训练并保存目前达到的最高精确度。（3）周期：选择该选项后，训练将持续指定的循环数（通过数据的循环数）。（4）时间（分钟）：选择该选项后，训练将持续到指定的时间（以分钟计算）。优化：设置Clementine的优化策略。（1）速度：选择“速度”使算法执行加快，但是占用更多的内存。（2）内存：选择“内存”使执行速度减慢，但节约内存。神经网络节点选项页签神经网络节点选项页签图图21-9 神经网络节点对话框选项页签神经网络节点对话框选项页签继续训练现有模型：在默认

16、设置下，每次执行神经网络节点时，会创建一个全新的网络。如果选择了该选项，训练继续使用上次节点成功产生的网络。节点可以正确处理各次执行间训练方法的不同，但是RBFN 网络不能用于其它类型的网络。因此，当训练方法改成 RBFN 或者从 RBFN 改成其它方法时，节点的执行总是会创建新的神经网络。使用二进制集合编码：如果选择了该选项，Clementine会对集合字段使用压缩性二进制编码。在使用带有大量值的集合字段作为输入字段时，该选项使建立神经网络模型更加容易。但是，如果使用该选项，可能需要提高网络结构的复杂性（通过添加更多的隐藏单元或者隐藏层）以使网络正确使用二进制编码集合字段中的压缩信息。显

17、示反馈图形：如果选择了该选项，用户会看到一张显示神经网络一段时间内学习过程中的精确度。此外，如果选择了生成日志文件，会看到另一张图，显示训练集合和检验集度量（在下面定义）。模型选择：在默认设置下，如果训练被中断，节点会返回最好的神经网络作为生成网络节点。也可以要求节点返回“最终模型”。敏感度分析：选择该选项后，在网络训练结束后，节点会执行输入字段的敏感度分析。敏感度分析提供哪些输入字段对于预测输出字段是更重要的信息。（这些结果是模型信息的一部分，可以在模型结果浏览器中获得）。生成日志文件：如果选择了该选项，有关训练进展的信息会被写入指定的日志文件。要改变日志文件，可以输入一个日志文件名或者

18、使用自定义（）按钮定位。（如果选择了一个已经存在的文件，新的信息将被附加到该档。）日志文件中各项输入的格式如图21-10所示。其选项如下：（）图图21-10 生成的日志文件生成的日志文件说明：（1）（）按照小时：分钟：秒的格式HH:MM:SS. （2）（）在多重训练模式下表明目前训练的神经网络。对于其它训练模式，值总是“1” （3）（）是一个整数，从零开始每执行一次增加一次。（4）（）分别对神经网络在训练数据集和检验数据集上的表现进行度量。（如果取消选择 “预防过度训练”选项，这些值完全相同）。他们按照预测值和真实值的相关系数平方除以均方误差（MSE）计算。如果同时选择了“生成日志文

19、件”和 “显示反馈图形”，这些度量值会显示在反馈图中，作为对模型的精确度值的补充。神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签各选项随着所选择的训练方式的不同而发生变化。21.2.3.1快速方式专家页签快速方式专家页签快速方式专家页签如图21-11所示。隐藏层：选择神经网络的隐藏层数。更多的隐藏层可以帮助神经网络学习更为复杂的关系，但同时也增加训练时间。层 1，2，3：对每一层，指定其所包含的隐藏单元数。更多的每层隐藏单元数有助于学习复杂任务，但是和附加隐藏层一样，他们也增加训练时间。持续次数：指定未见改进时网络继续训练的次数。更高

20、的持续次数可以避免神经网络的局部最小，但是同样增加训练时间。图图21-11 快速方式专家页签快速方式专家页签多重方式专家页签多重方式专家页签图图21-12多重方式专家页签多重方式专家页签拓扑：指定用于训练的神经网络的拓扑结构。拓扑结构通过指定每层的隐藏单元数给出，各单元数之间用逗号隔开。使用适当的参数数目，拓扑布局可以指定1到3个隐藏层。比如，一个只有一层隐藏层，隐藏层有十个单元的网络可以指定为 10；有三个隐藏层，隐藏层所含单元分别为10，12，15的网络可以指定为 10，12，15。也可以提供用空格隔开的2到3个数字来指定一层中的隐藏单元范围。如果给的是两个数字，将创建一系列的神经网络

21、，其包含单元数分别对应于第一个数字和第二个数字之间的各个整数（包括这两个数字）。比如，要生成每层分别含10，11，12，13和14个隐藏单元的神经网络，指定为10 14。要生成有两个隐藏层，第一个隐藏层所含隐藏单元范围为10到14，第二个隐藏层所含隐藏单元为8到12，则指定为 10 14，8 12。在这种情况下，会生成包括所有可能的组合值的神经网络。如果给出第三个值，则用作第一个值到第二个值之间的增量。比如，要生成具有 10，12，14，16 个隐藏单元的类神经网络，指定为 10 16 2。最后，可以提供多重网络拓扑结构，用分号隔开。比如，要分别生成只有一个隐藏层，隐藏层所含单元为10，12

22、，14，16，以及有两个隐藏层，第一个隐藏层有10个隐藏单元，第二个隐藏层有7到10个隐藏单元的神经网络，指定为 10 16 2；10，7 10。丢弃非四棱锥：四棱锥型是指每一层隐藏单元数不多于前一层的神经网络。这种网络通常比非四棱锥型网络训练得好。选择该选项丢弃不是四棱锥型的网络。持续次数：指定未见改进时网络继续训练的次数。修剪方式专家页签修剪方式专家页签图图21-13 修剪方式专家页签修剪方式专家页签隐藏层：选择初始网络（修剪前）的隐藏层数。层 1，2，3：指定在初始网络（修剪前）中每一隐藏层包含隐藏单元数。初始层数应该比使用其它训练方法的层数略微大一些。隐藏速率：指定在单个隐藏单元

23、修剪中被剔除的隐藏单元比率数。隐藏持续次数：指定在训练未见改进时执行的隐藏单元修剪操作次数。输入速率：指定在单个输入单元修剪中被剔除的输入单元比率数。输入持续次数：指定在训练未见改进时执行的输入单元修剪操作次数。持续次数：指定在训练未见改进时，网络在尝试修剪前的训练次数。总体持续次数：指定在训练未见改进时进行的隐藏单元修剪/输入单元修剪次数。在使用预设停止模型时，运用该选项。RBFN RBFN 专家页签专家页签图图21-14 RBFN专家页签专家页签RBFN聚类：指定使用的径向基函数个数或者聚类个数。这对应于隐藏层的大小。持续次数：指定在训练未见改进时网络继续训练的次数。 RBF重

24、叠：在RBFN中隐藏单元代表定义数据集中类别或区域的径向基函数。该参数有助于控制重叠的区域或类别。在训练中，正常情况下记录只影响距离最近的类别。通过提高这个参数，可以增加每个隐藏单元的关联区域，使记录能够影响更远的类别。此处应指定一个正实数。21.3.2 21.3.2 21.3.2 21.3.2 神经网络节点学习速率神经网络节点学习速率神经网络节点学习速率神经网络节点学习速率神经网络训练由几个参数控制。这些参数可使用神经网络节点对话框的“专家”页签来设置。 Alpha：一个用于更新训练时的权值的动量。动量倾向于保持权值沿一致方向变动。要求指定0到 1之间的一个值。较高的 Alpha值有助于避免

25、网络的局部极小值。 Eta：即学习速率，控制每次网络升级时权值的调整幅度。除 RBFN方法 Eta值恒为常数外，对其他所有训练方法，Eta值随着训练的进行而变化。初始 Eta值是 Eta 的起始值。在训练中，Eta 从初始值开始，降低到 Eta 低值，然后重置为 Eta 高值，又再次降低到 Eta 低值。最后两步反复进行，直到训练结束。Eta 衰减指定Eta 开始降低时的比率，表示为从 Eta 高值到 Eta 低值的循环数。对每一个 Eta 选项都要指定值。21.3.321.3.321.3.321.3.3生成神经网络节点生成神经网络节点生成神经网络节点生成神经网络节点生成神经网络节点表现了由

26、神经网络节点创建的网络。它们包含了由训练过的网络所提取的所有信息，以及关于神经网络特点的信息。查看关于神经网络的信息，用鼠标右键点击生成神经网络节点并且从内容菜单中选择“浏览”选项。通过在生产模型选项板中选择图标，用户可以将网络模型加入到流中，而后点击流来选择用户想将节点所放置的地点，或用鼠标右键点击图标从内容菜单中选择“加入流”。然后将用户的流与这个节点连接，以便用户将数据输入网络模型进行预测。输入生成模型节点的数据必须包括相同的输入字段，相同的类型，如同用于创建的训练数据。当用户执行一个包括一个生成神经网络节点的流时，神经网络节点从原始的训练数据处为每一个输出字段加入了一个新的字段。

27、这个新字段包括了相对应的输出字段的网络预测。每个新预测字段的名称是每个被预测的输出的字段的名称，将“$N-”加在每个字段的前面，对于符号型输出字段，也可以增加第二个新字段，包括对于这次预测的置信度，置信度字段的命名也是同一方式，将“$NC-”加在每个原始输出字段的前面。如图21-15所示为生成的神经网络节点。图图21-15 生成的神经网络节点生成的神经网络节点在一个包含连续预测相同输出字段的多个生成网络节点的流中，新的预测及置信度域名将包含用于将它们与彼此区别开来的数目。流中的第一个网络节点将使用平常名称，第二个节点将使用以“$N1-”和“$NC1-”开头的名称，第三个节点将使用以“$N2-”

28、和“$NC2-”开头的名称，以此类推。如图21-16所示为流程中有多个神经网络节点的情况。图图21-16流程中有多个神经网络节点流程中有多个神经网络节点神经网络的置信度：神经网络的置信度是为符号型输出字段而提供的，它们的计算是：（1）标志数据：置信度可如下计算： abs(0.5-Raw Output)*2 神经网络会对每笔数据进行预测，输出的值将介于 01之间，若大于0.5 则归为 True 类，小于0.5 则被归为False 类，若有一笔数据的预测值是 0.82 ，则这笔数据会被分为 True 类，且置信度为 abs(0.5-0.82)*2=0.64（2）集合数据：集合类输出字段将为神经网

29、络在内部转化为标志型，因此预测变量的每个输出字段类型都会有一单独的粗糙输出值，值皆介于01之间，置信度将以（最高刻度值-第二高刻度值）来计算。例如，假设有一笔数据要分成四种颜色，红色的预测值为 0.32，蓝色的预测值为 0.85，绿色的预测值为 0.04，紫色的预测值为 0.27，则此笔数据会被分为蓝色类，且置信度为 0.85-0.32=0.53 生成一个过滤节点：“生成”菜单允许用户生成一个新的过滤节点来传送建立在模型结果上的输入字段。21.3.421.3.4生成神经网络节点汇总页签生成神经网络节点汇总页签图图21-17 生生成成神神经经网网络络节节点点对对话话框框汇汇总总页页签签分析：分

30、析部分展开网络预测的准确性信息，网络的拓扑或体系结构，及相关字段的重要性，如同敏感性分析所定义的一样（如果用户需要）。如果用户已经执行一个附加在这个建模节点的分析节点，则分析的相关信息也会显示在这个部分中。（1）估计的精确性：这是关于预测准确性的指标。对于符号型输出，只是一个关于预测值正确的记录的比例。对于数值型目标，计算是建立在训练数据的预测值与真实值的差上。寻找数值型字段的精度的计算公式是：（0.5-abs(真实值-预测值)/（输出域值的范围（字段最大值-最小值）*100%每个字段的精度都是如此计算，而总体的精度是训练数据中所有记录值的均值。（2）体系结构：在网络中的每个层（输入层、隐藏层

31、、输出层）中的单元数目被列出。（3）输入的相对重要性：这个部分包括用户需要的敏感性分析的结果。输入字段按照重要性进行列表，从最重要的到最不重要的。每个被列表的输入值均是它们的相对重要性的测度，变化范围介于01之间。字段：这个区域将建模过程中作为目标的字段和输入字段列表。构建设置：这个区域包括在建模过程中使用的关于设置的信息（包括使用分区数据、训练方式、停止条件、设置随机数种子、预防过度训练、样本和优化等）。训练概要：这个区域展示了模型类型、流、用户、构建日期、应用软件、模型构建所用的时间等。21.4 21.4 C5.0C5.0算法生成决策树算法生成决策树该节点使用C5.0算法生成决策树或者规则

32、集。C5.0模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个字段进行拆分，这一过程重复进行直到样本子集不能再拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或者修剪。C5.0节点可以生成两种模型。决策树是对这种算法的拆分的直观描述。每一个终端，或者说叶子节点描述了训练数据的一个特定子集，而训练数据集中的每一种情况恰好属于树上的一个终端节点。与此相反，规则集是规则的集合，试图对单个的记录作出预测，规则集从决策树中推出，从某种意义上说，以一种简化或者提炼的方式陈述决策树中的信息。规则集通常能保留决策树中的绝大多数有用

33、信息。但是使用的模型没有那么复杂。鉴于规则集的工作方式，它们不具有和决策树相同的特征。最大的区别在于，使用规则集，可能有一个以上的规则适用于任一特定的记录，或者根本没有规则适用于该记录。对于多个规则的使用，每一个规则根据与其相关的可信度获得加权“投票”，最后的预测是通过综合适用于所考虑的记录的所有规则的加权“投票”来决定。如果没有规则可用，则默认的预测被指派给该记录。要求：要训练C5.0模型，需要一个或更多的输入字段以及一个或更多的字符型输出字段。设置为“两者”或者“无”的字段将被忽略。模型中所用字段其类型必须被充分实例化。优点：C5.0模型在面对数据缺失和输入字段很多的问题是非常稳健的。C5

34、.0模型通常不需要很长的训练次数进行估计。此外，C5.0模型比一些其它类型的模型易于理解，因为从模型推出的规则有非常直观的解释。C5.0也提供强大的增强技术以提高分类的精度。C5.0C5.0节点模型页签节点模型页签图图21-19 C5.0节点对话框模型页签节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将根据目标字段自动生成。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户自定义的模型名称。输出类型：此处指定希望最终生成的模型是决策树还是规则集。群体字符：如果选择了该选项，C5.0 会尝试将所有与输出字段格式相似的字符值合并。如果没有选

35、择该选项， C5.0 会为用于拆分母节点的字符字段的每个值创建一个子节点。例如，如果 C5.0按 COLOR 字段（包括 RED、GREEN和 BLUE 三个值）拆分，则预设创建三向拆分。但是，如果选择了该选项，并且 COLOR=RED的记录与 COLOR=BLUE 的记录非常相似，则将创建二向拆分，COLOR 为 GREEN的记录被分成一组，而 COLOR 为RED和 BLUE 的记录合为一组。使用推进：C5.0 算法使用被称作推进的方法提高其精确率。这种方法按序列建立多重模型。第一个模型以通常的方式建立。随后，建立第二个模型，聚焦于被第一个模型错误分类的记录。然后第三个模型聚焦于第二

36、个模型的错误，等等。最后，应用整个模型集对样本进行分类，使用加权投票过程把分散的预测合并成综合预测。助推可以显著提高 C5.0 模型的精确度，但是同时也需要更长的训练时间。“试验次数”选项允许控制用于助推的模型数量。这部分内容基于 Freund&Schapire 的研究成果，并进行一些专利性改进，以更好的处理噪声数据。交叉验证：如果选择了该选项，C5.0 将使用一组基于训练数据子集建立的模型，来估计基于全部数据建立的模型的精确度。如果数据集过小，不能拆分成传统意义上的训练集和测试集，这将非常有用。在计算了精确度估计值后，用于交叉验证的模型将被丢弃。可以指定倍数，或用于交叉验证的模型数目。建模

37、和交叉验证同时执行。模式：对于简单的训练，绝大多数 C5.0参数是自动设置。“专家”模式选项允许对训练参数更多的直接控制。其设置如下：1.简单模式选项支持：在默认设置下，C5.0 会生成尽可能精确的决策树。在某些情况下，这会导致过度拟和，使模型在应用于新的数据时表现较差。选择 “普遍性”项以使用不易受该问题影响的算法设置。预期的干扰（%）：指定训练集中的噪声或错误数据期望比率。 2.专家模式选项修剪严重性：决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小，更简洁的决策树。降低纯度值将获得更加精确的决策树。每个子分支的最小记录数：子群大小可以用于限制决策树任一分支的拆分数。只有

38、当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数，决策树才会继续拆分。默认值为 2，提高该值将有助于避免噪声数据的过度训练。辨别属性：如果选择了该选项，C5.0 会在建立模型前检验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段的模型非常有用，并且有助于避免过度拟和。C5.0C5.0C5.0C5.0节点成本页签节点成本页签节点成本页签节点成本页签C5.0节点对话框成本页签用于显示错误归类损失矩阵。在某些情况下，特定类型的错误比其它类错误所引起的损失更大。例如，把高风险信用卡申请者归入低风险信用类（一种错误）比把低风险信用卡申请者归入高风险类（

39、另一种错误）损失要大。错误归类损失允许指定不同类型预测错误之间的相对重要性。即成本对比，如图21-20所示。错误归类损失矩阵显示预测类和实际类每一可能组合的损失。所有的错误归类损失都默认设置为 1.0。要输入自定义损失值，选择“使用误分类成本”，然后把自定义值输入到损失矩阵中。要改变一个错误归类损失值，选择对应于想要改变的预测类与实际类组合值的单元，删除单元中已存内容，然后输入期望损失值。图图21-20指定错误归类损失指定错误归类损失21.5 21.5 C&RTC&RT基于树的分类预测基于树的分类预测C&RT节点（即分类回归树节点）是基于树的分类预测方法。与 C5.0 相似，该方法采用递归

40、分割方法把输入字段值相似的训练集根据输出字段拆分成不同的类。分类回归树首先检查输入字段以找出最佳分割，分割好坏用分割引起的杂质减少指数度量。一次拆分定义两个子群，每个子群随后又再被分割成两个的子群，如此下去，直到达到触发某一终止准则。要求：要训练分类回归树模型，需要至少一个输入字段，恰好需要一个字符型输出字段。输出字段既可以是数值型，也可以是字符型。设置为“两者”或者“无”的字段将被忽略。模型中使用的字段类型必须被充分实例化。优点：分类回归树模型在遇到诸如缺失值和字段数量很多等问题时非常稳健。分类回归树模型通常不需要用很长的训练时间估计模型。此外，分类回归树模型比其它一些类型的模型易于理

41、解从模型中导出的规则有直观的解释。与 C5.0 不同，分类回归树模型既可以提供字符型输出字段，也可以提供数值型输出字段。分类回归树节点页签分类回归树节点页签分类回归树节点页签分类回归树节点页签图图21-21分类回归树节点对话框模型页签分类回归树节点对话框模型页签分类回归树节点对话框模型页签如图21-21所示。模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将根据目标字段自动生成。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。构建：提供两个模式，分别是“模型”和“交互

42、树”。如果选择后者模式，可根据需要选择“使用树指令”预先设置节点分类方式。最大树状图深度：指定根节点下的最大层数（样本被递进分区的次数）。分类回归树节点专家页签分类回归树节点专家页签图图21-22分类回归树节点对话框专家页签分类回归树节点对话框专家页签最大代理数：代理是处理缺失的一种方法。对于树中的每一次分区，分类回归树识别与分区字段最相似的输入字段，这些字段是该分区字段的代理。如果必须对某一记录分类，而该记录分区字段有缺失值，则该记录分区字段的代理字段值可用于分区。提高该项设置值使对缺失值的处理更加灵活，但是也可能增加内存使用大小和训练次数。最小杂质改变：指定在树中进行新的分区所需的最小杂质

43、改变量。如果某一分支的最佳分区引起的杂质改变量低于指定值，则不会进行分割。分类目标字段的杂质度量：这些选项允许选择度量树的杂质的方法。杂质是指树所定义的子群的输出字段的变化范围。分类回归树的目标是生成子群，以使每一子群倾向于有相同或者相似的输出值换句话说，最小化树的杂质。“吉尼” 是基于分支类别机率的一般杂质度量方法、“两分” 是加重二元分区的杂质度量方法，更易在分区中生成大致等规模的分支。该选项只影响字符型目标字段的分区，数值型目标字段总是使用最小平方偏差杂质度量方法。停止：这些选项允许控制决定终止分区节点的准则。要了解更详细的内容，参见“21.4.3 分类回归树节点停止选项”。修剪树

44、：修剪的内容是剔除不能显著提高树的精确度的下级分区。修剪可以简化分类回归树，使其更容易解释，而且在某些情况下提高树的一般性。如果想要整个树而不作任何修剪，取消选定该选项。使用标准误法则：该选项允许用户指定更加自由的修剪法则。标准误修剪法则让分类回归树选择最简单的树，其风险估计值接近（但是可能大于）风险最小子树的风险估计值。“乘数”表明修剪树与具有最小估计风险的子树之间的允许估计风险差异程度。例如，如果指定为“2”，则可能选择其估计风险比整棵树标准误的二倍还要大的树。先验概率：这些选项允许设置目标字段类别的先验概率。要了解更详细的内容，参见“21.4.4分类回归树先验概率选项”。分类回归树节

45、点停止选项分类回归树节点停止选项这些选项控制树的构造。停止法则决定何时终止分区树的具体分支。设置最小分支数目以避免分割出过小的子群。“父分支（%）中的最小记录数”避免在被分割节点（父节点）记录数小于指定值时对该节点的分割。“子分支（%）中的最小记录数”避免在拆分节点所生成每一分支记录数均小于指定值时对该节点的分割。使用百分比：允许按照占整个训练集的百分比来指定大小。使用绝对值：允许用绝对记录数来指定大小。图图21-23 分类回归树节点停止选项分类回归树节点停止选项分类回归树节点先验概率选项分类回归树节点先验概率选项这些选项允许在预测字符型目标字段时指定各类的先验概率。先验概率是目标字段

46、每一类在训练集所描述的总体中的相对次数的估计值。换句话说，先验机率是在根本不知道预测值前对每个可能的目标字段值所作的概率估计。有三种设置先验概率的方法，分别是：基于训练数据：这是默认设置。先验机率基于各类在训练集中的相对次数。对于所有类都相等：各类的先验机率指定为 1/k，k 为目标类数。图图21-24分类回归树节点先验概率选项分类回归树节点先验概率选项定制：可以用户指定先验概率。先验概率起始值为各类相等。可以将各类的先验概率调整为用户定义值。要调整某一具体类的概率，选择表格中对应于该类的概率单元格，删除单元格中的内容，输入指定值。所有类的先验概率值总和为 1.0（概率约束）。如果和

47、不为 1.0，Clementine会给出警告并自动规范化各值。这项自动调整在实施概率约束的同时保留各类的比例。可以在任何时候点击“标准化”按钮进行调整。要把表格中值重置为各类值相等，点击 “均衡”按钮。使用错误分类损失调整先验概率：该选项允许根据错误分类损失调整先验概率。对于使用“两分”杂质度量的分类回归树，该选项将损失信息直接置入树的生长过程。（如果没有选择该选项，则损失信息只在基于“两分”杂质度量时，用于对记录分类和计算树的风险估计值）。分类回归树节点成本页签分类回归树节点成本页签图图21-25分类回归树对话框成本页签分类回归树对话框成本页签21.5.421.5.4生成决策树生成决策树

48、图图21-26 C&RT节节点点对对话话框框模模型型页页签签当模型页签打开时，规则部分一开始是隐藏的，只有规则标签是可视的。若要打开一个目录或一条规则，使用左边的“扩展”控件，或双击该项。工具栏提供了扩展或隐藏多个规则的控件。决策树是通过递归的分割基于输入域值的数据来工作的。数据分割被称为分支。根包含了所有的数据记录。基于特定的输入阈值，根被分割为子集或子分支。每个子分支可以进一步分支为子分支，以此反复。树的最底层是没有子分支的。这类分支被称之末端分支或叶子。决策树浏览器展示了定义每次分割或分支的值以及在分割中的一条对记录的输出阈值的总结。如果用户从工具栏中选择“显示/隐藏实例和置信度图

49、表”按钮，每条规则也会显示运用规则的记录数的信息和这些规则成立的记录的比例。如果用户选择工具栏中的“显示附加信息面板”按钮，在底部窗口将会出现一个包含了所选规则的细节信息面板，这个信息面板包括三个页签，分别是：历史：这个页签记录了从根节点到所选节点的分裂条件。这提供了一个决定何时将一个记录赋值给所择节点的一系列条件。所有条件为真的记录将被赋值给该节点。如图21-27所示。图图21-27 展示了历史页签的模型页签展示了历史页签的模型页签频数：对于带有符号型目标字段的模型，该页签对每个可能的目标值，显示了包含该目标值的节点的记录数目（如图21-28所示）。对于带有数值型目标的模型，这个页签是无效的

50、。图图21-28展示了频数页签的模型页签展示了频数页签的模型页签代用项：对于C&RT模型，最初始的分裂和对于被选择节点的任何以此代替分裂均被显示。这告诉用户带有缺失值的记录对于初始分裂将如何在分裂时被分类（如图21-29所示）。图图21-29 展示了代用项页签的模型页签展示了代用项页签的模型页签决策树查看器页签决策树查看器页签查看器页签展示了一个对于树形结构的详细的图表展示（如图21-30所示）。图图21-30生生成成C&RT节节点点对对话话框框查查看看器器页页签签在大部分的案例中，由于全部树的大小，只有它的一部分可以在决策树浏览中看见。用户可以滚动窗口来浏览树的其它部分，或者使用树的

51、地图窗口（如图21-31所示）来定位某个不同的树的区域。显示树的地图窗口，只需点击工具栏中的树形地图按钮。图图21-31 地图窗口地图窗口用户可以展示树中的每一个节点，通过点击工具栏的按钮展示为列表显示或图形显示，或两者兼有。用户也可以使用工具栏上的按钮来更改树形展示方向（上下、左右、右左）。用户可以为了展示的需要把树的分支扩展和隐藏。默认为树上的所有分支均被扩展。点击一个父支节点附近的折叠号（-）来隐藏它所有的子支节点。点击一个父支节点附近的扩展号（+）来显示它所有的子支节点。节点统计量：对于符号型目标字段，这个表显示了每个种类的记录和数量和百分比，以及节点所代表的整个样本的百分比。对

52、于一个排列的目标字段，这个表显示了平均值、标准偏差、记录的数量和目标字段的预测值。节点图表：对于符号型目标字段，图表是一个目标字段的每个种类的百分比的条形图。在表中的前几行是一个彩色的表，不同彩色对应代表了节点图中的每个目标字段种类，对于一个排列的目标字段，这个表展示了节点中记录的目标字段的一个直方图。决策树汇总页签决策树汇总页签图图21-32C&RT节节点点对对话话框框汇汇总总页页签签在一个决策树节点的汇总页签中，用户可以查看关于模型本身的信息，在模型中使用的字段，建模过程中的设置，以及训练总结。如图21-32所示是C&RT节点的汇总页签。当用户第一次浏览一个决策树节点时，汇总页签一开始是隐

53、藏的。为了看到所感兴趣的结果，用户可以使用该项目左边的扩展号（+）来展示结果，或使用“全部扩展”按钮来展示所有结果。当查看完后想隐藏结果时，使用折叠号（-）来使用户所想要隐藏的特殊结果隐藏，或使用“全部折叠”按钮来使所有结果隐藏。分析：展示了决策树的深度。字段：列出在建模过程中使用的目标字段和输入字段。构建设置：包括了建模过程中使用的设置信息。训练概要：展示了模型类型、流、用户、构建日期、应用软件、模型构建所用的时间等。21.5.4.221.5.4.2从决策树生成规则集从决策树生成规则集用户可以指定下列选项来将树变为一个规则集：规则集名称：允许用户来指定新的形成的规则集节点的名称。创建节点位置

54、：控制新生成的规则集节点的位置。选择工作区（流区域）、GM选项板（生成模型面板）、或两者都选。最小实例数：指定在生成的规则集中将被保存的规则的最小实例数。该有实例数的规则若小于指定值，将不会显示在新的规则集中。最低置信度：指定在形成的规则集中将被保存的规则的最低置信度。带有置信度的规则若小于指定值，将不会显示在新的规则集中。图图21-33 生成规则集对话框生成规则集对话框QUESTQUESTQUESTQUEST节点模型页签节点模型页签节点模型页签节点模型页签图图21-34 QUEST节点对话框模型页签节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将根据目

55、标字段自动生成。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。构建：提供两个模式，分别是“模型”和“交互树”。模型：直接给出最终模型。交互树：启动“指令”，可以逐层建立，修改和删除节点。“使用树指令”选项可以指定任意层节点的分区方式或子节点数，所做设置也可以保存，以供下次建树使用。最大树状图深度：指定根节点下的最大层数（样本被递进分区的次数）。QUESTQUEST节点专家页签节点专家页签图图21-35 QUEST节点对话框专家页签节点对话框专家页签最大代理数：当某记录有缺失值时，QUES

56、T节点会根据与其相似的记录所归入节点的取值进行替代。用于分割的Alpha值：设置分裂标准，显著水平越低，则树的分叉越少。停止：设置结束建树过程的终止条件。其选项与C&RT的停止标准相同，这里不在累述。请参阅“21.4.3分类回归树节点停止选项”。修剪树：可以选择“使用标准误规则”，已删除分类不纯的节点。先验概率：针对特定的类别设置先验概率，以反映已经掌握的关于分类的知识。其选项与C&RT的先验概率相同，这里不在累述。请参阅“21.4.4分类回归树节点先验概率选项”。QUESTQUEST节点成本页签节点成本页签图图21-36 QUEST节点对话框成本页签节点对话框成本页签21.6 21.6 21

57、.6 21.6 KohonenKohonenKohonenKohonen网络模型网络模型网络模型网络模型Kohonen 节点用于创建和训练一类被称作 Kohonen 网络、knet或者自组织映像的特殊神经网络。当刚开始并不知道数据集包括哪些类别时，可采用这种网络将数据汇总成差别明显的不同类别。与 Clementine 中的绝大多数算法不同，Kohonen 网络并不使用目标字段。这种没有目标字段的学习被称作无监督的学习。Kohonen 网络并不尝试去预测某一结果，而是试图揭示输入字段中的特征。记录被分成群体，这样同一类别中的记录彼此相似，而不同类别中的记录截然不同。一个 Kohonen 网络由

58、一个输入单元层和一个处理单元的二维输出网组成。在训练过程中，每个单元都与其它单元竞争获得每个记录。当一个单元获得了一个记录，其权值（同样包含那些邻近的单元）调整为更加匹配该记录的预测所属类别。随着训练的进行，网格上单元的权值不断调整以形成一张聚类的二维映像（自组织映像由此而得）。通常，Kohonen 网络形成时会有少部分单元包括许多观察值（强单元），以及几个不对应于任何观察值的单元（弱单元）。强单元（有时是在网格中与他们相邻的单元）代表可能的聚类中心。 Kohonen 网络的另一个用法是进行维度归约。二维网的广阔性特征使得可以从最初的 k 个变量衍生出两个保持初始预测值相似性关系的特征。在某

59、些情况下，这可以给用户带来和因素分析或主成分分析一样的便利。注意：计算输出网格预设大小的方法已经与 Clementine 以前的版本不同。一般而言，新的计算方法能生成更小的输出层，训练速度更快，综合性更强。如果发现使用默认大小得到较差的结果，尝试通过高级设置提高输出网的大小。要了解更多的内容，参见“21.7.2 Kohonen 节点专家页签”。要求：要训练 Kohonen 网络，需要至少一个“输入”字段。设置为“输出”，“两者”，或者“无” 的字段会被忽略。优点：建立 Kohonen 网络模型无须一组一组的数据。用户甚至不需要知道要找出多少组。Kohonen 网络从一大堆单元开始，随着训练

60、的进展，各单元能够反映数据的自然分类结构。可以通过生成模型中每个单元捕获的观察值数来识别强单元，这可以使用户感觉到数据分多少类。KohonenKohonen节点模型页签节点模型页签图图21-40 Kohonen节点对话框模型页签节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将为“Kohonen”。这是默认的设置。（2）定制：选择该选项可以为节点创建的模型指定使用者自定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。继续训练现有模型：在默认设置下，每次执行Kohonen节点时，会创建一个全新的网络。如果选择了改选项，

61、训练继续使用上次节点成功产生的网络。显示反馈图形：如果选择了该选项，在训练中会显示二维数组的可视化表述。每个单元的强度用颜色表示。红色表示获得许多记录的单元（强单元），而白色表示获得极少记录或者根本没有获得记录的单元（弱单元）。需要注意的是选择这一项会增加训练时间。要加快训练，可以取消该选项。停止于：“默认”终止准则根据内置参数终止训练。也可以指定“时间”为终止准则。（输入网络训练时间以分钟为单位。）设置随机数种子：如果没有设置随机种子，则用于初始网络权值的随机数序列在每次执行节点时各不相同。这样，即使各节点设置成某一具体值，这样结果模型就完全可再生。一个确定的随机种子总是生成相同的随机数序列

62、，这样执行该节点总是生成同样的模型。优化：提高算法效率的选项，具体有两种方式：（1）速度：选择“速度”使算法执行加快，但占用更多的内存。（2）内存：选择“内存”使执行速度减慢，但节约内存。21.6.1 21.6.1 KohonenKohonen节点专家页签节点专家页签图图21-41Kohonen节点对话框专家页签节点对话框专家页签宽度和长度：指定二维输出表的大小，用每个方向上的单元数表示。学习速率衰减：指定“线性”或者“指数”学习速率衰减。学习速率是随时间推移而减少的权重因子。这样网络可以从数据开始编码，然后逐渐集中到更加细微水平的细节上去。阶段1和阶段2：Konenon网络训练被拆分成两个阶

63、段。阶段1是粗略估计阶段，用于获取数据中的大致特征。阶段2是一个调整阶段，用于调整自组织映像以使其模型化数据细化特征。对每一个阶段，有以下三个参数：（1）近邻：设置近邻的起始大小（半径）。该选项决定在训练期间随获取单元更新的邻近的单元数。在阶段1，近邻大小从“阶段1近邻”开始然后减少到“阶段2近邻+1”。在阶段2，近邻大小从“阶段2近邻”开始然后减少到1.0。“阶段1近邻”应当大于“阶段2近邻”。（2）初始Eta：设置学习速率Eta值的开始值。阶段1中，Eta值从“阶段1初始Eta”值开始，然后减少到“阶段2初始Eta”值。阶段2中，Eta值从“阶段2初始Eta”值开始，减少到0.“阶段1初始

64、Eta”值应当大于“阶段2初始Eta”值。（3）周期：设置每一训练阶段的循环次数。每一时期按照指定的次数持续通过数据。 21.6.221.6.2生成生成 KohonenKohonen 节点节点生成的 Kohonen 节点代表了由 Kohonen 节点生成的 Kohonen网络。它们包含被训练的网络获取的所有信息，以及关于 Kohonen 网络体系结构的信息。查看关于 Kohonen 网络模型的信息，用鼠标右键点击生成的 Kohonen 节点并从内容菜单中选择 “浏览” 选项（或从一个流中选择 “编辑”）。通过在生产模型选项板中选择图标，用户可以将Kohonen模型加入到流中，而后点击流来

65、选择用户想将节点所放置的地点，或用鼠标右键点击图标从内容菜单中选择“加入流”。然后将用户的流与这个节点连接，以便用户将数据输入Kohonen模型进行预测。输入生成模型节点的数据必须包括相同的输入字段，相同的类型，如同用于创建的训练数据。当用户执行一个包含生成Kohonen 节点的流时，Kohonen 节点增加了两个与 Kohonen 输出格对应单元记录响应最强烈的包含了X与Y的新字段。这些新字段名称是由模型名称衍生而来的，加上$KX-和$KY-做为前缀。如图21-42所示为生成的Kohonen节点。图图21-42生成的生成的Kohonen节点节点一个查看 Kohonen 网络结果的有用方式是

66、利用一个散点图节点来画出$KX-和$KY-字段图。（用户应该选择散点图节点中的 X-Agitation和Y-Agtation来防止每个单元的记录全被覆盖画图）。在散点图中，用户也可以重叠一个符号型字段来查看 Kohonen 网络是如何进行数据聚类的，如图21-43所示。图图21-43用散点图查看用散点图查看 Kohonen 网络的数据聚类网络的数据聚类图图21-44 生成生成Kohonen节点对话框汇总页签节点对话框汇总页签分析：展示了网络拓扑或体系结构的相关信息。两维 Kohonen 特征图标的长度及宽度（输出层）将以$KX-model_name 和$KY-model_name 展示。对于

67、输入层及输出层而言，在每个层中的单元数被列表展示。字段：列出在建模过程中输入的字段。构建设置：包括了建模过程中使用的设置的信息。训练概要：展示了模型的类型，用来创建它的流，创建它的用户，创建的时间，以及建模所费时间。 21.7 K-Means21.7 K-Means21.7 K-Means21.7 K-Means聚类分析聚类分析聚类分析聚类分析K-Means节点提供了一种聚类分析方法。在最初并不知道数据的分类时，可以采用K-Means把数据聚合成不同的类。与Clementine中的其他学习方法不同，K-Means模型不使用目标字段。这种不使用目标字段的学习方法称作非监督的学习。K-Mea

68、ns不是去预测某一结果，而是从输入字段中发现特征。记录被分成群组，同以群组中的记录彼此相似，而不同群组的记录大不相同。K-Means通过定义一组起始聚类中心进行分类，初始类中心来自数据，然后根据记录的输入阈值把每个记录分到与其最相似的聚类。在分完所有的记录后，更新类中心以反映分到每一类的新的记录情况。然后再次检查记录，已确定是否将其重新分到别的聚类。记录分派/聚类迭代过程一直进行，直到达到最大迭代次数或者前后两次迭代之间的差异未能超过指定阈值。注意：生成模型在一定程度上取决于训练数据的顺序。对数据重新排序，然后重新建立模型，可能会生成不同的最终聚类模型。要求：要训练K-Means模型，需要一个

69、以上的“输入”字段，方向为“输出”、“两者”、“无”的字段将被忽略。优点：建立K-Means模型不需要分组数据。对于大型数据集，K-Means模型常常是最快的分群方法。K-MeansK-Means节点模型页签节点模型页签图图21-45K-Means节点对话框模型页签节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将为“KMeans”。这是默认的设置。（2）定制：选择该选项可以为节点创建的模型指定使用者自定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。指定的聚类数：指定生成的群数。默认值为5。生成距离字段：如果选择了

70、这一项，生成模型将包括一个具有每个记录与其所属聚类中心距离的字段。显示相似度：选择该选项以生成模型的输出结果中包含聚类中心距离。聚类标签：指定生成聚类类别字段的格式。类别可以是“字符串”，可以使用指定的“标签前缀”，或者使用“数值”表示。优化：提高算法效率的选项，具体有两种方式：（1）速度：选择“速度”使算法执行加快，但占用更多的内存。（2）内存：选择“内存”使执行速度减慢，但节约内存。21.7.1 K-Means21.7.1 K-Means节点专家页签节点专家页签图图21-46 K-Means节点对话框专家页签节点对话框专家页签停止于：指定训练模型的终止准则。“默认”终止准则是迭代20次或者

71、差异cheese Apples=dressing Bread=cheese Bread=dressing 而不会得到像“apples=bread”这样的序列，因为apples和bread之间的间隔小于最小距离。也不会得到任何有food的序列，因为dressing和food之间的间隔太大，不能看作序列的一部分。如果同时指定了允许限制和间隔限制，则间隔限制用于一项目集的终止时间与下一个项目集的开始时间之间的间隔。生成序列节点生成序列节点生成序列节点生成序列节点生成的序列规则节点代表了对于一个被序列节点所发现的特定输出字段的序列。与未精炼规则节点不同，生成的序列规则节点可以放在流中进行预测。查看关

72、于序列模型的信息，用鼠标右键点击生成的序列节点并从内容菜单中选择 “浏览” 选项（或从一个流中选择 “编辑”）。用户也可以将一个序列规则节点加入到一个数据流中来产生预测。数据格式必须与建立的序列模型时的数据格式相匹配。当用户执行了一个包含序列规则节点的流时，该节点将从序列模型中把一对包含预测和关联置信度的字段加入到数据中。新的字段元名是从模型名衍生而来的。预测字段的字段名是$S-sequence-n（n代表第n次预测），置信度字段的字段名称是$SC-sequence-n。如图21-71所示为生成的序列节点。由生成序列模型节点进行的预测结果并没有与它们被加入到记录的时间标识相结合。在给定了目前

73、ID的历史事务历史记录指导当前记录情况下，它们仅仅是指在将来的某点最大可能出现的项。生成规则超节点：点击“生成”菜单下的“规则超节点”子菜单，生成一个可检测和计数在打分数据中序列出现次数超级节点。这个选项在没有选中规则时无效。图图21-71生成的序列节点生成的序列节点序列规则模型页签序列规则模型页签图图21-72 序列规则模型页签序列规则模型页签一个序列规则节点的模型页签中，用户可以看见一个包含了由算法提取的规则的表。表中的每一行代表了一条规则。第一列代表结果(规则中的“then” 部分)，紧接着的列代表了前提部分(规则中的“if”部分) 。每个前提代表序列中的一个项，并且项是按照它们在序

74、列中的顺序显示的。如图21-72所示。如果用户从工具栏中选择“显示实例和置信度”，每条规则也将显示对于发生序列的IDs的数目信息（称为实例）、按照IDs统计出的实例在训练数据中所占的比例信息（称作支持度）以及规则成立时，按照IDs统计的成立比例信息。排序方式：排序方式的选项可对规则进行排序。排序方向按钮（）可改变排序方向（升序或降序）。有以下排序关键词可选择：支持度、置信度、规则支持度百分比、后项、第一个前项、最后一个前项、项目数。序列规则汇总页签序列规则汇总页签在一个序列规则节点中的汇总页签中，用户可以查看关于模型本身的信息，模型中使用的字段，建模过程中的设置以及训练概要。如图21-73所

75、示。分析：展示了发掘的规则数，有效事务数，以及规则的最小和最大支持度和置信度。字段：列出可用作ID、内容、值的字段。构建模型：包含了建模过程中使用的设置信息。训练概要：展示了模型的类型、用来创建它的流、创建它的用户、创建的时间、建模所花时间。图图21-73序列规则节点汇总页签序列规则节点汇总页签21.14 21.14 21.14 21.14 主成分主成分/ /因子分析因子分析主成分/因子分析节点提供强大的数据简化技术以降低数据的复杂性。有两种看似相似但是截然不同的简化方法。主成分分析（简称PCA）找出最能够捕捉所有输入字段差异的输入字段的线性组合，线性组合中各字段彼此正交。PCA关注所有

76、方差，包括公共方差和特殊方差。因子分析试图识别一组解释观察字段组内相关结构的概念，或者说因素。因子分析值关注公共方差，在估计模型时不考虑某一具体字段特有的方差。主成分/因子分析提供数种因子分析方法。主成分/因子分析的目标都是找出几个能够有效概括原始字段所含信息的衍生字段。要求：主成分/因子分析模型中只能使用数值型字段。要进行因子分析或主成分分析估计，需要至少一个“输入”字段，方向为“输出”、“两者”或者“无”的字段将和非数值型字段一样被忽略。优点：因子分析和主成分分析可以不牺牲太多的信息内容而有效的降低数据复杂性。这些技术有助于建立比直接使用原始输入字段建立的模型更为稳健、执行更快的模型。主成

77、分主成分/ /因子分析节点模型页签因子分析节点模型页签图图21-76 主成分主成分/因子分析节点对话框模型页签因子分析节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将设为“主成分/因子分析”。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。提取方法：指定用于简化数据的方法。主要有以下几种方法：（1）主成分：这是默认方法，使用PCA找出概括输入字段的成分。（2）未加权最小平方法：这种因子分析方法找出最能重新产生输入字段间关系的因子集。（3）综合最小平方

78、法：这种因子分析方法与未加权最小平方法估计相似，但是它使用加权以弱化有许多特殊方差的字段。（4）最大概似法：这种因子分析方法根据对输入字段间关系形式的假定生成因素方程，该方法最有可能反映观察值输入字段之间的关系。值得一提的是，该方法假定训练集服从多元正态分布。（5）主轴法：该方法与主成分法非常相似，唯一不同的是只关注公共方差。（6）Alaha因素法：这种因子分析方法把分析的因子看做可能输入字段空间的一个样本。这种方法最大化因子的统计可靠性。（7）映像因素法：这种因子分析方法使用数据估计以分离公共方差，并找出解释公共方差的因子。主成分主成分/ /因子分析节点专家页签因子分析节点专家页签图图21-

79、77 主成分主成分/因子分析节点对话框专家页签因子分析节点对话框专家页签缺失值：在默认设置下Clementine只使用模型中所有字段均有有效值的记录。如果有大量缺失值，用户可能会发现这种方法剔除了太多的记录，使用户没有足够的数据生成一个好的模型。在这种情况下，可以取消选择“仅使用完整记录”选项。Clementine会尝试用尽可能多的信息来估计模型，包括某些字段有缺失值的记录。但是，在某些情况下，以这种方式使用不完整记录在估计模型时会引起计算问题。使用：指定是使用输入字段的“相关矩阵”还是使用“协方差矩阵”估计模型。收敛的最大迭代次数：指定估计模型时的最大迭代次数。提取因子：有两种方式选择从输入

80、字段中提取的因子数。（1）特征值超出：选择该选项将保留所有特征值大于指定值的因子或者主成分。特征值衡量每个因子或者主成分概括输入字段集方差的能力。使用“相关矩阵”时，模型会保留所有特征值大于指定值的因子或者主成分。使用“协方差矩阵”时，该准则是指定值与平均特征值的乘积。这一换算使该选项对两种类型的矩阵意义相似。（2）最大数：该选项将按照特征值递减的顺序保留指定数目的因子或主成分。换句话说，将保留对应于最高的前n个特征值的因子或主成分，而n是指定的准则。默认值为5。元素/因子矩阵格式：这些选项控制因子矩阵（或者主成分分析的主成分矩阵）的格式。（1）按值进行排序：如果选择该选项，模型输出中的因子负

81、载将按数值排序。（2）隐藏小于：如果选择该选项，低于指定阈值的因子得分将不在矩阵中显示，以便更容易看出矩阵结构。旋转：这些选项允许控制模型的旋转方法。21.14.121.14.1主成分主成分/ /因子分析节点旋转选因子分析节点旋转选项项在许多场合下，对保留的因子集进行数学旋转能提高其有效性特别是可理解性。旋转方式有以下几种：无旋转：默认选项，不进行任何旋转。Varimax：一种正交旋转方法，最小化每个因子上的高负载字段数目。这种方法简化了因子解释。斜交旋转：一种倾斜（非正交）旋转方法。当“Delta”=0时，旋转方式是倾斜的。随着“Delta”负值增加，因子倾斜减少。要覆盖默认值“delta=

82、0”，输入一个小于或者等于0.8的值。Quartimax：一种正交旋转方法。最小化解释每个字段所需因子数目。这种旋转方法简化了观察字段解释。Equamax：一种综合了简化因子的“Varimax”方法和简化字段的“Quartimax”的旋转方法。同时最小化高负载于某一因子的字段数目和解释某一字段所需因子数目。Promax：一种倾斜的旋转方法，允许因子之间相关。由于该方法比“斜交旋转”计算更快，因此可用于大型数据集。“Kappa”控制旋转的倾斜度（因子相关程度）。图图21-78旋转对话框旋转对话框21.14.2 21.14.2 主成分主成分/ /因子分析模型因子分析模型主成分/因子分析节点代表了

83、由PCA /Factor 节点产生的主成分和因子分析模型。它们包含了由训练模型所获取的所有信息，以及模型性能和特征的信息。查看PCA / Factor模型，用鼠标右键点击节点并从内容菜单中选择“浏览” 选项(或从流中进行节点的“编辑”)。通过在生产模型选项板中选择图标，用户可以将主成分/因子节点模型加入到流中，而后点击流来选择用户想将节点放置的地点，或用鼠标右键点击图标从内容菜单中选择“加入流”。然后将用户的流与这个节点连接，以便用户将数据输入主成分/因子分析模型来计算成分或因子得分。输入生成模型节点的数据必须包括相同的输入字段，相同的类型，如同用于创建的训练数据。当用户执行一个包含因子方

84、程节点的流时，该节点将对模型中的每个因子或成分加入一个新字段($F-n)。在一个包含以序列预测相同输出字段复合因子方程节点的流中，新的字段名称将在其前缀中包含一个数字，流中的第一个因子方程节点将使用平常名称，第二个节点将使用以$F1-开头的名称，第三个节点将使用以$F2-开头的名称，以此类推。如图21-79所示为所生成的主成分/因子分析节点。图图21-79 生成的主成分生成的主成分/因子分析节点因子分析节点主成分主成分/ /因子分析节点模型页签因子分析节点模型页签图图21-80主成分主成分/因子分析节点模型页签因子分析节点模型页签主成分主成分/ /因子分析节点汇总页签因子分析节点汇总页签图图

85、21-81主成分主成分/因子分析节点汇总页签因子分析节点汇总页签分析：展示了在主成分/因子分析模型中保留的因子数目。字段：列出在建模过程中使用的输入字段。构建设置：包括了建模过程中使用的设置信息。训练概要：展示了模型类型、流、用户、构建日期、应用软件、模型构建所用的时间等。主成分主成分/ /因子分析节点高级输出因子分析节点高级输出图图21-82主成分主成分/因子分析节点高级输出因子分析节点高级输出集体性（Communalities）：展示每个字段由于因子或成分导致的变异的比例。（1）Initial ：给出了和所有的因子设置的最初集体性(这些模型由和输入字段相同的因子开始)。（2）Extr

86、action：给出了留存的因子设置基础上的集体性。可解释的变异总和（Total variance explained）：展示了可由模型中因子解释的变异和。（1）initial Eigenvalues：展示了由最初设置的因子解释的变异。（2）Extraction Sums of Squared Loadings：展示了模型保留因子所解释的变异。（3）Rotation Sums of Squared Loadings: 展示了由旋转因子所解释的变异。但只展示了加载的平方和，而没显示变异的百分比。因子/主成分矩阵（Factor (or component) matrix）：展示了输入字段间和

87、不旋转因子的相关系数。旋转因子/主成分矩阵（Rotated factor (or component) matrix）：展示输入字段间和对于直角旋转的旋转因子的相关系数。形式矩阵（Pattern matrix）:展示了输入栏和对于倾斜旋转的旋转因子位间的偏相关系数。结构矩阵（Structure matrix）：展示了输入字段间和对于倾斜旋转的旋转因子的简单相关系数。因子相关矩阵（Factor correlation matrix）：展示对于倾斜旋转的因子间的相关系数。21.15 21.15 21.15 21.15 特征选择算法模型特征选择算法模型特征选择算法模型特征选择算法模型特征选择

88、算法根据不同的分析需要寻找那些重要的字段，其步骤如下：（1）删除：去除不重要的、有问题的、带有很多缺失值或者变化太多、太少的字段。（2）分级：将剩余的字段进行分类，并根据其重要性进行分级。（3）选择：选择字段的子集，用于以后的建模中。优点：特征选择节点简化了模型，加快了模型的运行。关注那些较为重要的字段，不仅可以减少运算量，而且不会忽略一些很小却很重要的字段。特征选择节点特别适合于“逻辑回归”的建模。特征选择节点模型页签特征选择节点模型页签图图21-83 特征选择节点对话框模型页签特征选择节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将根据目标字段自动生

89、成。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。屏蔽以下字段：屏蔽对建模和预测没有贡献的字段。具体有以下一些方法：（1）缺失值的最大百分比：缺失值比例超过设置值的字段将被屏蔽。（2）单个类别中记录的最大百分比：若某个字段上有超过设置值的记录都取相同值，则该字段被屏蔽。（3）最大类别数作为记录百分比：若某个字段的取值分类中，包含极少记录的分类个数超过设置值，则该字段被屏蔽。（4）最小变异系数：变异系数小于设置值的字段将被屏蔽。（5）最小标准差：标准差小于设置值的字段将被屏蔽。特征选择节点

90、选项页签特征选择节点选项页签图图21-84 特征选择节点对话框选项页签特征选择节点对话框选项页签在模型中选择：主要有以下选择：（1）排序后的所有字段：选择此项，可以自定义“重要”、“边界”、“不重要”字段的临界值。（2）前几个字段：自定义重要字段的个数。（3）重要性大于：需要大于临界值的才算为重要字段。分类预测量的P值（重要性）根据：有以下四种判断方式。（1）Pearson：采用“Pearson”卡方检验对预测字段和目标字段的独立性。（2）似然比：类似于“Pearson”卡方检验，但更适合于小样本情况。（3）CramersV：基于“Pearson”卡方检验统计量的一个指标，取值从0到1。（

91、4）Lambda：反映使用该字段预测时，误差减少的比例。取值从0到1。生成特征选择节点生成特征选择节点图图21-85 生成特征选择节点汇总页签生成特征选择节点汇总页签分析：展示了特征选择的相关信息和排序、屏蔽后的字段数目。字段：列出在建模过程中使用的目标和输入字段。构建设置：包括了建模过程中使用的设置信息。训练概要：展示了模型类型、流、用户、构建日期、应用软件、模型构建所用的时间等。21.16 21.16 21.16 21.16 回归模型回归模型回归模型回归模型回归节点生成回归模型，该模型根据输入字段估计预测输出字段的最佳线性方程。回归方程代表一条直线或者平面，其预测值与真实输出值的离差最小。

92、这是一种常用的用于统计数据并作出预测的统计方法。要求：只有数值型字段可用于回归模型。必须只有一个“输出”字段和一个以上的“输入”字段。字段方向为“两者”或者“无”的字段将被忽略，同样被忽略的还有非数值型字段。优点：回归模型相对简单，并为生成的预测给出易于解释的数学方程。由于回归建模是一个比较成熟的统计方法，回归模型的特点容易理解。而且，回归模型训练起来也非常快。回归节点提供自动选择字段的方法以删除方程中的不显著的输入字段。回归节点模型页签回归节点模型页签图图21-86 回归节点对话框模型页签回归节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将根据目标字段

93、自动生成。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。方法：指定建立回归模型的方法，主要有以下四种：（1）进入法：这是默认的方法，将所有的字段直接选入方程。在建模中没有字段选择。（2）逐步法：逐步回归字段选择一步一步建立方程。初始模型是最可能简单的模型，方程中没有一个输入字段。每一步中，对未进入方程的所有字段进行评估，如果这些字段中最好的字段能显著增强模型的预测效果，则添加该字段进入方程。此外，已经存在于方程中的字段将被重新评估，已决定其是否可以从方程中除去而不显著降低方程效果。如果可

94、以，则将被除去。随后，重复进行该进程，添加或除去其它字段。在没有字段可添加到方程以改进方程，也没有字段可以被除去而不显著降低方程预测效果时，生成最终模型。（3）后退法：后退法字段选择与逐步法选择的相似之处在于都是逐步建立模型。但是，这种方法最初的模型包括了所有的输入字段作为预测字段，字段只能被剔除出模型而不能被添加到模型。对模型几乎没有贡献的输入字段被一个一个的剔除出模型，直到剩下的每一个字段都显著影响模型预测效果，此时生成最终模型。（4）前进法：前进法本质上与后退法相反。这种方法最初的模型是没有任何输入字段的最简化模型，字段只能被添加不能被剔除。在每一步，检验尚未进入模型的输入字段对模型的改

95、进程度，对模型改进最大的字段进入模型。在没有字段可添加到模型或者最好的备选字段对模型没有多大改进时，生成最终模型。将常量纳入方程式：该选项决定是否在最终方程中包含常数项。在大多数情况下，应该选择该选项。如果用户有先验知识，只要预测字段为零时输出字段总是零，则该选项很有用。回归节点专家页签回归节点专家页签缺失值：在默认设置下，回归节点只使用模型中所有字段均为有效值的记录。如果有大量缺失值，用户可能会发现这种方法剔除了太多的记录，使用户没有足够的数据生成一个好的模型。在这种情况下，可以取消选择“仅使用完整记录”选项。Clementine会尝试用尽可能多的信息来估计回归模型，包括某些字段有缺失值的记

96、录。但是，在某些情况下，以这种方式使用不完整记录在估计回归模型时会引起计算问题。异常值容忍度：这一选项允许用户指定某一字段独立于模型中其它字段的最小方差比率。详细内容请参考“21.18.3回归节点步进选项”。输出：这些选项允许要求在该节点生成的模型的高级输出中所出现的附加统计量。详细内容请参考“21.18.4回归节点输出选项”。图图21-87回归节点对话框专家页签回归节点对话框专家页签21.16.1 21.16.1 21.16.1 21.16.1 回归模型的步进选择回归模型的步进选择回归模型的步进选择回归模型的步进选择选择两个准则中的一个作为步进的准则（如图21-88所示），然后确定用户需要

97、的临界值。注意：两个准则之间具有反向关系。字段对模型越重要，P值越小，F值越大。使用F的概率：该选项允许指定基于每一个字段的关联统计概率（P）作为选择准则，只有当P值比“纳入标准”值小时字段才会添加到模型。也只有当P值比“剔除标准”值大时字段才会被剔除，“纳入标准”值必须小于“剔除标准”值。使用F值：该选项允许指定基于每个字段的F统计量作为选择准则。F值是对每个字段对模型贡献的度量，只有当F值比“纳入标准”值大时字段才会添加到模型，也只有当F值比“剔除标准”小时字段才会被剔除。“纳入标准”值必须大于“剔除标准”值。图图21-88 步进准则对话框步进准则对话框 21.16.2 21.16.2 2

98、1.16.2 21.16.2 回归模型的输出选项回归模型的输出选项回归模型的输出选项回归模型的输出选项选择在生成的回归模型的高级输出中的用户所想要的输出项，如图21-89所示。模型拟合：模型拟合概要，包括拟合优度（R2）。它表示输出字段方差中能够被输入字段解释的比例。R平方改变量：逐步法、前进法、后退法等估计方法中每一步的R平方改变量。选择标准：估计建模过程每一步模型所包含的信息内容的统计量，用以帮助评估模型的改进程度。描述性分析：输入和输出字段的基本叙述统计量。部分关联和偏关联：辅助判别多余输入字段对模型重要性及对模型的独特贡献的统计量。共线性诊断：辅助判别多余输入字段问题的统计量。回归系数

99、：回归系数相关统计量。置信区间：方程中每个回归系数的95%置信区间。协方差矩阵：输入字段的共变量矩阵。排除字段：显示不同的回归方法所剔除的字段。残差：残差统计量，即预测值与真实值之间的差异。Durbin-Watson：对自关联的Durbin-Watson检验。该检验检测记录顺序对回归模型的影响，记录顺序可能使回归模型无效。图图21-89 高级输出选项对话框高级输出选项对话框21.16.3 21.16.3 21.16.3 21.16.3 生成回归节点生成回归节点生成回归节点生成回归节点回归节点代表了由线性回归节点所估计的等式。它们包含了由线性回归模型所获取的所有信息，以及模型结构和性能的信息。

100、查看线性回归模型，用鼠标右键点击节点并从内容菜单中选择“浏览” 选项(或从流中进行节点的“编辑”)。通过在生产模型选项板中选择图标，用户可以将线性回归模型加入到流中，而后点击流来选择用户想将节点放置的地点，或用鼠标右键点击图标从内容菜单中选择“加入流”。然后将用户的流与这个节点连接，以便用户将数据输入线性回归模型进行预测。输入生成模型节点的训练数据必须包括相同的输入字段，相同的类型。当用户执行一个包含线性回归等式等式节点的流时，该节点将加入一个包括为输出字段元进行模型预测的新字段。这些新字段名称将从被预测的输出字段中衍生，添加$E-为前缀。如图21-90所示为生成的回归节点。图图21-90

101、生成的回归节点生成的回归节点生成过滤节点：“生菜”菜单允许用户创建一个新的“过滤”节点来获得以模型结果为基础的输入字段。这在当模型是通过字段选择方法建立的时候，十分有用。用户可以放置线性回归方程节点到流中，通过各种图表及输出节点来检验模型预测，从而对线性回归模型进行评价。例如，添加一个“分析”节点来给出预测值和真实值的匹配程度如何的信息。用户也可以使用一个散点图节点来展示预测值与真实值的比较，这可以帮助用户来分辨模型最难以准确分类的记录和分辩模型中的系统错误。用户也可以利用高级输出中的有效信息来评估线性回归模型。查看高级输出结果，选择输出模型浏览器中的“高级”页签。高级输出结果包括许多细节信

102、息，它的目的在于方便具有更深层次线性回归知识的用户。线性回归节点汇总页签线性回归节点汇总页签图图21-91线性回归节点汇总页签线性回归节点汇总页签分析：展示了每个在线性方程中的输入字段的相关系数。完整的回归方程是所有项的总和。字段：列示作为目标和输入的字段。构建设置：这个区域包含了建模过程中使用的设置的信息。训练概要：展示了模型的类型，用来创建它的流、用户、时间，以及建模所费时间。线性回归方程的高级输出线性回归方程的高级输出图图21-92线性回归高级输出线性回归高级输出警告（Warning）：输出有关结果的警告信息和存在潜在性问题的信息。描述型统计量(Descriptive sta

103、tistics (optional)：显示有效记录（案例）的数目，平均数以及每个用于分析的字段的标准差。相关系数（Correlations (optional)）：显示输入和输出字段的相关系数矩阵。单尾的显著系数和每个相关记录数均将显示。输入/删除的变量（Variables entered/removed）：显示在逐步(stepwise)回归，前进法回归或后退法回归时模型中加入或删除的变量。对于前进法，只有一行显示了加入的所有字段。模型总结（Model summary）：显示了模型适合度的各种总结。如果 R-Squared Change选择在线性回归节点中被选中，则在逐步回归，前进法或后

104、退法的模型调整中的每步的每个改变都会被显示。变异数分析（ANOVA）：显示模型的变异数分析表(ANOVA)。系数（Coefficients）：显示模型的系数和这些系数的检定统计量。如果在线性回归节点中的 Confidence interval选项被选择，95% 信赖区间也会在表中显示出来。如果 Part and partial correlations 选项被选中，偏相关系数和部分相关系数也会显示出来。最终如果 Collinearity Diagnostics 选项被选择，关于输入字段的共线性统计量也会在表中显示。相关性系数（Coefficient correlations (optio

105、nal)）：展示估计的系数间的相关性。共线性诊断（Collinearity diagnostics (optional)）：展示用于分辨输入字段是否是从一个线性相关的集中而来的。 Casewise 诊断（Casewise diagnostics (optional)）：展示记录的最大预测误差。残差统计表（Residuals statistics (optional)）：展示用于描述预测误差分别的总结统计量。21.17 Logistic21.17 Logistic21.17 Logistic21.17 Logistic回归模型回归模型回归模型回归模型Logistic回归是根据输入域值对记录进

106、行分类的统计方法。它类似于线性回归，但是目标字段使用字符型字段而不是数值型字段。Logistic回归建立一组方程，把输入域值与输出字段每一类的概率联系起来。一旦生成模型，便可用于估计新的数据的概率。对每一个记录，计算其从属于每种可能输出类的概率。概率最大的目标类被指定为该记录的预测输出值。要求：要建立Logistic回归模型，需要至少一个“输入”字段，恰好需要一个字符型“输出”字段，设置为“两者”或者“无”的字段被忽略。项目中使用的字段类型必须被实例化。优点：Logistic回归模型通常非常精确。它们既可以处理字符型输入字段，也可以处理数值型输入字段。模型会给出所有目标类的概率，这样很容易确定

107、“次优估计”。LogisticLogistic回归节点模型页签回归节点模型页签图图21-93 Logistic回归节点对话框模型页签回归节点对话框模型页签模型名称：指定要产生的模型名称。（1）自动：选择该选项后，模型名称将根据目标字段自动生成。这是默认设置。（2）定制：选择该选项可以为节点创建的模型指定用户定义的模型名称。使用分区数据：自动使用训练集建立模型，并使用测试集和验证集对模型评价。方法：提供了五种不同的方法，分别是：进入法、逐步法、后退法、前进法和后退逐步法。模型类型：有三种选项定义模型，分别是：（1）主效应：该模型仅包括输入字段，不检验输入字段之间的交互作用。（2）全析因：该

108、模型除了包括各输入字段的主要效应外，还包括所有的交互作用。全析因模型能够更好的捕捉复杂关系，但是也更难解释，更容易出现过度拟合问题。（3）定制：自定义模型。将常量纳入方程式：该选项决定是否在最终方程中包含常数项。在大多数情况下，应该选择该选项。如果用户有先验知识，只要预测字段为零时输出字段总是零，则该选项很有用。LogisticLogistic回归节点专家页签回归节点专家页签尺度：可以指定一个离散度量值，用于修正参数共变异数矩阵的估计值。有四个选项，分别是：（1）无：不设定尺度，这是默认值。（2）用户自定义：有用户自定义度量值。（3）Pearson：使用Pearson卡方统计量估计离散度量值。

109、（4）偏差：使用偏差函数估计离散度量值。追加所有概率：如果选择该选项，输出字段的每一类的概率将被添加到该节点处理的每一个记录。如果没有选择该选项，则只有预测类的概率被添加到该节点处理的每一条记录。异常值容忍度：指定用于检查异常值的允许度。收敛：这些选项可以控制模型收敛参数。详细内容请参考“21.18.3 Logistis回归节点收敛选项”。输出：这些选项允许选择在节点创建的生成模型高级输出中出现的统计量。详细内容请参考“21.18.4 Logistis回归节点输出选项”。图图21-94 Logistic回归节点对话框专家页签回归节点对话框专家页签21.17.1 21.17.1 21.17.1

110、21.17.1 LogistisLogistisLogistisLogistis回归模型的收敛准则回归模型的收敛准则回归模型的收敛准则回归模型的收敛准则Logistis回归节点收敛选项如图21-95所示收敛准则对话框。最大迭代次数：指定估计模型的最大迭代次数。最大逐步二分法：逐步二分法是Logistic回归中处理估计过程中的复杂问题的一种技术。在正常情况下，应当使用默认设置。对数似然收敛：如果对数似然的相对改变量小于该值，则迭代停止。如果为0，则不使用该项。参数收敛参数收敛：如果参数估计值中的绝对改变或者相对改变值小于该值，则迭代停止，如果为0，则不使用该项。Delta：可以指定0到1之间的一

111、个值添加到每一个空单元。当相对于数据集中的记录数而言域值的所有可能组合多时，该选项可以协助算法处理数据，默认值为0。图图21-95 收敛准则对话框收敛准则对话框 21.17.2 Logistic21.17.2 Logistic21.17.2 Logistic21.17.2 Logistic回归模型的输出回归模型的输出回归模型的输出回归模型的输出Logistic回归节点输出选项如图21-96所示高级输出对话框。选择希望显示在生成的逻辑模型的高级输出中的可选项。汇总统计量：模型拟合的Cox&Snell、Nagelkerke以及McFadden R2模型适合度。这些统计量在某种程度上类似于线性回归的

112、R2统计量。似然比检验：检验模型系数在统计意义上是否不为0 。输出结果中显著水平非常小的字段是显著性输入字段。渐近相关：系数估计值的估计相关系数矩阵。卡方拟合优度统计量：皮尔森卡方统计量和概似率卡方统计量。这些统计量检验模型对训练数据集的整体适合情况。迭代历史间隔：指定高级输出中显示迭代状况的间隔。参数估计：显示AIC、BIC准则。置信区间：方程系数的置信区间，指定置信区间的信任水平。渐近协方差：参数估计值的估计协方差矩阵。分类表：观察响应值对应预测响应值的表格。图图21-96 高级输出对话框高级输出对话框Logistic Logistic 回归方程节点回归方程节点 Logistic 回归方程

113、节点代表了由Logistic回归节点估计的方程。它们包含了由Logistic回归模型所获取的所有信息，以及模型结构和性能的信息。查看Logistic回归模型，用鼠标右键点击节点并从内容菜单中选择“浏览” 选项(或从流中进行节点的“编辑”)。通过在生产模型选项板中选择图标，用户可以将Logistic回归模型加入到流中，而后点击流来选择用户想将节点放置的地点，或用鼠标右键点击图标从内容菜单中选择“加入流”。然后将用户的流与这个节点连接，以便用户将数据输入Logistic回归模型进行预测。输入生成模型节点的训练数据必须包括相同的输入字段，相同的类型。当用户执行一个包含 Logistic 回归方程节

114、点的流时，该节点将加入两个包括模型预测和相关概率的新字段。这些新字段名称将从被预测的输出字段中衍生，预测分类将以$L-为前缀，相关概率以$LP-为前缀。如图21-97所示为生成的Logistic 回归方程节点。生成过滤节点：“生成”菜单允许用户创建一个新的过滤节点来获取以模型结果为基础的输入字段。因多重共线性而被模型舍弃的字段将被生成节点过滤，对于未在模型中使用的字段也是一样。图图21-97生成的生成的Logistic 回归方程节点回归方程节点21.17.3 Logistic 21.17.3 Logistic 回归方程模型回归方程模型在Logistic 回归方程节点汇总页签中，用户可以查

115、看关于模型本身的信息，在模型中使用的字段，建模过程中的设置，以及训练概要的信息，如图21-98所示。分析：如果用户执行了一个与建模节点相连接的 “分析”节点，关于这个分析的信息将展示在这个区域。字段：把建模过程中作为目标和输入的字段列示出来。构建设置：包括了建模过程中使用的设置的信息。训练概要：展示了模型的类型，用来创建它的流、用户、时间，以及建模所费时间。图图21-98 Logistic 回归方程节点汇总页签回归方程节点汇总页签Logistic Logistic 回归高级输出回归高级输出图图21-99 Logistic 回归高级输出回归高级输出警告（Warning）：表示有关结果的

116、警告信息和存在潜在问题的信息。案例过程总结（Case processing summary）：列示处理过的记录数，被模型中的每个符号型字段断开。模型适合度信息（Model fitting information）：显示用户的模型（最终）与一个所有参数系数为 0 的模型的比较测试的概似比。卡方适合度统计量（Goodness-of-fit chi-square statistics (optional)）：展示皮尔森和概似比卡方统计量。这些统计量检测了对于训练数据模型的整体适合度。Pseudo R-square 检验（Pseudo R-square (optional)）：展示Cox and

117、 Snell, Nagelkerke, 和 McFadden R-square 模型适合度检验。概似比测试（Likelihood ratio tests (optional)）：显示的是这样的一种统计量，它测试了是否模型的系数效果从统计上来讲与 0 不同。参数估计（Parameter estimates (optional)）：展示了方程系数的估计，这些系数的检定，从这些系数衍生而来的单数率(用 Exp(B)表示),以及这些单数率的信赖区间。渐近共变异数/相关矩阵（Asymptotic covariance/correlation matrix (optional)）：展示渐近共变异数

118、和参数估计的相关系数。分类（Classification (optional)）：展示预测的和真实输出字段值的矩阵，包括其百分比。观察次数和预测次数（Observed and predicted frequencies (optional)）：对于每个共变异数模式，展示对应于每个输出字段值的观察次数和预测次数。 21.18 21.18 21.18 21.18 用神经网络节点和用神经网络节点和用神经网络节点和用神经网络节点和C5.0C5.0C5.0C5.0节点训练和测试例节点训练和测试例节点训练和测试例节点训练和测试例20-120-120-120-1的模型的模型的模型的模型21.1921.1921.1921.19小结小结小结小结本章重点介绍了SPSS Clementine的数据模型，包括了数据建模节点及其生成模型节点，以及建立在这些节点上的操作。数据建模节点及生成模型节点共有18种，分别为：神经网络节点、C5.0节点、C&RT节点、QUEST节点、CHAID节点、Kohonen节点、K-Means节点、TwoStep节点、异常节点、Apriori节点、GRI节点、生成规则集节点、Carma节点、序列节点、主成分/因子分析节点、特征选择节点、回归节点和Logistic节点。并就各类节点举例说明，使读者易学易懂。

展开阅读全文

数据挖掘原理与SPSSClementine应用宝典第21章数据模型

最新文档