Clementine决策树CHAID算法

资源描述

《Clementine决策树CHAID算法》由会员分享，可在线阅读，更多相关《Clementine决策树CHAID算法（11页珍藏版）》请在金锄头文库上搜索。

1、CHAID算法（Chi-Square Automatic Interaction Detection）CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。不同于CR树和QUEST节点，CHAID分析可以生成非二进制树，即有些分割有两个以上的分支。CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。CHAID分析，卡方自动交互检测，是一种用卡方统计，以确定最佳的分割，建立决策树的分类方法。1. CHAID方法（卡方自动交叉检验）CHAID根据细分变量区分群体差异的显著性程度（卡方值）的大小顺序，将消费者分为不同的细分群体，最终的细分群体是由多个变量属性

2、共同描述的，因此属于多变量分析。在形式上，CHAID非常直观，它输出的是一个树状的图形。1.它以因变量为根结点，对每个自变量（只能是分类或有序变量，也就是离散性的，如果是连续变量，如年龄，收入要定义成分类或有序变量）进行分类，计算分类的卡方值(Chi-Square-Test)。如果几个变量的分类均显著，则比较这些分类的显著程度（P值的大小），然后选择最显著的分类法作为子节点。2.CHIAD可以自动归并自变量中类别，使之显著性达到最大。3.最后的每个叶结点就是一个细分市场CHAID 自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。当预测变量较多且都是分类变量时，CHAID分类最适宜

3、。2. CHAID分层的标准：卡方值最显著的变量3. CHAID过程：建立细分模型，根据卡方值最显著的细分变量将群体分出两个或多个群体，对于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体，直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。4. CHAID的一般步骤-属性变量的预处理-确定当前分支变量和分隔值属性变量的预处理：-对定类的属性变量，在其多个分类水平中找到对目标变量取值影响不显著的分类，并合并它们；-对定距型属性变量，先按分位点分组，然后再合并具有同质性的组；-如果目标变量是定类变量，则采用卡方检验-如果目标变量为定距变量，则采用F检验（统计学依据数据的计

4、量尺度将数据划分为三大类，即定距型数据（Scale）、定序型数据（Ordinal）和定类型数据（Nominal）。定距型数据通常指诸如身高、体重、血压等的连续性数据，也包括诸如人数、商品件数等离散型数据；定序型数据具有内在固有大小或高低顺序，但它又不同于定距型数据，一般可以数值或字符表示。如职称变量可以有低级、中级和高级三个取值，可以分别用1、2、3等表示，年龄段变量可以有老、中、青三个取值，分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、C，都是有大小或高低顺序的，但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的；定类型数据是指

5、没有内在固定大小或高低顺序，一般以数值或字符表示的分类数据。）F检验：比较两组数据的方差，假设检验两组数据没有显著差异，FF表，拒绝原假设，两组数据存在显著差异。属性变量预处理的具体策略-如果仅有一个或两个分组，则不做合并处理-根据卡方统计量（或似然比卡方）的P-值决定合并哪些组（）-如果用户指定在合并同时还考虑组拆分（Allow splitting merged categories），则新近合并的组中如果包括三个以上的原始分组，应根据检验结果判断是否需再拆分成两组（P-值10.8283.481拒绝原假设。故心脏病检验结果与F13有关。(卡方值为37.35时，对应的P值已趋于0，即“心脏病

6、检验结果与F13有关”成立的概率趋于1-0=100%)建立CHAID模型-在“建模”中选择CHAID节点，将其加入数据流中“TYPE”节点-“Range”范围：用来描述数值，如0-100或0.75-1.25范围。一个范围值可以是一个整数，实数，日期/时间。-“Discrete”离散：用于不同的字符串数值的确切数目是未知的。这是一个未初始化的数据类型，即对数据的存储和使用的所有可能的信息尚不清楚。一旦数据被读取，类型标志，集，或无类型的，取决于最大集大小属性对话框中指定的流。-“Flag”标志：用于具有两个不同值的数据，如Yes和No或1和2的数据。可能是文本，整数，实数，日期/时间数据。注：日

7、期/时间是指三种类型的存储时间，日期或时间戳-“Set”集：用来描述具有多个不同的值的数据，每个被视为一个集的成员，如小型/中型/大型数据。在这个版本的Clementine ，一套可以有任何存储数值-字符串或日期/时间。请注意，设置类型设置不会自动改变字符串的值。-“Ordered Set ”有序集合：用来描述具有多个不同的值的数据，有一种内在的秩序。例如，工资类别或满意度排名可以分为一组有序。有序集的顺序是指通过其元素的自然排序顺序。例如， 1 ，3，5 ，是一组整数的默认排序顺序，而高，低，师范大学（升序按字母顺序排列）是一组字符串的顺序。有序的集合类型，可让您定义一组有序数据的可视化，建

8、立模型（C5.0, C&R Tree, TwoStep），并扩展到其他应用程序，如SPSS ，承认有序数据作为一个独特的类型。此外，任何存储类型（真实的，整数，字符串，日期，时间，等等）的领域都可以被定义为一个有序的集合。-“Typeless”无类型：用于数据不符合任何上述类型的集合类型或包含太多值的集合类型。它是有用于一个集合包含太多值（如帐号）。CHAID“字段”选项目标。对于需要一个或多个目标字段的模型，请选择目标字段。此操作与在类型节点中将字段的方向设置为输出类似。输入。选择输入字段。此操作与在类型节点中将字段的方向设置为输入类似。分区字段。该字段允许使用指定字段将数据分割为几个不同的

9、样本，分别用于模型构建过程中的训练、检验和验证阶段。通过用某个样本生成模型并用另一个样本对模型进行检验，可以预判出此模型对类似于当前数据的大型数据集的拟合优劣。如果已使用类型或分区节点定义了多个分区字段，则必须在每个用于分区的建模节点的“字段”选项卡中选择一个分区字段。（如果仅有一个分区字段，则将在启用分区后自动引入此字段。）同时请注意，要在分析时应用选定分区，同样必须启用节点“模型选项”选项卡中的分区功能。（取消此选项，则可以在不更改字段设置的条件下禁用分区功能。）使用频数字段。此选项允许选择某个字段作为频数权重。如果训练数据中的每条记录代表多个单元（例如，正在使用聚合的数据），则可采用此项

10、。字段值应为代表每条记录的单元数。使用加权字段。此选项允许选择某个字段作为案例权重。案例权重将作为对输出字段各个水平上方差的差异的一种考量。CHAID“模型”选项剪枝：参数1-模型名称指定要产生模型的名称-使用分区数据若用户定义了此选项，则模型会选择训练集作为建模数据集，并利用测试集对模型评价。利用训练集建立模型，用测试集剪枝。-方法该节点提供了CHAID和Exhaustive CHAID两种方法，后者会花更多时间，但会得到更为可靠的结果Exhaustive CHAID算法是CHAID的改进算法。它的改进主要集中在如何避免自由度的影响上。在选择最佳分组变量时采用了“将分组进行到底“的策略

11、。也就是说，仍然保留输入变量预处理的结果，并将各分组作为决策树的各分枝。但在计算检验统计量的概率P值时，将继续合并输入变量的分组，直到最终形成两个组或两个“超类”为止，进而确保所有输入变量的检验统计量的自由度都相同。最后，再比较概率P值，取概率P值最小的输入变量为当前最佳分组变量。 -模式生成模型：计算机直接给出最终模型，自动建立和剪枝决策树。启动交互回话：可以逐层建立，修改和删除节点。若同时勾选“使用树指令”，则可以指定任意层节点的分割方式或字节点数，所做设定也可以保存，以供下次建树使用。-最大树状图深度：用户可以自定义CHAID树的最大层数，避免过度拟合问题。（完整的决策树能够准确反映训练样本集中数据的特征，但可能因其失去一般代表性而无法用于对新数据的分类预测，这种现象称为“过度拟合”现象）CHAID“专家”选项剪枝：参数2 -模式该节点提供简单和专家模式-Alpha用于合并：指定合并的显

展开阅读全文

Clementine决策树CHAID算法

最新文档