建模节点_筛选模型

上传人:ji****en 文档编号:107700707 上传时间:2019-10-20 格式:DOCX 页数:29 大小:447.07KB
返回 下载 相关 举报
建模节点_筛选模型_第1页
第1页 / 共29页
建模节点_筛选模型_第2页
第2页 / 共29页
建模节点_筛选模型_第3页
第3页 / 共29页
建模节点_筛选模型_第4页
第4页 / 共29页
建模节点_筛选模型_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《建模节点_筛选模型》由会员分享,可在线阅读,更多相关《建模节点_筛选模型(29页珍藏版)》请在金锄头文库上搜索。

1、IBM SPSS Modeler 帮助 建模节点筛选模型目录 筛选字段和记录 特征选择节点 特征选择模型块 异常检测节点 异常检测模型块 IBM SPSS Modeler 帮助 建模节点 筛选模型 上一个 下一个 筛选字段和记录 分析的预备阶段中可以使用多个建模节点来查找对建模最有用的字段和记录。可使用特征选择节点来按照重要性筛选字段并为之排序,以及使用异常检测节点来查找不符合“正常”数据已知模式的异常记录。“特征选择”节点会根据某组条件(例如缺失值百分比)筛选可删除的输入字段;对于保留的输入,将相对于指定目标对其重要性进行排序。例如,假如某个给定数据集有上千个潜在输入,那么哪些输入最有可能用

2、于对患者结果进行建模呢? 请参阅 主题 特征选择节点 详细信息。 “异常检测”节点确定不符合“正常”数据格式的异常观测值(离群值)。即使离群值不匹配任何已知格式或用户不清楚自己的查找对象,也可以使用此节点来确定离群值。 请参阅 主题 异常检测节点 详细信息。 注意:异常检测并不考虑任何特定的目标(相关)字段,也不考虑这些字段是否与正在预测的模式相关,只是通过基于模型中所选字段集的聚类分析确定异常记录或观测值。由于上述原因,您可能想将异常检测与特征选择或字段筛选和排序的其他方法结合使用。例如,您可以使用特征选择来确定与某个特定目标相关的最重要的字段,然后使用异常检测寻找针对这些字段而言最异常的记

3、录。(另外一个方法是构建一个决策树模型,然后将所有错误分类的记录视为可能的异常进行检查。但是此方法很难用于进行大批量的复制和自动化。) 相关主题 异常检测节点 神经网络节点 统计模型 聚类模型 关联规则 时间序列建模节点 Copyright Integral Solutions Limited 1994, 2010 IBM SPSS Modeler 帮助 建模节点 筛选模型 上一个 下一个 特征选择节点 数据挖掘问题可能包括成百甚至上千个可用作输入的备选字段。从而花费大量的时间和精力来检查模型究竟应该包含哪些字段或变量。为了缩小选择范围,可以使用特征选择算法来识别对某给定分析最为重要的字段。例

4、如,如果你试着根据多种因素来预测患者结果,那么哪些因素最为重要呢? 特征选择由以下三个步骤组成: 筛选。删除不重要或有问题的输入、记录或个案(例如输入字段含有过多缺失值,或者输入字段的变异太大或太少而变得无用)。 秩。对剩余输入进行排序并根据重要性进行分级。 选择。识别在后续模型中使用的功能子集,例如通过仅保留最重要的输入,过滤或排除所有其它输入。 当下,许多组织的数据均已超载,因此简化和加快建模过程是特征选择的根本优势。通过将注意力迅速集中到最重要的字段上,可以降低所需的计算量,并且可以方便地找到因某种原因被忽略的小而重要的关系,最终获得更简单、精确和易于解释的模型。通过减少模型中的字段数量

5、,可以减少评分时间以及未来迭代中所收集的数据量。 减少字段数量特别有利于 Logistic 回归这样的模型(字段数量限制在 350 个)。 示例。 有个电话公司拥有一个数据仓库,该数据仓库包含 5000 名公司客户对某次促销活动的响应的信息。数据包含有客户年龄、职业、收入、电话使用情况的统计数据等大量数据。三个目标字段表示客户是否对三个报价做出响应。该公司想利用这些数据来预测哪些客户最可能在将来对类似报价做出响应。 要求。单个目标字段(其角色设置为目标),以及要根据目标进行筛选或排序的多个输入字段。目标和输入字段均具有连续(数值范围)或分类的测量级别。 相关主题 特征选择模型设置 特征选择选项

6、 特征选择模型块 特征选择模型结果 按照重要性选择字段 从特征选择模型中生成过滤器 Copyright Integral Solutions Limited 1994, 2010 特征选择模型,特征选择模型,特征选择模型 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 重要性,重要性,重要性 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 重要性,重要性,重要性 字段重要性,字段重要性,字段重要性 字段排序,字段排序,字段排序 字段排序,字段排序,字段排序 预测变量,预测变量,预测变量 选择分析,选择分析,选择分析 重要性

7、排序,重要性排序,重要性排序 筛选,筛选,筛选 选择分析,选择分析,选择分析 重要性排序,重要性排序,重要性排序 筛选,筛选,筛选 重要性,重要性,重要性 排序预测变量,排序预测变量,排序预测变量 排序预测变量,排序预测变量,排序预测变量 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 特征选择模型,特征选择模型,特征选择模型 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 重要性,重要性,重要性 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 重要性,重要性,重要性 输入字段,输入字段

8、,输入字段 选择分析,选择分析,选择分析 筛选,筛选,筛选 选择分析,选择分析,选择分析 筛选,筛选,筛选 筛选输入字段,筛选输入字段,筛选输入字段 缺失值,缺失值,缺失值 筛选字段,筛选字段,筛选字段 筛选字段,筛选字段,筛选字段 方差系数,方差系数,方差系数 筛选字段,筛选字段,筛选字段 筛选字段,筛选字段,筛选字段 字段重要性,字段重要性,字段重要性 字段排序,字段排序,字段排序 字段排序,字段排序,字段排序 预测变量,预测变量,预测变量 选择分析,选择分析,选择分析 重要性排序,重要性排序,重要性排序 选择分析,选择分析,选择分析 重要性排序,重要性排序,重要性排序 重要性,重要性,重

9、要性 排序预测变量,排序预测变量,排序预测变量 排序预测变量,排序预测变量,排序预测变量 排序预测变量,排序预测变量,排序预测变量 字段重要性,字段重要性,字段重要性 字段排序,字段排序,字段排序 字段排序,字段排序,字段排序 预测变量,预测变量,预测变量 重要性排序,重要性排序,重要性排序 重要性排序,重要性排序,重要性排序 重要性,重要性,重要性 排序预测变量,排序预测变量,排序预测变量 排序预测变量,排序预测变量,排序预测变量 排序预测变量,排序预测变量,排序预测变量 卡方统计量,卡方统计量,卡方统计量 特征选择,特征选择,特征选择 特征选择,特征选择,特征选择 Pearson 卡方,P

10、earson 卡方,Pearson 卡方 特征选择,特征选择,特征选择 特征选择,特征选择,特征选择 似然比卡方统计量,似然比卡方统计量,似然比卡方统计量 特征选择,特征选择,特征选择 特征选择,特征选择,特征选择 Cramr 的 V,Cramr 的 V,Cramr 的 V 特征选择,特征选择,特征选择 特征选择,特征选择,特征选择 lambda,lambda,lambda 特征选择,特征选择,特征选择 特征选择,特征选择,特征选择 F 统计量,F 统计量,F 统计量 特征选择,特征选择,特征选择 特征选择,特征选择,特征选择 t 统计量,t 统计量,t 统计量 特征选择,特征选择,特征选择

11、特征选择,特征选择,特征选择 p 值,p 值,p 值 IBM SPSS Modeler 帮助 建模节点 筛选模型 特征选择节点 上一个 下一个 特征选择模型设置 “模型”选项卡上的设置含有标准模型选项以及用于调整输入字段筛选条件的设置选项。 显示详细信息 隐藏详细信息 特征选择的“模型”选项卡 模型名称。用户可根据目标或 ID 字段自动生成模型名称(未指定此类字段时自动生成模型类型)或指定一个自定义的名称。 筛选输入字段 筛选就是剔除不提供关于输入/目标关系的任何有用信息的输入或观测值。筛选选项只依据在问题中使用字段的属性,而不考虑该字段针对于选定目标字段的预测能力。被筛选出来的字段将不参与有

12、关输入排序的计算,同时还可选择将这些字段过滤掉,或是从用于建模的数据中删除。 可根据以下标准筛选字段: 缺失值的最大百分比。筛选具有过多缺失值的字段,用占记录总数的百分比来表示。缺失值百分比大的字段几乎不提供任何预测信息。 单个类别中的记录最大百分比 筛选相对于记录总数而言同个类别中具有过多记录的字段。例如,如果数据库中 95% 的客户开同一类型的车,则此信息无助于区分客户。任何超过指定最大值的字段都将被筛选掉。此选项仅适用于分类字段。 表示为记录百分比的最大类别数。 筛选掉相对于记录总数而言具有过多类别的字段。如果很高百分比的类别只含有一个观测值,则该字段用处有限。例如,如果每名客户都戴不同

13、的帽子,则此信息在建立行为模式模型时就不太可能有用。此选项仅适用于分类字段。 最小变异系数筛选变异系数小于或等于指定最小值的字段。此度量值是输入字段标准偏差与输入字段均值之间的比值。如果此值接近 0,则变量值的变异性就不高。此选项仅适用于连续(数字范围)字段。 最小标准差。筛选标准差小于或等于指定最小值的字段。此选项仅适用于连续(数字范围)字段。 带有缺失数据的记录。目标字段具有缺失值或所有输入都具有缺失值的记录或观测值将被从用于排序的计算式中排除。 相关主题 特征选择节点 特征选择选项 特征选择模型块 特征选择模型结果 按照重要性选择字段 从特征选择模型中生成过滤器 Copyright In

14、tegral Solutions Limited 1994, 2010 特征选择模型,特征选择模型,特征选择模型 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 重要性,重要性,重要性 排序预测变量,排序预测变量,排序预测变量 筛选预测变量,筛选预测变量,筛选预测变量 重要性,重要性,重要性 输入字段,输入字段,输入字段 选择分析,选择分析,选择分析 筛选,筛选,筛选 选择分析,选择分析,选择分析 筛选,筛选,筛选 筛选输入字段,筛选输入字段,筛选输入字段 缺失值,缺失值,缺失值 筛选字段,筛选字段,筛选字段 筛选字段,筛选字段,筛选字段 方差系数,方差系数,方差系数 筛选字段,筛选字段,筛选字段 筛选字段,筛选字段,筛选字段 IBM SPSS Modeler 帮助 建模节点 筛选模型 特征选择节点 上一个 下一个 特征选择选项 “选项”选项卡用于指定在模型块中选择或排除输入字段的默认设置。然后可以将模型添加到流,以选择用于后续模型构建的字段子集。或者,也可以通过在生成模型后在模型浏览器中选择或弃选其他字段,以覆盖这些设置。但是,默

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号