sas em 简介

上传人:简****9 文档编号:102558310 上传时间:2019-10-03 格式:PDF 页数:20 大小:506.97KB
返回 下载 相关 举报
sas em 简介_第1页
第1页 / 共20页
sas em 简介_第2页
第2页 / 共20页
sas em 简介_第3页
第3页 / 共20页
sas em 简介_第4页
第4页 / 共20页
sas em 简介_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《sas em 简介》由会员分享,可在线阅读,更多相关《sas em 简介(20页珍藏版)》请在金锄头文库上搜索。

1、1 1 SAS/Enterprise Miner 4.3 SAS/Enterprise Miner 4.3 SAS/ENTERPRISE MINER SERVER 处理从客户端 SAS/ENTERPRISE MINER CLIENT 发 来 的 数 据 挖 掘 要 求 , 并 把 处 理 的 结 果 , 经 过 SAS/CONNECT 转 送 回 SAS/ENTERPRISE MINER CLIENT。 SAS/EM 是一个图形化界面,菜单驱动的,拖拉式操作,对用户非常友好且 功能强大的数据挖掘集成环境。其中集成了: ? 数据获取工具; ? 数据抽样工具; ? 数据筛选工具; ? 数据变量转换

2、工具; ? 数据挖掘数据库; ? 数据挖掘过程; ? 多种形式的回归工具; ? 为建立决策树的数据剖分工具; ? 决策树浏览工具; ? 人工神经元网络; ? 数据挖掘的评价工具。 在SAS/EM中, 可利用具有明确代表意义的图形化的模块将这些数据挖掘的工 具单元组成一个处理流程图,并依此来组织您的数据挖掘的过程。这一过程在任 何时候均可根据具体情况的需要进行修改、更新并将适合您需要的模式存储起 来,以便此后重新调出来使用。SAS/EM 图形化的界面,可视化的操作,可引导 即使是数理统计经验不太多的使用者也能按照 SEMMA 的原则成功的进行数据挖 掘。对于有经验的专家,SAS/EM 又提供了大

3、量的选项,可让有经验的人士进行 精细的调整分析处理。 SAS/EM 界面 这一强大的数据挖掘工具组合阵容, 保证了可以支持企业级的数据挖掘的各 个方面工作。 1数据获取工具 在 SAS/EM 的这个数据获取工具中,您可以通过对话框指定要使用的 数据集的名称,并指定要在数据挖掘中使用的数据变量。变量分为两类: 区间变量(Interval Variable)和分类变量(Class Variable) 。区间变量是指 那些要进行统计处理的变量。对于这样一些变量,在数据输入阶段您就可 以指定它们是否要作最大值、最小值、平均值、标准差等的处理。还可给 出该变量是否有值的缺漏,缺漏的百分比是多少等。利用这

4、些指定可对输 入数据在获取伊始就进行了一次检查,并把结果告诉您,您可初步审视其 质量如何。区间变量以外的变量称之为分类变量。在数据输入阶段将会提 供给您每个分类变量共有多少种值可供分类之用。 2数据抽样工具 对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的,有: 随机抽样、等距抽样、分层抽样、从起始顺序抽样和分类抽样等方式。 随机抽样 在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样 的概率。如按 10%的比例对一个数据集进行随机抽样,则每一组观测值都 有 10%的机会被取到。 等距抽样 如按 5%的比例对一个有 100 组观测值的数据集进行等距抽样,则有: 100 / 5

5、 = 20,等距抽样方式是取第 20、40、60、80 和第 100 等五组观测 值。 分层抽样 在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干 个子集) 。在每个层次中的观测值都具有相同的被选用的概率,但对不同的 层次您可设定不同的概率。这样的抽样结果可能具有更好的代表性,进而 使模型具有更好的拟合精度。 从起始顺序抽样 这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给 定一个百分比,或者就直接给定选取观测值的组数。 分类抽样 在前述几种抽样方式中,抽样的单位都是一组观测值。分类抽样的单 位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户 名称分类、按

6、地址区域分类等。显然在同一类中可能会有多组观测值。分 类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。 设置多种形式的抽样方式不仅给了您抽样的灵活性,更重要的是从抽 样阶段您就能主动的考虑数据挖掘的目的性,强化了最后结论的效果。 3数据筛选工具 通过数据筛选工具您可从观测值样本中筛选掉您不希望包括进来的观 测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于抽样 范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值 是要排除于抽样范围之外的。 通过数据筛选使样本数据更适合您要数据挖掘的目标。 4数据变量转换工具 利用此工具可将某一个数据进行某种转换操作,然后将转

7、换后的值作 为新的变量存放在样本数据中。转换的目的是为了使您的数据和将来要建 立的模型拟合的更好。例如,原来的非线性模型线性化、加强变量的稳定 性等。可进行取幂、对数、开方 等转换。当然,您亦可给定一个公式进 行转换。 5建立数据挖掘用的数据库 在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库 (DMDB) ,其中就放置此次要进行操作的数据。因为此后可能要进行许多 复杂的数学运算, 在这里建立一个专门的数据集将使您的工作更加有效率。 在处理之前,可对您选进数据挖掘数据库的各个变量预先进行诸如最大、 最小、平均、标准差 等处理。对一些要按其分类的变量的等级也先放入 Meta Data

8、 之中, 以利接下来的操作。 总之在这个数据库中为数据挖掘建立 一个良好的工作环境。 6数据挖掘过程 在数据挖掘的过程中可以使用 SAS 广泛的数学方法, 以及实现最新数 学方法的环境。SAS/EM 提供丰富的数据挖掘模型和灵活算法,包括如下模 型算法: ? 聚类分析 (Clustering) ; 支持平均距离、 欧几里得距离和 WARD 方法。 ? 多元回归模型/Logistic 回归 (Regression) ; 在线性回归中有若干不 同方法可供选择,诸如向前、向后的逐步回归等,还有多种回归运 算结束的准则可以指定。在 Logistic 回归过程中可拟合逻辑型的模 型,其中响应变量可以是双

9、值的或者是多值的。亦可使用逐步法选 择模型,还可以进行回归诊断及计算预测值和残差值。 ? 决策树模型,支持 C45、CHAID、CART 等算法; ? 神经网络模型;可以处理线性模型;多层感知模型(MLP-Multilayer perceptron 这是采用较多的缺省方式)和放射型功能(RBF-Radial basis function) 。 ? 关联模式/序列模式分析(Association) ; ? 时间序列分析(Time Series) ;SAS/EM 的 Time Series 节点可以很方 便的把交易数据转换为时间序列数据。 ? 链路分析模型(Link Analysis) ;用于检查

10、一个复杂系统中的各个个 体的链接关系。 ? 记忆基础推理(Memory-based Reasoning) ;支持 K-最近邻算法 (k-nearest neighbor algorithm) 。 ? SOM/KOHONEN 神经网络分类算法;支持 Kohonen 向量量化(Kohonen vector quantization)、自组织特征映射(Self-Organizing Feature Map)。 ? 主成分分析(principal components analysis) ; ? 二阶模型(Two Stage Model) 。二阶模型可以同时预测分类目标变量 与间隔值目标变量。 同时,

11、SAS/EM 提供 Ensemble 节点进行多个模型的整合。Ensemble 节点 可以创建一个新的模型以平均来自多个前置模型的分类目标的后验概率或间 隔目标的预测值。由此可以使得生成的模型更加稳定和高效。 SAS/EM 的模型整合能力 在 SAS/EM 中,可以通过 SAS Code 节点编写 SAS 代码,使用 SAS/STAT、SAS/OR 等模块中的大量算法。 另外,SAS/EM 中的用户自定义模型(User-defined Model)节点可以 允许用户在一个集成的数据挖掘环境中评估并比较自定义的模型。自定义 的模型可以是使用 SAS 语言开发的算法模型。 也可以是某些用 C 或

12、Fortran 开发的专利算法, 通过 SAS/TOOLKIT 模块将其代码移植集成到 SAS 系统。 7数据挖掘的评价工具 在 SAS/EM 的评价工具中,向您提供了一个通用的数据挖掘评价的架 构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。 SAS/EM 提供 Assessment 节点进行模型评估。在 Assessment 节点中, 可以使用 LIFT 图、PROFIT/LOSS 图、ROI 图、诊断分类图、ROC 图、 Threshold-based 图等一系列标准的图表, 进行模型比较与评估。 在 SAS/EM 的评价工具中,还可以进行客户化的工作,对那些标准的评价图表按

13、具体 要求进行更改。这样一来,评价工作就会更有意义。 8结果输出 SAS/EM 的 Score 节点提供以 SAS 数据步代码的方式产生模型打分的 公式。 SAS/EM 提供 Score Converter 节点,可以把 Enterprise Miner 的挖掘流 程图由 Score 节点产生的 SAS 数据步打分代码转换成 C 或 JAVA 语言。客 户可以把这些C或JAVA语言的数据挖掘打分代码集成到标准的C或JAVA 应用中去。 2 2 SAS Enterprise Miner 5.1 SAS Enterprise Miner 5.1 SAS EM 是基于全球广泛认可的 SEMMA 数

14、据挖掘进程。SEMMA 为执行数据挖掘的核心任 务提供了一个灵活的框架,所以不管是富有经验 的统计人员,还是经验稍微欠缺的商业分析师, 都可以在该框架的指导下开发出更多更好的模 型。 SEMMA 包括五个主要的步骤, 亦即采样(S), 研究(E),修改(M),建模(M)和评估(A)。SAS 独 特的 SEMMA 方法采用了结构化的进程,以合理 的方式对每一步所需的工具进行组织。借助可以 被您修改,保存和共享的流程图,SEMMA 能够 更方便地使用研究统计技术和视图技术,选择和 变换最重要的变量,通过这些变量来创建模型, 以便预测结果,对模型的精确度进行确认,并进 行模型部署的准备工作。 具体来

15、讲,EM 的功能包括以下几点: 多重界面 多重界面 便于操作的图形用户界面,可以创建流程图: ? 通过更快的方式创建更多更好的模型。 ? 可通过网络发送。 ? 可访问 SAS 编程环境。 ? 可进行 XML 图交换。 ? 其他项目或者用户可以把流程图作为模 板进行复用。 ? 批处理: ? 封装了图形用户界面的所有功能。 ? 基于 SAS 宏进行操作。 ? 试验性的 Java API。 ? 基于网络的模型库: ? 管理大型模型组合。 ? 通过算法, 等级, 目标等内容来查询模型。 ? 把诸如累积增益图,树形图和评分代码这 样的结果发送给商务管理者和数据管理者。 操作规模非常灵活的处理功能 操作规

16、模非常灵活的处理功能 ? 基于服务器的处理 异步模型训 练。以干脆的方式停止处理过程。 ? 并行处理 同时运行多个工具和流 程图。 ? 多线程前瞻算法。 ? 服务器上所有存储功能。 访问数据 访问数据 ? 访问 50 多个不同的文件结构。 ? 通过 SAS 元数据服务器与 SAS ETL 集成: ? 通过 SAS ETL Studio 定义用于 Enterprise Miner 数据挖掘的训练图 表。 ? 通过 SAS ETL Studio 恢复和部署 Enterprise Miner 评分代码。 采样 采样 ? 简单随机采样。 ? 分层采样。 ? 按权重采样。 ? 聚类采样。 ? 系统采样。 ? 通过前 N 个点采样。 ? 罕见事件采样。 数据分割 数据分割 ? 创建训练,验证和测试数据集。 ? 确保您的模型在使用发布数据的过 程中具有良好的通用性。 ? 通过类目标进行缺省的分层。 ? 通过任何类变量进行均匀分割。 变换 变换 ? 简单:对数,平方根,倒数,平方, 指数,标准化运算。 ? 分箱:桶处理,分位数,用于目标关 系的分箱处理。 ? 最合适指

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号