Clementine软件概述教程

资源描述

《Clementine软件概述教程》由会员分享，可在线阅读，更多相关《Clementine软件概述教程（107页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘的源泉无所不在的数据,数据挖掘中可能出现的重要的数据问题,无所不在的数据,假设一个顾客按照购物目录购买商品(如小康之家)，这样一笔交易在不同公司的众多业务系统里留下了一长串业务记录本地电话公司知道顾客什么时候打的电话、打给谁、通话持续时间等负责处理免费电话服务的长途电话公司(如800业务)知道通话时间、接听者及电话转接的路径供货商知道被订购的货物是什么，订购电话的时间和通话持续长度，相应的销售额，购买者使用的信用卡，库存的变化以及送货方式等,无所不在的数据,顾客按照购物目录购买商品这样一笔交易在不同公司的众多业务系统里留下了一长串业务记录信用卡业务处理公司知道交易日期、交易金

2、额、授权号码、商户代号等信用卡发行者知道支付记录、应扣利息、信用余额等送货公司知道顾客邮政编码、包裹价值、开始装车的时间和运到分拣中心的时间等每一个公司都可以从这个交易中获得信息以提高工作效率，从而为客户提供更优质的服务,数据结构,通常数据挖掘算法使用的数据格式是类似于电子表格的行、列形式。而在业务系统中表通常要做规范化，至少要符合第三范式行的含义行的定义取决于数据挖掘的目标,列,列或字段代表了每条记录里的数据。下面介绍对于数据挖掘十分重要的一些特例的列的分布情况。只有一种值的列单值的列对于区分不同行不包含任何信息。因为它们缺乏任何信息内容，在数据挖掘中应该忽略情况预留字段

3、可能全部都是“NULL”或者“0” 选取一个数据子集，如广东的客户，则地区代码都是“GD”,列的值各不相同,另一个极端是列在每一行上(几乎)都不相同。这样的列精确区分每一行，例如客户姓名地址电话号码客户身符证号码运输识别码由于每一个记录上这些数值几乎不同，所以它们妨碍了数据挖掘算法从不同行间找出规律.,列的值各不相同,这些列也包含了大量信息电话号码和地址包含地理信息发动机的识别号码包含了生产年份、制造商、型号和原产地等信息客户号码也可能可以知道哪些是最新客户回忆身份证编码规则和学号编码规则在这种情况下，重要的特性应该作为派生变量提取出来，而忽略原始列,忽略与目标列同义的

4、列,当某一列和目标列相关度很高时，可能意味着这一列是目标列的同义列。例如账号非空可能与市场开发同义，只有开了户的才拥有帐户号流失日期非空与已经流失同义,忽略与目标列同义的列,对于某个特殊群体，如年龄小于40岁并且有孩子的人。所有的调查对象都有共同特点，所以年龄和小孩数目对数据挖掘来说毫无用处,数据挖掘中列的作用,列的三种基本角色是输入列：用于模型的输入中目标列：只有当构造预测模型时才使用忽略列：不使用的列,属性的不同类型,数据的不同特性决定了对它们的不同度量方法。一种指定属性类型的简单办法是确定对应于属性基本性质的数值的性质。例如长度的属性可以有数值的许多性质：按照长度比较和确

5、定对象的序，以及谈论长度的差异和比例是有意义的。,属性的不同类型,数值的如下性值常常用来描述属性相异性 =和!= 序、= 加法 +和- 乘除 *和/,属性的不同类型,根据是否有这4种性质，可以定义4种属性类型：名词性值(nominal) 有序值 (ranks) 区间值(interval) 比率值(ratio) 次序是最重要的度量性质。但是有许多数据之间是没有次序关系的，称之为名词性值。,属性的不同类型,名词性值和序数值统称为分类的(categorical)或定性(qualitative)的属性名词性属性(如雇员ID)不具有数的大部分性质，即便使用数如整数表示，也应当像对待符号一样处理

6、其余两种类型的属性，即区间和比率属性，统称为定量的(quantitative)或数值(numeric)的. 定量属性用数表示，可以是整数值(离散的)或连续值,不同的属性类型,定义属性层次的变换,属性的类型也可以用不改变属性意义的变换来描述心理学家S. Smith Stevens最早用允许的变换(permissible transformation)来定义上表中的属性使用保持属性意义的变换对属性进行变换时产生相同的结果例如用米和英尺为单位进行度量时，同一组对象的平均长度数值是不同的，但是两个值都代表相同的长度,定义属性的允许的变换,有序值(Ranks),有序值：有顺序但不允许算术运算。如“

7、高”、“中”和“低”之间，无法度量距离例如对于气温，可以定义属性值为：炎热(hot)、温和(mild)和(cool) 凉爽。它们的顺序是： hotmildcool coolmildhot 尽管在两个值之间进行比较是有意义的，但是将它们相加或相减都没有意义。hot和mild之间的差异不能和mild与cool之间的差异进行比较,区间值 Intervals,区间值：不但有序而且还可以用固定和相等的单位进行度量，允许进行减法运算，但不能进行加法运算。日期、时间、温度是常见的例子。温度用度表示。可以讨论两个温度之间的差异，如46度和48度，也可以和其他两个温度之间的差异进行比较，例如22度和24度。

8、例如，在一定范围内，对固定质量的水加热使之提高相同的温度，所需的热量是一定的,区间值 Intervals,另一个例子：日期可以讨论1939年和1945年之间的差异，甚至可以计算1939年和1945年的平均值(1942) 但是将1939年与1945年相加(3884)，或者将1939年乘以3(5817)，都没有任何意义。为什么？时间无始无终，作为开始点的0年完全是人们臆想出来的，在历史上已变更多次公元前300年的人当时如何称呼年代？,比率值 ratio,比率值的测量方法内在定义了一个零点。例如，当测量一个物体到另一个物体的距离时，物体到它自身的距离形成一个自然定义的零值。比率通常是实

9、数，所以可以进行任何数学运算：将距离乘以3是有意义的两个距离相乘可以得到面积,离散和连续属性,离散属性具有有限或无限可数个值例如：邮政编码，计数，或一个文档集合中单词的个数通常表示为整数注：二值变量是一种特殊的离散属性,离散和连续属性,连续属性取实数值例如: 温度，高度，或重量实际上，实数值在计算机中用一有限精度的位数表示（离散的）连续属性通常用浮点数表示,数据集的类型,记录数据矩阵文档数据事物数据图 World Wide Web 分子结构,数据集的类型,有序数据空间数据温度数据序列数据基因序列数据,记录数据,数据集由记录构成，每个记录包含固定的属性集,数据

10、矩阵,如果数据集中的所有数据对象都具有相同的数值属性集，则数据对象可以看做多维空间中的点（向量），其中每个维表示一个特定的属性这样的数据集可以表示为一个m行n列的矩阵：每行一个数据对象，每列一个属性,文档数据,每个文档被转换为一个“单词项”的向量每一个项是向量的一个分量(属性) 每一个分量的值表示相应的单词出现在文档中的次数,事物数据,A special type of record data, where 每一个记录 (事物) 包含一个项的集合. 考虑一个百货商店。一位顾客在一次购物中所购买的所有商品的集合构成了一个事物，而购买的商品是项.,基于图形的数据,例如: 通用图形和HTML链

11、接,化学数据,苯环的分子结构: C6H6,有序数据,事物的顺序,一个序列的元素,项/事件,有序数据,基因序列数据,有序数据,空间-温度数据,陆地和海洋的月平均气温,数据集的重要特性,维度稀疏性分辨率粒度模式依赖于分辨率,数据集的重要特性,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别粒度级越小，细节程度越高，综合程度越低，回答查询的种类越多粒度影响数据仓库中数据量的大小,Clementine软件概述,Clementine软件概述,Clementine (PASWModeler)最早前身是英国ISL (Integral Solutions Limited)公司开发的一款数

12、据挖掘工具产品，1998年被SPSS公司收购，并被重新整合和开发。 Clementine研发项目始于1992年。目前已推出v13版。 2009年，SPSS公司被IBM收购，产品得到更有效的合理整合，Clementine被重新命名为PASW Modeler。,Clementine软件概述,Clementine拥有丰富的数据挖掘算法，支持与数据库之间的数据和模型交换；具有可视化操作界面，简单易用，分析结果直观易懂，图形功能强大从Statsoft Statistics、SAS Enterprise Miner、Oracle DM、Angoss筹众多数据挖掘软件中脱颖而出。自2000年以来，KDn

13、uggets公司面向全球开展“你最常用哪种数据挖掘工具”的跟踪调查，反馈结果表明，Clementine产品九年来一直列居首位。,Clementine的窗口,Clementine的操作与数据分析的一般流程相吻合。数据分析通常经过数据收集、数据展示和预处理、模型建立、模型评价等环节。 Clementine形象地将这些环节表示成若干节点，将数据分析过程看成数据在各个节点之间的流动，并通过一个图形化的“数据流”直观表示整个数据分析过程。 Clementine的操作目的就是要建立一条或多条数据流，不断修改和调整流中的节点及参数，执行数据流。,Clementine的窗口,主窗口由数据流编辑区域和三个窗口组

14、成。一、数据流编辑区域数据流编辑区域位于主窗口中间，是建立和编辑数据流的区域，用户的大部分操作是在这个区域内完成的。,Clementine的窗口,二、节点工具箱窗口数据流是由多个节点组成的。节点工具箱窗口位于主窗口的下方，可通过上下按钮()使其呈“可见”或“不可见”状态。工具箱中分类存放着所有节点工具，这些节点均以图符形式显示，可实现数据采集、数据展示、数据（包括变量和样本）预处理、数据建模以及模型评价等功能。,二、节点工具箱窗口,节点工具被分别放置在源、记录选项、字段选项、图形、建模、输出和导出选项卡中，其中的常用节点又集中放置在收藏夹选项卡中。呈黄色背景显示的选项卡为当前选项卡，

15、用户可通过鼠标任意指定当前选项卡，并在其中选择所需的节点工具。,三、流管理窗口,多个节点依次连接就形成了数据流。流管理窗口位于主窗口的右上方，可通过左右按钮( )使其呈“可见”或“不可见”状态。流管理窗口由流、输出、模型三张选项卡组成。,三、流管理窗口,可在流选项卡中新建、打开、关闭、保存数据流。输出选项卡中存放着执行数据流后生成的各种数据表，用户可根据需要对这些数据表进行必要的管理操作。,三、流管理窗口,模型选项卡中存放着执行数据流后生成的各种模型计算结果，用户可根据需要对模型计算结果进行必要的管理操作。注意流选项卡中，数据流的磁盘文件扩展名为.str 输出选项卡中，数据表的磁盘文件

16、扩展名为.cou 模型选项卡中，模型计算结果的磁盘文件扩展名为.gm,四、项目管理窗口,项目管理窗口位于主窗口的右下方，可通过上下按钮()使其呈“可见”或“不可见”状态。多条数据流可组成一个数据挖掘项目。 Clementine通常以项目为单位，对流管理窗口中的各种数据流进行集中分类管理，进而避免数据流过多而带来的管理上的混乱。,四、项目管理窗口,当用户的数据挖掘任务较为庞大而建立了很多数据流时，可自行将流管理窗口中的服务于不同目标的数据流，分别存放到不同目录中，这些目录的默认名为商业理解、数据理解、数据准备、模型、评估、部署，分别对应于数据挖掘的各阶段，以最终形成一个完整的数据挖掘项目。用户只需打开一个项目，系统便会自动打开项目中记录的全部数据流，并显示在流管理窗口中。,四、项目管理窗口,项目管理窗口中的商业理解默认呈黑体字显示，表示为当前目录。用户也可单击鼠标右键，选择弹出菜单中的“设置为默认”项，指定任意目录为当前目录。在流管理窗口的流选项卡中，单击鼠标右键，选择弹出菜单中的“添加到工程”项，则当前数据流将被存放到项

展开阅读全文