《精编》数据管理教学资料

上传人:tang****xu2 文档编号:133195143 上传时间:2020-05-25 格式:PPT 页数:87 大小:1.28MB
返回 下载 相关 举报
《精编》数据管理教学资料_第1页
第1页 / 共87页
《精编》数据管理教学资料_第2页
第2页 / 共87页
《精编》数据管理教学资料_第3页
第3页 / 共87页
《精编》数据管理教学资料_第4页
第4页 / 共87页
《精编》数据管理教学资料_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《《精编》数据管理教学资料》由会员分享,可在线阅读,更多相关《《精编》数据管理教学资料(87页珍藏版)》请在金锄头文库上搜索。

1、 数据挖掘原理与SPSSClementine应用宝典元昌安主编邓松李文敬刘海涛编著电子工业出版社 第19章SpssClementine数据管理 本章主要内容 数据源节点记录选项节点字段选项节点 19 1数据源节点 包括 数据库变项文件固定文件SPSS文件DimensionsSAS文件Excel用户输入 图19 1数据源节点选项板 19 1 1从开放数据库中导入数据 从数据库中获取数据的步骤 1 在数据库节点对话框中 使用 表 模型和 SQL查询 模型连接数据库 2 从数据库中选择表 3 使用数据库节点对话框中的各个页签 用户可以更改使用类型和过滤数据字段 用户可以使用数据库节点对话框中 数据

2、页签来进入数据库和从选定的表中读取数据 图19 2从所选表中加载数据 19 1 1 1数据库连接的添加 图19 3数据库连接对话框 在 数据 页签中 从数据源的下拉列表中选择 添加新的数据库连接 打开如图19 3所示的数据库连接对话框 图19 3参数说明 数据源 列出可用的数据源 点击 连接 按钮进行连接 点击 刷新 按钮会更新菜单 用户名 如果数据源被密码保护 键入用户的用户名 密码 如果数据源被密码保护 输入用户的密码 连接 显示目前连接的数据库 若要删除连接 可从菜单中选定一个连接 点击 删除 按钮 19 1 1 2选择表或视图 图19 4从连接的数据库中选择表 用户可以在表名输入框处输

3、入表名或者点击 选择 按钮打开对话框 列出可用的表 视图 如图19 4所示 部分参数说明 显示 列出用户目前连接的数据源的列 1 选择 用户表 浏览由数据库用户建立的普通数据库表 2 选择 系统表 来浏览数据库的系统表 包含数据库信息 索引的描述等 该选项在浏览用于Excel的数据库时是非常必要的 3 选择 视图 来查看视图 通常这是对一个或者多个普通表进行某个查询后 其生成记录组成的一个虚拟表 4 选择 同义名 查看在数据库中对任意现存的表建立的表名相似的同义名 19 1 1 3SQL查询 图19 5查询编辑窗口 从 数据 页签中选择 SQL查询 单选按钮作为连接模式 这将在对话框中增加查询

4、编辑窗口 如图19 5所示 参数说明 载入查询 点击 载入查询 按钮后打开文件浏览器 用户可以载入先前保存的查询 如图19 6所示为使用SQL查询载入数据对话框 保存查询 点击 保存查询 按钮后打开保存查询对话框 用户可以用来保存目前查询 如图19 7所示使用SQL查询保存数据对话框 导入默认值 点击 导入默认值 按钮后选择一个SQLSELECT语句的例子 它是使用对话框中的表格和项目自动建立的 清除 清除 按钮清除工作区域的内容 如果用户想重新编辑时 使用这个选项 图19 6使用SQL查询载入数据对话框 图19 7使用SQL查询保存数据对话框 19 1 1 4查询表的实例 其步骤如下 在数据

5、库节点对话框 数据 页签中 选择 表 模式 从数据源的下拉列表中选择 添加新的数据库连接 如图19 8所示 打开数据库连接对话框 例19 1 利用数据源节点连接test1数据库 并选择表名为dbo sysoledbusers的表 同时使用导入默认值的方式导入数据库查询并将该查询保存 再清除该查询后通过载入查询的方式载入已保存查询 图19 8添加新的数据库连接 在数据库连接对话框中选择test1数据源 输入用户名和密码 如果没有用户名就可不输 点击 连接 按钮 即可显示目前连接的数据库test1 如图19 3所示 点击 确定 按钮返回到主对话框中 点击 选择 按钮从test1选择表 视图对话框中

6、选择表dbo sysoledbusers 点击 确定 按钮返回到主对话框 如图19 2所示 选择 SQL查询 模式 并点击 导入默认值 按钮导入数据库查询 点击 保存查询 按钮保存该查询 点击 清除 按钮 清除该查询内容 点击 载入查询 按钮 载入已保存的查询 19 1 2从无格式文本文件中读取数据 数据存储和数据类型 数据存储 描述字段中数据的存储方式 存储类型有 实数型 字符型 时间型 日期型和时间戳 数据类型 是用来描述给定字段内容的一种方式 也就是常称的类型 数据类型有 默认型 连续型 离散型 标志型 集合型和有序集合型等 使用 存储类型 来获取每一个字段存储类型的列表或从列表中选择存

7、储类型来重置现有的存储类型 这时必须要勾选 覆盖 列的复选框 如图19 9所示 图19 9重置一个数据字段的存储类型 19 1 3从固定字段的文本文件中读取数据 图19 10固定文件节点文件页签 从固定字段的文本文件中读入数据可以使用固定文件节点 其 文件 页签如图19 11所示 可以很容易的指定数据库中数据列的位置和长度 19 1 4导入SPSS文件 图19 11SPSS文件节点数据页签 输入一个保存过的缓冲区文件 就应该使用SPSS文件节点 如图19 11是其对话框 导入SPSS文件相应的步骤如下 1 输入文件名或者用自定义 按钮选择文件 文件选定后 路径会显示在文本框中 如图19 12所

8、示 2 选择 变量名称 或 值 变量名称 如果在 sav文件中想使用描述性变量标签而不是简短的字段名 可选择这一选项 这个选项缺省为取消选定 意味着 sav文件中的长名称将不能从SPSS文件读入Clementine中 也不能输出 值 在 sav文件中如果想使用变量值标签而不是用表示变量值的抽象符号和数字就选择这一选项 例如 用1和2来分别表示性别 男 和 女 的数据中 就可以使用这个选项 该字段将会转换为字符型 并导入 男 和 女 为真实值 19 1 5元数据和个例数据的导入 Dimensions节点来导入元数据或个例数据集 如图19 12所示 图19 12元数据导入对话框 19 1 5 1元

9、数据设置 元数据源 元数据属性 图19 13元数据属性对话框 19 1 5 2个例数据设置 个例数据源 个例数据类型 个例数据项目 19 1 6SAS格式数据的设置 SAS文件节点对话框数据页签如图19 13所示 图19 14导入一个SAS文件 参数设置如下 导入 选择传送何种类型的SAS文件 用户可以以下列四种文件类型导入 1 适用于Windows OS2 sd2 的SAS sd2 2 适用于UNIX的SAS ssd 3 SAS传输文件 tpt 4 SAS版本7 8 9 sas7bdat 导入文件 指定文件名 可以键入文件名或者点击自定义 按钮来浏览文件的位置 成员 从上面选定的SAS传输文

10、件中选定一个成员来导入 从SAS数据文件中读用户格式 读取用户格式 SAS文件以不同的方式储存数据和数据格式 格式化文件 如果需要一个格式化文件 勾选复选框可被激活 变量名称 选择处理变量名称和标签的方式 19 1 7导入Excel格式的数据 图19 15导入一个Excel文件 Excel节点可以从MicrosoftExcel文本中导入数据 Excel节点对话框如图19 15所示 相关参数的说明如下 导入文件 指定输入电子表格文件的名称或点击自定义 按钮来浏览文件的位置 使用指定范围 指定一个已经命名的单元范畴设为Excel工作表 点击自定义按钮可从可用的范畴列表中选择 工作表 指定输入的工作

11、表 是按 索引 还是按 名称 输入 数据范围 输入的数据的开始可以是第一行无空格或带有外在范围的单元 可以选择 第一个非空行 或者指定 显示范围 第一行包含字段名 表示Excel文件的第一行是字段的名称 19 1 8用户手动创建数据 图19 16用户输入节点对话框输入节点 19 1 8 1从无到有创立数据 其步骤是 1 点击节点选项板的数据源项目 2 拖放或者双击用户输入节点 将其添加到流程区域 3 双击该节点 在打开的对话框中指定字段和变量值 如图19 16所示 19 1 8 2从已存数据源中产生数据 用户可以从数据流中的任何非终端节点中产生用户输入节点 其步骤是 1 确定在流程的哪一点输入

12、一节点 2 在节点上单击鼠标右键 此节点的数据将进入用户输入节点中 并且从内容菜单中选择 生成用户输入节点 P 3 用户输入节点上负载了该数据流下游的所有过程 在流的某点处代替已存在的节点 当产生后 节点从原数据中继承了 如果可以被继承 所有的数据结构和字段类型信息 19 2记录选项节点 记录选项节点选项板包括以下节点 选择 抽样 平衡 汇总 排序 合并 附加 区分 图19 17记录选项节点选项板 19 2 1选择节点 图19 18选择节点对话框设置页签 选择节点来设置对数据集的初步筛选工作 也可以通过编写特定的CLEM表达式来实现筛选 选择节点对话框如图19 18所示 相关的参数设置 模式

13、指定满足条件的记录是包含在流程中还是被排除在流程外 1 包含 选择以便在流程中包含符合选择条件的记录 2 丢弃 选择以便将符合选择条件的记录排除出流程 条件 用于检验每一条记录的选择条件 选择条件通过CLEM表达式指定 用户可以在窗口中输入表达式 也可以点击窗口右边 表达式构建器 按钮来构造条件 用户可以使用选择节点根据具体条件从数据流程中选择或排除某一记录子集 如符合以下条件的记录子集 Class Drink 选择节点也用于选择一定比例的记录 用户可以使用选择节点来创建自己的条件 例如 用户可以创建如下条件 Class Drink andrandom 10 4这一条件将从Class为 Dri

14、nk 的记录中 选择大约40 并向流程的下游下传这些记录以用于进一步分析 19 2 2对数据的抽样 图19 19抽样节点的设置 抽样节点来明确限制通过流的记录数或排除一定比例的记录 进入到抽样对话框 如图19 19所示 19 2 2抽样节点 模式 模式选择是否通过 包含 或丢弃 排除 记录 样本 通过以下选项选择抽样方法 1 从第一条记录开始连续抽取 选择使用连续数据抽样法 例如 如果最大样本量设为10 000 则前10 000个记录将通过流 如果模式为 包含 或被丢弃 如果模式为 丢弃 2 n中取1 选择数据抽样法为每n个通过或丢弃一个记录 例如 如果n设置为5 则每五个记录将有一个记录根据

15、上述模式通过或丢弃 3 随机 选择随机抽取数据集一定百分比的样本 例如 如果把百分比设置为20 那么数据集有20 的记录将会根据上述模式设置通过流或丢弃 最大样本量 确定通过流程的最大样本量 如果想在选择 n中取1 选项或 随机 抽样选项中不使用该选项 可将最大样本量数目设置为超出数据集容量 设置随机数种子 设置随机种子值 用于生成随机数 19 2 3修正数据集中的不均匀性 图19 20平衡节点的设置 平衡节点可以用来修正数据集中的不均匀性 以便能够符合特定的测试原则 如图19 20所示为平衡对话框 相关参数的说明如下 记录平衡指令 列出目前的平衡指令 每一指令都包括一个因子和一个条件 使软件

16、在条件为真时 根据指定的因子 提高记录的比率 添加指令 通过点击文本区域右边的 生成新字段 按钮 会插入一行空行以便输入新的条件 如果要为此条件生成CLEM表达式 可点击 表达式构建器 按钮 删除指令 使用红色的删除按钮 对指令排序 使用上下箭头按钮 19 2 4统计汇总 图19 21一个汇总节点实例 汇总节点可以把一系列输入记录变换成总括性的 汇总的输出记录 汇总对话框如图19 21所示 分组字段 列出可用于汇总的分组字段 数值型字段和字符型字段都可以用作分组字段 如果所选组合字段不止一个 则所有值将组合起来生成汇总记录的组合字段 各个不同的分组字段会产生一条集成记录 例如 如果Sex和Region是组合字段 则M与F和地区N与S的各个不同组合 一共四个不同的组合 将会有一条汇总记录 要添加一个组合字段 使用窗口右边的 字段选取器 按钮 数据已按分组字段排序 若分组字段值出现在相邻记录中 该选项按相同值处理 汇总字段 列出将按照所选汇总模式汇总的数值型字段 若要添加字段到列表中 可使用窗口右边的 字段选取器 按钮 默认模式 指定对新添加的字段所使用的默认汇总模式 如果频繁使用同样的汇

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号