数据挖掘技术与应用实验报告

上传人:cl****1 文档编号:491731802 上传时间:2023-12-13 格式:DOCX 页数:27 大小:114.65KB
返回 下载 相关 举报
数据挖掘技术与应用实验报告_第1页
第1页 / 共27页
数据挖掘技术与应用实验报告_第2页
第2页 / 共27页
数据挖掘技术与应用实验报告_第3页
第3页 / 共27页
数据挖掘技术与应用实验报告_第4页
第4页 / 共27页
数据挖掘技术与应用实验报告_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《数据挖掘技术与应用实验报告》由会员分享,可在线阅读,更多相关《数据挖掘技术与应用实验报告(27页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘技术与应用实验报告专业:班级:学号:姓名:2012-2013 学年 第二学期经济与管理学院实验名称:SPSS Clementine软件安装、功能演练指导教师:实验日期:成绩:实验目的1、熟悉 SPSS Clementine 软件安装、功能和操作特点。2、了解 SPSS Clementine 软件的各选项面板和操作方法。3、熟练掌握 SPSS Clementine 工作流程。实验内容1、打开 SPSS Clementine 软件,逐一操作各选项,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种 输出节点,熟悉数据输入输出。(要求:至少做ac

2、cess数据库文件、excel文件、 txt 文件、可变文件的导入、导出)实验步骤一 实验前准备:1.下载 SPSS Clementine 软件安装包和一个虚拟光驱。2选择任意盘区安装虚拟光驱,并把下载的安装包的文件(后缀名bin)添加到 虚拟光驱上,然后双击运行。3. 运行安装完成后,把虚拟光驱中CYGiSO文件中的lservrc文件和 PlatformSPSSLic7.dll文件复制替换到安装完成后的bin文件中,完成破解,获得 永久免费使用权。4. 运行中文破解程序,对 SPSS Clementine 软件进行汉化。二 实验操作:1、 启动 Clementine:从 Windows的“开

3、始”菜单中选择:所有程序/SPSS Clementine 12.0/SPSS Clementine client 12.02、Clementine 窗口当第一次启动 Clementine 时,工作区将以默认视图打开。中 间的区域称作流工作区。在 Clementine 中,这将是用来工作的主要区域。 Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区 的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过 滤数据,创建图形和构建模型。Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区 的下方。每个选项卡都包含一组以图形表

4、示数据挖掘任务的节点,例如访问和过 滤数据,创建图形和构建模型。要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。随后可将各个图标连接以创建一个表示数据流动的流。创建一个简单的数据流操作:编辑“数据源”选择一种数据文件(数据库文件、 excle 文件或可变文件等),双击文件类型,即可添加到数据流编辑区注:导入数据库文件需要通过ODBC方式访问数据库。步骤:第一步:打开windows “控制面板”,依次选择“管理工具”和“数据源 ODBC。添加一个所要访问的数据源驱动(如:microsoft access driver( *.mdb)。第二步:点击“选择”,选择相应的数据源

5、和相应的表/视图。 在“输出”模型中选择一种输出模型(表或自定义表格)。 按快捷键 F2 把数据源与输出模型链接起来。 双击数据源对其进行编辑,导入相应的文件,然后单击“执行”,就可以看到 输出的表。实验总结:实验评价(教师):实验名称:SPSS Clementine数据可视化指导教师:实验日期:成绩:实验目的1、熟悉 SPSS Clementine 绘图。2、了解 SPSS Clementine 图形选项面板各节点的使用方法。3、熟练掌握 SPSS Clementine 数据可视化流程。实验内容1、打开 SPSS Clementine 软件,逐一操作各图形选项面板,熟悉软件功能2、打开一有数

6、据库、或新建数据文件,读入SPSS Clementine,并使用各种 输出节点,熟悉数据输入输出。 (要求:至少做分布图、直方图、收集图、多重 散点图、时间散点图)实验步骤1、启动 Clementine:请从 Windows 的“开始”菜单中选择:所有程序SPSS Clementine 12.0SPSS Clementine client 12.02、建立一个流、导入相关数据,打开图形选项面板。数据源文件类型为“可 变文件”导入相应文件“drug_long_name”,双击选择分布图、直方图、收集图、 多重散点图、时间散点图等节点,按住F2键连接好个节点建立好数据流图。 源数据字段包括:Sex

7、、BP、NA、K、Age、cholesterol、Drug。3.分布图编辑“分布图“,选定字段”sex”,交叠字段颜色“drug”按计数排序。标题“药品种类分 布图“。执行数据流,生成相应的分布图。图形分析结果见下表。药品比例计数drugA0.111111drugB0.06969drugC0.103103drugX0.27270drugY0.447447编辑直方图”,选定字段”na”,交叠字段颜色“drug”,分箱按数量30,标题“钠含量与药品 种类直方图”。执行数据流生成相应直方图。从图中可以看出drugY的na含量最高,明显高 于其他药品。5. 收集图编辑“收集图”,收集字段“na”,超出

8、字段“k”,由:“cholesterol”(三维图)。交叠字段颜 色:“cholesterol”。标题“na超出age由cholesterol收集图”。执行数据流生成相应的收集图。 从图中可以看出,在相同k含量的基础上,Normal level of cholesterol水平的na含量大部分 比 High level of cholesterol 水平的 na 含量低。6. 多重散点图编辑“多重散点图”,X字段:age。Y字段:“k“、”na “。交叠字段颜色:” cholesterol “。 执行数据流,生成相应的”标准化“或非“标准化”的多重散点图。从图中可以看出,同一 年龄的人,na含

9、量明显比k含量高;na含量随年龄的变化波动比较大,而k含量随年龄的 变化波动不明显。7. 冒泡图编辑“图形板”,“详细信息”中选择图形“冒泡图”,X: age。Y: na。大小:drug。颜色: drug;单击“应用“,执行数据流,生成相应冒泡图。从图中可以看出1泡图中清楚地显 示一个阈值,在此阈值上方,对症药品始终是Y,在此阈值下方,对症药品均 不是Y。此阈值是一个比率,即钠(Na)和钾(K)的比率。实验总结:实验评价(教师):实验名称:决策树 C5.0 建模指导教师:实验日期:成绩:实验目的1、熟悉 SPSS Clementine 建模方法。2、掌握 SPSS Clementine 分布图

10、、散点图、网络图的创建方法。3、掌握决策树 C5.0 决策方法。实验内容1、创建散点图。2、创建分布图。3、创建网络图。假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病 的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。的 任务就是通过数据挖掘找出适合治疗此疾病的药物。此实验使用名为 druglearn.str 的流,此流引用名为 DRUG1n 的数据文件。 可以从任何 Clementine Client 安装软件的 Demos 目录下找到这些文件,也可 以通过从 Windows 的“开始”菜单选择 Start All Programs SPSS Cleme

11、ntine 11.1 Demos 访问这些文件。文件 druglearn.str 位于 Classification_Module 目录 中。此 demo 中使用的数据字段包括:年龄(数值)性别M或FBP血压:高、正常或低胆固醇血液中的胆固醇含量:正常或咼Na血液中钠的浓度K血液中钾的浓度药品对患者有效的处方药实验步骤1、读取文本数据新建数据源可变文件”。然后,双击新添加的节点以打开相应的对话框。 单击紧挨“文件”框右边以省略号“.”标记的按钮,浏览到系统中的 Clementine 安装目录。打开 demos 目录,然后选择名为 DRUG1n 的文件。选择从文件读 取字段名,并注意已载入此对话

12、框中的字段和值。源数据字段包括:Sex、BP、 NA 、 K、 Age、 cholesterol、Drug。2、添加表。 现在已载入数据文件,可以浏览一下某些记录的值。将表节点添加到流中, 可双击选项板中的表节点图标或将其拖放到工作区。 查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选 择执行。表中显示的是 Sex、 BP 、 NA 、 K、 Age、 cholesterol、Drug 这些字段 的数据。3、创建分布图 将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的 选项。目标字段:Drug。交叠字段:Sex。然后,在对话框中单击执行,就可以 看到

13、各种药品在不同性别上的分布图。图形分析结果见下表。所以,药品 Y 的对 症患者最多,而药品 B 和药品 C 的对症患者最少。药品比例计数drugA0.111111drugB0.06969drugC0.103103drugX0.27270drugY0.4474474、创建散点图 为了了解哪些因素会对药品(目标变量)产生影响,我们需要创建一个关于 钠和钾的散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其 进行编辑在“散点图”选项卡中,选择 Na 作为 X 字段,选择 K 作为 Y 字段, 并选择Drug作为交叠字段。然后单击执行。 通过散点图可以看出:在同等钠含量的药品中

14、, Y 药品的的钾含量明显低于其他 药品。5、创建网络图双击选择“网络节点”在“网络节点”对话框中,选择BP (血压)和药 品。然后单击执行。通过网络图可以看出:药品 Y 与三种级别的血压均相关(连接数为 245 连接数最大)。Y是最佳药品。实验总结:实验评价(教师):实验名称:关联规则挖掘指导教师:实验日期:成绩:实验目的1、熟悉 C5.0 规则归纳2、掌握购物篮分析的方法。实验内容1、字段和记录的筛选。2、规则归纳(C5.0)分类。3、购物篮分析。4、本实验处理描述超级市场购物篮内容(即,所购买的全部商品的集合) 的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻 找购

15、买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客 户群。实验步骤1、访问数据使用“变量文件”节点连接到数据集BASKETSln,选择要从该文件读取的 字段名称。将“类型”节点连接到数据源,然后将该节点连接到“表”节点。将 字段卡 ID 的类型设置为无类型(因为每个忠诚卡 ID 在数据集中只出现一次, 因此对于建模没有用处)。选择集作为字段性别的类型(这是为了确保 GRI 建 模算法不会将性别视为标志)。执行流以将“类型”节点实例化并显示表。数据集包含18个字段,其中每 条记录表示一个购物篮。表输出结果中显示 18 个字段及其数据。分别是: cardid .购买此篮商品的客户的忠诚卡标识符。 value .购物篮的总购买价格。 pmethod .购物篮的支付方法。卡持有者的个人详细信息: sex性别 homeown .卡持有者是否拥有住房。 income 收入 age 年龄购物篮内容产品类别的出现标志:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号