数据挖掘技术与应用实验报告

资源描述

《数据挖掘技术与应用实验报告》由会员分享，可在线阅读，更多相关《数据挖掘技术与应用实验报告（27页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术与应用实验报告专业：班级：学号：姓名：2012-2013 学年第二学期经济与管理学院实验名称：SPSS Clementine软件安装、功能演练指导教师:实验日期:成绩:实验目的1、熟悉 SPSS Clementine 软件安装、功能和操作特点。2、了解 SPSS Clementine 软件的各选项面板和操作方法。3、熟练掌握 SPSS Clementine 工作流程。实验内容1、打开 SPSS Clementine 软件，逐一操作各选项，熟悉软件功能。2、打开一有数据库、或新建数据文件，读入SPSS Clementine，并使用各种输出节点，熟悉数据输入输出。（要求：至少做ac

2、cess数据库文件、excel文件、 txt 文件、可变文件的导入、导出）实验步骤一实验前准备：1.下载 SPSS Clementine 软件安装包和一个虚拟光驱。2选择任意盘区安装虚拟光驱，并把下载的安装包的文件（后缀名bin）添加到虚拟光驱上，然后双击运行。3. 运行安装完成后，把虚拟光驱中CYGiSO文件中的lservrc文件和 PlatformSPSSLic7.dll文件复制替换到安装完成后的bin文件中，完成破解，获得永久免费使用权。4. 运行中文破解程序，对 SPSS Clementine 软件进行汉化。二实验操作：1、启动 Clementine:从 Windows的“开

3、始”菜单中选择：所有程序/SPSS Clementine 12.0/SPSS Clementine client 12.02、Clementine 窗口当第一次启动 Clementine 时，工作区将以默认视图打开。中间的区域称作流工作区。在 Clementine 中，这将是用来工作的主要区域。 Clementine 中绝大部分的数据和建模工具都在选项板中，该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点，例如访问和过滤数据，创建图形和构建模型。Clementine 中绝大部分的数据和建模工具都在选项板中，该区域位于流工作区的下方。每个选项卡都包含一组以图形表

4、示数据挖掘任务的节点，例如访问和过滤数据，创建图形和构建模型。要将节点添加到工组区，可在节点选项板中双击图标或将其拖拽至工作区后释放。随后可将各个图标连接以创建一个表示数据流动的流。创建一个简单的数据流操作：编辑“数据源”选择一种数据文件（数据库文件、 excle 文件或可变文件等），双击文件类型，即可添加到数据流编辑区注：导入数据库文件需要通过ODBC方式访问数据库。步骤：第一步：打开windows “控制面板”，依次选择“管理工具”和“数据源 ODBC。添加一个所要访问的数据源驱动（如：microsoft access driver（ *.mdb）。第二步：点击“选择”，选择相应的数据源

5、和相应的表/视图。在“输出”模型中选择一种输出模型（表或自定义表格）。按快捷键 F2 把数据源与输出模型链接起来。双击数据源对其进行编辑，导入相应的文件，然后单击“执行”，就可以看到输出的表。实验总结：实验评价（教师）：实验名称：SPSS Clementine数据可视化指导教师:实验日期:成绩:实验目的1、熟悉 SPSS Clementine 绘图。2、了解 SPSS Clementine 图形选项面板各节点的使用方法。3、熟练掌握 SPSS Clementine 数据可视化流程。实验内容1、打开 SPSS Clementine 软件，逐一操作各图形选项面板，熟悉软件功能2、打开一有数

6、据库、或新建数据文件，读入SPSS Clementine，并使用各种输出节点，熟悉数据输入输出。（要求：至少做分布图、直方图、收集图、多重散点图、时间散点图）实验步骤1、启动 Clementine：请从 Windows 的“开始”菜单中选择：所有程序SPSS Clementine 12.0SPSS Clementine client 12.02、建立一个流、导入相关数据，打开图形选项面板。数据源文件类型为“可变文件”导入相应文件“drug_long_name”，双击选择分布图、直方图、收集图、多重散点图、时间散点图等节点，按住F2键连接好个节点建立好数据流图。源数据字段包括：Sex

7、、BP、NA、K、Age、cholesterol、Drug。3.分布图编辑“分布图“，选定字段”sex”，交叠字段颜色“drug”按计数排序。标题“药品种类分布图“。执行数据流，生成相应的分布图。图形分析结果见下表。药品比例计数drugA0.111111drugB0.06969drugC0.103103drugX0.27270drugY0.447447编辑直方图”，选定字段”na”，交叠字段颜色“drug”，分箱按数量30,标题“钠含量与药品种类直方图”。执行数据流生成相应直方图。从图中可以看出drugY的na含量最高，明显高于其他药品。5. 收集图编辑“收集图”，收集字段“na”，超出

8、字段“k”，由：“cholesterol”（三维图）。交叠字段颜色：“cholesterol”。标题“na超出age由cholesterol收集图”。执行数据流生成相应的收集图。从图中可以看出，在相同k含量的基础上，Normal level of cholesterol水平的na含量大部分比 High level of cholesterol 水平的 na 含量低。6. 多重散点图编辑“多重散点图”，X字段：age。Y字段：“k“、”na “。交叠字段颜色：” cholesterol “。执行数据流，生成相应的”标准化“或非“标准化”的多重散点图。从图中可以看出，同一年龄的人，na含

9、量明显比k含量高；na含量随年龄的变化波动比较大，而k含量随年龄的变化波动不明显。7. 冒泡图编辑“图形板”，“详细信息”中选择图形“冒泡图”，X： age。Y： na。大小：drug。颜色： drug；单击“应用“，执行数据流，生成相应冒泡图。从图中可以看出1泡图中清楚地显示一个阈值，在此阈值上方，对症药品始终是Y,在此阈值下方，对症药品均不是Y。此阈值是一个比率，即钠（Na）和钾（K）的比率。实验总结：实验评价（教师）：实验名称：决策树 C5.0 建模指导教师:实验日期:成绩:实验目的1、熟悉 SPSS Clementine 建模方法。2、掌握 SPSS Clementine 分布图

10、、散点图、网络图的创建方法。3、掌握决策树 C5.0 决策方法。实验内容1、创建散点图。2、创建分布图。3、创建网络图。假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病的患者的数据。在治疗过程中，每位患者均对五种药物中的一种有明显反应。的任务就是通过数据挖掘找出适合治疗此疾病的药物。此实验使用名为 druglearn.str 的流，此流引用名为 DRUG1n 的数据文件。可以从任何 Clementine Client 安装软件的 Demos 目录下找到这些文件，也可以通过从 Windows 的“开始”菜单选择 Start All Programs SPSS Cleme

11、ntine 11.1 Demos 访问这些文件。文件 druglearn.str 位于 Classification_Module 目录中。此 demo 中使用的数据字段包括：年龄（数值）性别M或FBP血压：高、正常或低胆固醇血液中的胆固醇含量：正常或咼Na血液中钠的浓度K血液中钾的浓度药品对患者有效的处方药实验步骤1、读取文本数据新建数据源可变文件”。然后，双击新添加的节点以打开相应的对话框。单击紧挨“文件”框右边以省略号“.”标记的按钮，浏览到系统中的 Clementine 安装目录。打开 demos 目录，然后选择名为 DRUG1n 的文件。选择从文件读取字段名，并注意已载入此对话

12、框中的字段和值。源数据字段包括：Sex、BP、 NA 、 K、 Age、 cholesterol、Drug。2、添加表。现在已载入数据文件，可以浏览一下某些记录的值。将表节点添加到流中，可双击选项板中的表节点图标或将其拖放到工作区。查看表，请单击工具栏上的绿色箭头按钮执行流，或者右键单击表节点，然后选择执行。表中显示的是 Sex、 BP 、 NA 、 K、 Age、 cholesterol、Drug 这些字段的数据。3、创建分布图将分布节点添加到流，并将其与源节点相连接，然后双击该节点以编辑要显示的选项。目标字段：Drug。交叠字段：Sex。然后，在对话框中单击执行，就可以看到

13、各种药品在不同性别上的分布图。图形分析结果见下表。所以，药品 Y 的对症患者最多，而药品 B 和药品 C 的对症患者最少。药品比例计数drugA0.111111drugB0.06969drugC0.103103drugX0.27270drugY0.4474474、创建散点图为了了解哪些因素会对药品（目标变量）产生影响，我们需要创建一个关于钠和钾的散点图。将散点图节点放在工作区中，并将其与源节点相连接，然后双击该节点对其进行编辑在“散点图”选项卡中，选择 Na 作为 X 字段，选择 K 作为 Y 字段，并选择Drug作为交叠字段。然后单击执行。通过散点图可以看出：在同等钠含量的药品中

14、， Y 药品的的钾含量明显低于其他药品。5、创建网络图双击选择“网络节点”在“网络节点”对话框中，选择BP （血压）和药品。然后单击执行。通过网络图可以看出：药品 Y 与三种级别的血压均相关（连接数为 245 连接数最大）。Y是最佳药品。实验总结：实验评价（教师）：实验名称：关联规则挖掘指导教师:实验日期:成绩:实验目的1、熟悉 C5.0 规则归纳2、掌握购物篮分析的方法。实验内容1、字段和记录的筛选。2、规则归纳（C5.0）分类。3、购物篮分析。4、本实验处理描述超级市场购物篮内容（即，所购买的全部商品的集合）的虚构数据，以及购买者的相关个人数据（可通过忠诚卡方案获得）。目的是寻找购

15、买相似产品并且可按人口统计学方式（如按年龄、收入等）刻画其特征的客户群。实验步骤1、访问数据使用“变量文件”节点连接到数据集BASKETSln,选择要从该文件读取的字段名称。将“类型”节点连接到数据源，然后将该节点连接到“表”节点。将字段卡 ID 的类型设置为无类型（因为每个忠诚卡 ID 在数据集中只出现一次, 因此对于建模没有用处）。选择集作为字段性别的类型（这是为了确保 GRI 建模算法不会将性别视为标志）。执行流以将“类型”节点实例化并显示表。数据集包含18个字段，其中每条记录表示一个购物篮。表输出结果中显示 18 个字段及其数据。分别是： cardid .购买此篮商品的客户的忠诚卡标识符。 value .购物篮的总购买价格。 pmethod .购物篮的支付方法。卡持有者的个人详细信息： sex性别 homeown .卡持有者是否拥有住房。 income 收入 age 年龄购物篮内容产品类别的出现标志：

展开阅读全文