LySpoon 1.0 使用说明.doc

资源描述

《LySpoon 1.0 使用说明.doc》由会员分享，可在线阅读，更多相关《LySpoon 1.0 使用说明.doc（14页珍藏版）》请在金锄头文库上搜索。

1、LySpoon使用目录LySpoon使用1目录11 LySpoon简介12 LySpoon的安装13 数据过滤算法设置23.1 添加过滤算法23.2 保存位置设置43.3 运行过滤算法54 交叉验证65 添加数据集设置65.1 添加数据集65.2 删除数据集76 算法设置86.1 添加算法96.2 删除算法106.3 运行算法10LySpoon使用说明1 LySpoon简介LySpoon中文名称洛阳铲。由郑州大学数据挖掘小组在郭华平博士带领设计开发，是基于python语言的开源数据挖掘平台，目前版本是LySpoon 1.0。目前为止，国内还没有一个完整的基于python语言的数据挖掘平台工具，

2、而python语言简单，易学易用，可以让研究人员把更多的时间精力用在理论研究上，而非实验实现上，因此为了方便数据挖掘相关领域研究人员的科研工作，我们小组设计并开发了这个平台软件。LySpoon采用增量模型，计划实现数据挖掘领域的各种数据过滤算法，分类、聚类以及关联分析算法。目前，作为LySpoon的一个版本，其已经很好地支持很多数据过滤与数据变换（映射）算法、传统分类算法（包含稀有类分类问题）以及半监督分类算法等。另外，我们代码开源，因此更方便广大使用人员做测试、分析以及修改，进而推进我国在数据挖掘研究领域的发展，甚至将平台直接应用于金融、电信、医疗等行业进行数据分析。2 LySpoon的安装

3、LySpoon是在window xp 系统下python2.7版本的基础上开发。但是在非图形界面下，为了提高程序的运行速度，源代码也可以在pypy1.9上解释运行。用户可以直接从相关的网站上下载压缩后得LySpoon.rar文件，本程序是免安装的，只需要下载后解压到指定的地方，然后进入LySpoon文件夹找到LySpoon.exe双击运行即可进入实验界面。如图2-1所示.其中包含4个面板：数据过滤设置面板、交叉验证设置面板、数据集设置面板以及算法设置面板。（更多API信息见API文档，如果需要，我们可提供源代码）图2-1LySpoon面板布局3 数据过滤算法设置数据过滤设置对应的面板见图3-1

4、（图2-1的截图）。其包括3个部分：添加（编辑）过滤算法、保存位置以及运行算法。图3-1数据过滤模块3.1 添加过滤算法点击控件“添加新过滤算法”，弹出如图3-2窗口用于选择（配置）相关算法。点击图3中的按钮“选择算法”弹出如图3-3窗口，通过该窗口选择相关算法。为了方便说明这里选择LySpoon.Filter.UnSupervised.Normalize其中，UnSupervised表示无监督的过滤算法，Normalize表示算法将数据集中连续属性值规范化到一个指定的范围。具体见图3-4（系统自动解析类中的相关参数），其中，lowerLimit表示下限，upperLimit表示上限。点击按钮

5、“确定”即可。效果见图3-5.图3-2选择过滤算法界面图3-3选择过滤算法窗口图3-4过滤算法参数设置窗口图3-5选择算法完成3.2 保存位置设置点击图3-1（或图3-5）中的按钮“保存到目录”，弹出如图3-6所示的窗口，为了方便说明，我们选择保存到目录E:/Filter/中。图3-6保存过滤文件窗口3.3 运行过滤算法点击图3-1（或图3-5）中的 “运行过滤算法”按钮，会弹出运行状态提示窗口（如图3-7）。该窗口提示说明还未选择要处理的数据集。为了方便说明，这里选择数据集labor.lyp，如图3-8所示（具体数据集添加方法见第5节）。再次点击按钮“运行过滤算法”，弹出如图3-8所示窗口，

6、相关结果可以到文件夹E:/Filter/（3.2中设置的参数）中查看。图3-7运行过滤算法窗口图3-8数据集的选择窗口图3-9算法运行窗口4 交叉验证见图4-1，其为图2-1的部分截图。其中交叉验证折数是指把原始数据集分成多少份，以此交叉验证以测试算法性能，执行次数是指执行多少次交叉验证。例如，图4-1表示的意思是，执行1次10折交叉验证，从而可以进行算法性能测试（算法设置见第6节）。图4-1交叉验证设置窗口5 添加数据集设置图5-1为添加数据模块的截图，其为图2-1的一部分。5.1 添加数据集点击“添加新数据集”按钮，弹出如图5-2的数据集选择窗口。为了方便说明，这里选择数据集文件glass

7、.lyp和labor.lyp 。点击“打开”按钮，则进入界面图5-3。图5-1数据集管理窗口图5-2添加数据窗口5.2 删除数据集选择窗口中的数据集后，点击按钮“删除数据集”删除数据集。图5-3添加数据后窗口6 算法设置图6-1为算法设置模块，其为图2-1中的一部分。包含如下3种操作：添加算法、删除算法和运行算法。图6-1添加算法模块6.1 添加算法点击图6-1中的按钮“添加算法”,进入算法编辑对话框，如图6-2。默认情况下，该对话框显示C4.5的配置情况。可通过该对话框对相关算法的参数进行设置、也可以通过点击图6-2中的按钮“选择算法”来选择其它算法，如图6-3所示。为了方便说明，这里选择分

8、别选择C45算法和NaiveBayes算法，点击“确定”按钮，进入如图6-4所示的界面。图6-2算法设置界面图6-3算法选择窗口6.2 删除算法首先选中图6-4中的算法，然后点击按钮“删除算法“即可。图6-4删除算法6.3 运行算法点击图6-1（或图6-4）中的按钮“运行”，则系统自动收集如下信息：交叉验证设置（见第4节）数据集集合（见第5节）图6-1底部（或图6-4左下角）的相关设置：-分类按钮：表示支持的是普通的分类问题-不平衡类：表示支持不平衡类问题-去标号比率：表示把训练数据集设置为缺失类标号的比率，用于评估半监督分类算法的性能。点击“运行”按钮后，系统进入T-测试分析窗口（见图6-5

9、），其运行的中间过程见图6-6。由于当前算法并没用运行结束，所以，分析方法还不能运行。当算法运行结束后，T-测试分析窗口被设置为可编辑状态（见图6-7）。其包括3个编辑域：（1）评估指标（图中选择准确率），（2）T-测试的显著水平（图中为0.05），（3）选择基比较对象。点击按钮“运行分析”得到如图6-8的运行结果，其中，形如（14.35）部分表示算法在相应数据集合的性能的标准差*表示基算法在相应数据集合上，性能在统计意义下优于相应的比较算法v表示基算法在相应数据集合上，性能在统计意义下劣于相应的比较算法从图6-8可以看出，两个算法在2个数据集性能相当（统计意义下比较）。更多的参数与算法说明见API文档图6-5T-测试分析窗口图6-6算法运行动态窗口图6-7T-测试参数选择窗口图6-8T-测试结果输出11

展开阅读全文