LySpoon 1.0 使用说明.doc

上传人:汽*** 文档编号:558046904 上传时间:2022-12-13 格式:DOC 页数:14 大小:509.50KB
返回 下载 相关 举报
LySpoon 1.0 使用说明.doc_第1页
第1页 / 共14页
LySpoon 1.0 使用说明.doc_第2页
第2页 / 共14页
LySpoon 1.0 使用说明.doc_第3页
第3页 / 共14页
LySpoon 1.0 使用说明.doc_第4页
第4页 / 共14页
LySpoon 1.0 使用说明.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《LySpoon 1.0 使用说明.doc》由会员分享,可在线阅读,更多相关《LySpoon 1.0 使用说明.doc(14页珍藏版)》请在金锄头文库上搜索。

1、LySpoon使用目录LySpoon使用1目录11 LySpoon简介12 LySpoon的安装13 数据过滤算法设置23.1 添加过滤算法23.2 保存位置设置43.3 运行过滤算法54 交叉验证65 添加数据集设置65.1 添加数据集65.2 删除数据集76 算法设置86.1 添加算法96.2 删除算法106.3 运行算法10LySpoon使用说明1 LySpoon简介LySpoon中文名称洛阳铲。由郑州大学数据挖掘小组在郭华平博士带领设计开发,是基于python语言的开源数据挖掘平台,目前版本是LySpoon 1.0。目前为止,国内还没有一个完整的基于python语言的数据挖掘平台工具,

2、而python语言简单,易学易用,可以让研究人员把更多的时间精力用在理论研究上,而非实验实现上,因此为了方便数据挖掘相关领域研究人员的科研工作,我们小组设计并开发了这个平台软件。LySpoon采用增量模型,计划实现数据挖掘领域的各种数据过滤算法,分类、聚类以及关联分析算法。目前,作为LySpoon的一个版本,其已经很好地支持很多数据过滤与数据变换(映射)算法、传统分类算法(包含稀有类分类问题)以及半监督分类算法等。另外,我们代码开源,因此更方便广大使用人员做测试、分析以及修改,进而推进我国在数据挖掘研究领域的发展,甚至将平台直接应用于金融、电信、医疗等行业进行数据分析。2 LySpoon的安装

3、LySpoon是在window xp 系统下python2.7版本的基础上开发。但是在非图形界面下,为了提高程序的运行速度,源代码也可以在pypy1.9上解释运行。用户可以直接从相关的网站上下载压缩后得LySpoon.rar文件,本程序是免安装的,只需要下载后解压到指定的地方,然后进入LySpoon文件夹找到LySpoon.exe双击运行即可进入实验界面。如图2-1所示.其中包含4个面板:数据过滤设置面板、交叉验证设置面板、数据集设置面板以及算法设置面板。(更多API信息见API文档,如果需要,我们可提供源代码)图2-1LySpoon面板布局3 数据过滤算法设置数据过滤设置对应的面板见图3-1

4、(图2-1的截图)。其包括3个部分:添加(编辑)过滤算法、保存位置以及运行算法。图3-1数据过滤模块3.1 添加过滤算法点击控件“添加新过滤算法”,弹出如图3-2窗口用于选择(配置)相关算法。点击图3中的按钮“选择算法”弹出如图3-3窗口,通过该窗口选择相关算法。为了方便说明这里选择LySpoon.Filter.UnSupervised.Normalize其中,UnSupervised表示无监督的过滤算法,Normalize表示算法将数据集中连续属性值规范化到一个指定的范围。具体见图3-4(系统自动解析类中的相关参数),其中,lowerLimit表示下限,upperLimit表示上限。点击按钮

5、“确定”即可。效果见图3-5.图3-2选择过滤算法界面图3-3选择过滤算法窗口图3-4过滤算法参数设置窗口图3-5选择算法完成3.2 保存位置设置点击图3-1(或图3-5)中的按钮“保存到目录”,弹出如图3-6所示的窗口,为了方便说明,我们选择保存到目录E:/Filter/中。图3-6保存过滤文件窗口3.3 运行过滤算法点击图3-1(或图3-5)中的 “运行过滤算法”按钮,会弹出运行状态提示窗口(如图3-7)。该窗口提示说明还未选择要处理的数据集。为了方便说明,这里选择数据集labor.lyp,如图3-8所示(具体数据集添加方法见第5节)。再次点击按钮“运行过滤算法”,弹出如图3-8所示窗口,

6、相关结果可以到文件夹E:/Filter/(3.2中设置的参数)中查看。图3-7运行过滤算法窗口图3-8数据集的选择窗口图3-9算法运行窗口4 交叉验证见图4-1,其为图2-1的部分截图。其中交叉验证折数是指把原始数据集分成多少份,以此交叉验证以测试算法性能,执行次数是指执行多少次交叉验证。例如,图4-1表示的意思是,执行1次10折交叉验证,从而可以进行算法性能测试(算法设置见第6节)。图4-1交叉验证设置窗口5 添加数据集设置图5-1为添加数据模块的截图,其为图2-1的一部分。5.1 添加数据集点击“添加新数据集”按钮,弹出如图5-2的数据集选择窗口。为了方便说明,这里选择数据集文件glass

7、.lyp和labor.lyp 。点击“打开”按钮,则进入界面图5-3。图5-1数据集管理窗口图5-2添加数据窗口5.2 删除数据集选择窗口中的数据集后,点击按钮“删除数据集”删除数据集。图5-3添加数据后窗口6 算法设置图6-1为算法设置模块,其为图2-1中的一部分。包含如下3种操作:添加算法、删除算法和运行算法。图6-1添加算法模块6.1 添加算法点击图6-1中的按钮“添加算法”,进入算法编辑对话框,如图6-2。默认情况下,该对话框显示C4.5的配置情况。可通过该对话框对相关算法的参数进行设置、也可以通过点击图6-2中的按钮“选择算法”来选择其它算法,如图6-3所示。为了方便说明,这里选择分

8、别选择C45算法和NaiveBayes算法,点击“确定”按钮,进入如图6-4所示的界面。图6-2算法设置界面图6-3算法选择窗口6.2 删除算法首先选中图6-4中的算法,然后点击按钮“删除算法“即可。图6-4删除算法6.3 运行算法点击图6-1(或图6-4)中的按钮“运行”,则系统自动收集如下信息:交叉验证设置(见第4节)数据集集合(见第5节)图6-1底部(或图6-4左下角)的相关设置:-分类按钮:表示支持的是普通的分类问题-不平衡类:表示支持不平衡类问题-去标号比率:表示把训练数据集设置为缺失类标号的比率,用于评估半监督分类算法的性能。点击“运行”按钮后,系统进入T-测试分析窗口(见图6-5

9、),其运行的中间过程见图6-6。由于当前算法并没用运行结束,所以,分析方法还不能运行。当算法运行结束后,T-测试分析窗口被设置为可编辑状态(见图6-7)。其包括3个编辑域:(1)评估指标(图中选择准确率),(2)T-测试的显著水平(图中为0.05),(3)选择基比较对象。点击按钮“运行分析”得到如图6-8的运行结果,其中,形如(14.35)部分表示算法在相应数据集合的性能的标准差*表示基算法在相应数据集合上,性能在统计意义下优于相应的比较算法v表示基算法在相应数据集合上,性能在统计意义下劣于相应的比较算法从图6-8可以看出,两个算法在2个数据集性能相当(统计意义下比较)。更多的参数与算法说明见API文档图6-5T-测试分析窗口图6-6算法运行动态窗口图6-7T-测试参数选择窗口图6-8T-测试结果输出11

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号