数据挖掘WEKA实验报告

上传人:cn****1 文档编号:491219591 上传时间:2022-08-14 格式:DOCX 页数:12 大小:28.42KB
返回 下载 相关 举报
数据挖掘WEKA实验报告_第1页
第1页 / 共12页
数据挖掘WEKA实验报告_第2页
第2页 / 共12页
数据挖掘WEKA实验报告_第3页
第3页 / 共12页
数据挖掘WEKA实验报告_第4页
第4页 / 共12页
数据挖掘WEKA实验报告_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《数据挖掘WEKA实验报告》由会员分享,可在线阅读,更多相关《数据挖掘WEKA实验报告(12页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘-WAKA实验报告一、WEKA 软件简介在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据 日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用, 但是却可以为一些公司的决策和对客户的服务提供不小的价值。因此 ,我们 可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计 算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于 回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式, 进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来 解决问题。

2、WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。WEKA 是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis )。WEKA 是由 JAVA 编写 的,WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在 所有的操作系统中。是一款免费的,非商业化的机器学习以及数据挖掘软 件WEKA 作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘 任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联 规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的 话,可以看一看 WEK

3、A 的接口文档。在 WEKA 中集成自己的算法甚至借鉴它 的方法自己实现可视化工具并不是件很困难的事情。安装WEKA也十分简单,首相要下载安装JDK环境,JDK在这个页面可以 找到它的下载。点击 JDK6 之后的 Download 按钮,转到下载页面。选择 Accepct,过一会儿页面会刷新。我们需要的是这个 WindowsOfflineInstallation,Multilanguagejdk6windowsi586.exe5 3.16MB,点击它下载。也可以右键点击它上面的链接,在Flashget等工具中下载。安装它和一般软件没什么区别。不过中间会中断一下提示你安装JRE, 并装上即可。之

4、后就是安装 WEKA 软件,这个在网上很多地方都有。同样简单 地按默认方法安装后即可使用。点击启动运行 WEKA 软件后,我门发现 WEKA 存储数据的格式是 ARFF(Attribute-RelationFileFormat )文件,这是一种 ASCII 文本文件。我 们如图 1 通过软件的 Tools 菜单进入 ArffViewer 可以在安装目录下查看软 件自带的几个 ARFF 文件。图1图2如图2,打开文件后选择data自目录下的任意一张表,我们都可以看到如图3 所示的二维表格存储在如下的 ARFF 文件中。这也就是 WEKA 自带的 “contact-lenses.arff ”文件。

5、这里我们要介绍一下 WEKA 中的术语。表格 里的一个横行称作一个实例(Instanee),相当于统计学中的一个样本,或者 数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一 个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在 WEKA 看来,呈现了属性之间的一种关系(Relation)。图1中一共有22个实例,5个 属性,关系名称为“ con tact-lenses 。除了 ARFF 格式, WEKA 还支持另外一种常见格式, CSV 格式。 CSV 同样是 一种二进制保存的文本格式,我们可以在WEKA中直接打开CSV格式的文件, 并保存为ARFF格式。

6、这样就给我提供了把常见的数据格式转换为ARFF格式的 方法,如对于Excel文件,我们可以通过把每张表保存为CSV格式,进而保存为 ARFF格式,与此同时,我们可以利用filter对数据进行相应的预处理。而对于 Matlab格式的数据,我们可以通过命令csvwrite把数据转化成CSV格式的文件, 进而转化为ARFF格式文件。对于海量数据,一般保存在数据库中,WEKA同时 支持JDBC访问数据库。图3打开WEKA,首先出现一个命令行窗口。原以为要在这个命令行下写java语句呢,不过稍等一秒,WEKAGUIChooser的出现了。这是一个很简单的窗体,提供四个按钮:SimpleCLI、Explo

7、rer、Experimenter、KnowledgeFlow。SimpleCLI应该是一个使用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗模式下的数据挖掘工具;Experimenter和KnowledgeFlow的使用有待进 一步摸索图4(1) Explorer使用WEKA探索数据的环境。在这个环境中,WEKA提供了数据的预处理,数据格式的转化(从CSV格式到ARFF格式的转化),各种数据挖掘算法(包括分 类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一 个数据集,通过简单的数据的预处理,并对数据挖掘算法进行选择(在WEKA3.5 版本之后,加入了算法的

8、过滤功能,可以过滤掉那些不适合当前数据集类型的算 法),接着通过窗口界面对算法的参数进行配置。可视化工具分为对数据集的可 视化和对部分结果的可视化,并且我们可以通过属性选择工具(SelectAttribute), 通过搜索数据集中所有属性的可能组合,找出预测效果最好的那一组属性。Explorer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用 的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后,可以选 择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如 含有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。 这些都是比较直观的分析,如

9、果想发现隐藏在数据集背后的关系,还需要选择 Weka提供的各种分类、聚类或关联规则的算法。所有设置完成后,点击Start 按钮,就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠 经验来判断。(2)Experimenter运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以 让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方 便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes), 然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。Explorerme nter主要包括简单模式,复杂模式和远程模式。复

10、杂模式是对简 单模式的基本功能的扩充,而远程模式允许我们通过分布式的方法进行实验。 就功能模块而言,分为设置模块,运行模块和分析模块。在设置模块中我们可以 自定义实验,加入多个算法和多方的源数据(支持ARFF文件,CSV文件和数据库), 在运行模块中我们可以运行我们的实验,而在分析模块中,我们可以分析各种算 法的的准确性,并提供了各种统计方法对结果进行检验比较。值得一提的是,我们可以把实验的各种参数,包括算法,数据集等,保存以 方便下一次相同实验的进行;也可以把各种算法保存,方便应用在不同的数据集 上;如果数据集来源于数据库的话,实验在过程中可以中止并继续(原因可以是 被中止或者是扩展了实验)

11、,这样就不用重新运行那些已实验过的算法/数据集 祝贺,而仅计算还没有被实验的那些。(2)KnowledgeFlowExplorer的一个不足在于,当用户打开一个数据集时,所有数据将全部被读 入到主存当中,随着任务规模的增大,普通配置的计算机很难满足要求。 KnowledgeFlow提供了一个用于处理大型数据集的递增算法,专门处理这一问题。 这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界 面。它有一个优势,就是支持增量学习(in creme ntallear nin g)。KnowledgeFlow为WEKA提供了一个数据流形式的界面。用户可以从一 个工具栏中选择

12、组件,把它们放置在面板上并按一定的顺序连接起来,这样组成 一个知识流(knowledgeflow)来处理和分析数据。目前,所有的WEKA分 类器(classifier)、筛选器(filter)、聚类器(clusterer)、载入器(loader)、 保存器(saver),以及一些其他的功能可以在KnowledgeFlow中使用。KnowledgeFlow可以使用增量模式(incrementally)或者批量模式(inb atches)来处理数据(Explorer只能使用批量模式)。当然对数据进行增量 学习要求分类器能够根据各实例逐个逐个的更新.现在WEKA中有五个分类器能 够增量地处理数据:N

13、aiveBayesUpdateable, IB1, IBk, LWR (局部加权回归)。 还有一个meta分类器RacedI ncreme ntalLogitBoost可以使用任意基于回归的学 习器来增量地学习离散的分类任务。(4)SimpleCLI提供了一个简单的命令行界面,能通过键入文本命令的方式来实现其他三个 用户界面所提供的所有功能,从而可以在没有自带命令行的操作系统中直接执行 WEKA命令。使用命令行有两个好处:一个是可以把模型保存下来,这样有新的待预测数 据出现时,不用每次重新建模,直接应用保存好的模型即可。另一个是对预测结 果给出了置信度,我们可以有选择的采纳预测结果,例如,只考

14、虑那些置信度在 85%以上的结果。二、实验案例介绍本文用WEKA软件作为工具,结合券商的基金某一个时段交易业务数据进 行分析。实验的数据是一个交易周的基金交易业务数据。该表含有date(日期)、 fund_code(基金代码)、fund_name (基金名称)、company_code(基金公司代码)、 company (基金公司名称)、business_code (业务代码)、business_name (业务 名称)、shares (基金份额)、balanee(资金金额)、fares (手续费)、fares_type (手续费类型)、in ter net_shares (网上交易基金份额)

15、、in ter net_bala nee (网 上交易资金金额)、remark (备注)等字段,通过实验,希望能找出客户的基金 交易分布情况。该数据的数据属性如下: date (numeric),交易发生日期; fund_code (numeric),基金代码; fund_name(character) ,基金名称; company_code(numeric) ,用于报送的基金公司代码; company(character) ,所属的基金公司; business_code(numeric) ,交易业务代码; business_name(character) ,交易业务名称; shares(nu

16、meric) ,基金交易份额; balance(numeric) ,资金交易金额; fares(numeric) ,交易手续费; fares_type(enum) ,手续费类型,取值范围“全额结算” /“净额结算”; internet_shares(numeric) ,网上交易基金份额; internet_balance(numeric) ,网上交易资金金额; remark(character) ,备注;皿人m-t八_L1三、数据分析我们给出一个 CSV 文件的例子( Fund-data.csv )。用 UltraEdit 打开 它可以看到,这种格式也是一种逗号分割数据的文本文件 ,储存了一个二维 表格。Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet )中, 我们只能把每个工作表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号