基于临床数据的数据挖掘软件开发——分类分析模块及关联规则模块设计---开题报告

资源描述

《基于临床数据的数据挖掘软件开发——分类分析模块及关联规则模块设计---开题报告》由会员分享，可在线阅读，更多相关《基于临床数据的数据挖掘软件开发——分类分析模块及关联规则模块设计---开题报告（15页珍藏版）》请在金锄头文库上搜索。

1、本本科科毕毕业业论论文文基于临床数据的数据挖掘软件开发基于临床数据的数据挖掘软件开发分类分析模块及关联规则模块设计分类分析模块及关联规则模块设计The Software Development of Clinical Data MiningThe Design of Classification Analysis Module and Association Module姓名：学号：学院：系：专业：年级：校内指导教师：助理教授年年月月毕业论文任务书毕业论文任务书题目：基于临床数据的数据挖掘软件开发分类分析模块及关联规则模块设计目标要求：一、整体设计目标完

2、成一个针对癌症病理医学临床数据的数据分析挖掘软件，包括后台功能的实现和前台管理软件界面的设计。基于 weka 进行二次开发，参考AlphaMiner 和 KNIME 的分析流程及可视化功能，完成算法程序的设计以及实现相应的软件包，并最终保证软件界面友好，运行稳定，功能完善。二、分类器模块设计目标简述模块功能：选择要处理的数据集，对数据集进行分类处理。针对数据集可以选择不同的算法，最基本的分类器算法有：朴素贝叶斯、多层感知器、神经网络、J48 决策树，集成学习算法，其中集成学习又可以选用多层感知器、神经网络、J48 决策树的方法。模块算法可以添加、删除、扩展等新的功能。功能算法部分采用如果库函

3、数有则直接调用，没有则直接编写的原则，实现基于 weka 库函数的若干算法。实现不同算法的参数设置、保存、修改、及解释。数据的查看，决策树挖掘结果的树形可视化，文本结果的保存等。设置测试选项，实现 5 折交叉测试和 10 折交叉测试。三、关联规则模块设计目标：简述模块功能：关联规则挖掘是软件设计的最基础目标，目的在于挖掘出不同类型数据之间的联系。采用 weka 库函数提供的 Apriori 算法，实现 Apriori算法的参数设置、保存、修改、及解释，以此为基础实现基于单表的管理规则挖掘，选择特定的两属性进行关联规则挖掘。采用将两个不同的数据源合并的方法实现基于多表的关联规则挖掘。编写 JSA

4、priori 算法，在有一个数据表的基础上，再导入一个数据表，并通过关键字段将两表连接成为一个表对拓展后的表进行数据挖掘。支持条件：学校图书馆学院实验室权威学术刊物数据库校内指导教师（签名）职称学生（签名）分阶段进度安排分阶段进度安排阶段起讫时间计划完成内容12009 年 11 月 16 日-2010 年 1 月 11 日阅读文献资料，理解任务，完成开题报告。22010 年 1 月 12 日-2010 年 3 月 19 日项目总体设计和详细设计，完成中期检查报告。32010 年 3 月 20 日-2010 年 4 月 15 日系统编码实现。42010 年 4 月 15 日-2010 年

5、 5 月 10 日系统测试与完善以及论文的撰写、修改。52010 年 5 月 10 日-2010 年 6 月 10 日论文定稿，准备论文答辩。注：一般可分为资料文献搜索、拟定方案（提纲）、试验或初稿、定稿等阶段教师分阶段指导记录教师分阶段指导记录第一阶段：指导时间：2009 年 11 月 16 日-2010 年 1 月 11 日指导内容：阅读文献资料，理解任务，完成开题报告阶段任务：指导完成论文题目的选定，并提供给相应的课题材料用于参考与分析，明确参考文献的查找范围。帮助理解任务，指导完成开题报告。第二阶段：指导时间：2010 年 1 月 12 日-2010 年 3 月 19 日指导内容：进

6、一步调研，部分完成核心模块代码，完成中期检查报告阶段任务：进一步细化和理解系统需求，指导学生掌握相关知识。第三阶段：指导时间：2010 年 3 月 20 日-2010 年 4 月 15 日指导内容：逐步完成项目的概要设计和详细设计以及系统编码阶段任务：在学生有了详细设计之后，帮助学生完成代码的编写，实现各个功能模块。第四阶段：指导时间：2010 年 4 月 15 日-2010 年 5 月 10 日指导内容：指导完成论文初稿阶段任务：进行系统测试，并指导学生组织材料，完成论文初稿。第五阶段：指导时间：2010 年 5 月 10 日-2010 年 6 月 10 日指导内容：指导完成毕业论文及准备

7、答辩阶段任务：通过对论文初稿的评阅，指出其论文内容和格式上的问题，指导他们进行更正，并最终完成毕业论文。并指导学生准备毕业论文答辩。厦门大学软件学院毕业设计（论文）开题报告学生姓名班级06 级 1 班学号校外指导教师姓名/职称/所在单位/校内指导教师姓名刘昆宏职称助理教授所在单位厦门大学软件学院毕业设计（论文）题目基于临床数据的数据挖掘软件开发分类分析模块及关联规则模块设计毕业设计（论文）的目标：一、整体设计目标完成一个针对癌症病理医学临床数据的数据分析挖掘软件，包括后台功能的实现和前台管理软件界面的设计。基于 weka 进行二次开发，参考AlphaMiner 和 KNIME 的

8、分析流程及可视化功能，完成算法程序的设计以及实现相应的软件包，并最终保证软件界面友好，运行稳定，功能完善。二、分类器模块设计目标简述模块功能：选择要处理的数据集，对数据集进行分类处理。针对数据集可以选择不同的算法，最基本的分类器算法有：朴素贝叶斯、多层感知器、神经网络、J48 决策树，集成学习算法，其中集成学习又可以选用多层感知器、神经网络、J48 决策树的方法。模块算法可以添加、删除、扩展等新的功能。功能算法部分采用如果库函数有则直接调用，没有则直接编写的原则，实现基于 weka 库函数的若干算法。实现不同算法的参数设置、保存、修改、及解释。数据的查看，决策树挖掘结果的树形可视化，文本结果

9、的保存等。设置测试选项，实现 5 折交叉测试和 10 折交叉测试。三、关联规则模块设计目标：简述模块功能：关联规则挖掘是软件设计的最基础目标，目的在于挖掘出不同类型数据之间的联系。采用 weka 库函数提供的 Apriori 算法，实现 Apriori算法的参数设置、保存、修改、及解释，以此为基础实现基于单表的管理规则挖掘，选择特定的两属性进行关联规则挖掘。采用将两个不同的数据源合并的方法实现基于多表的关联规则挖掘。编写 JSApriori 算法，在有一个数据表的基础上，再导入一个数据表，并通过关键字段将两表连接成为一个表对拓展后的表进行数据挖掘。实现方法：一、基本环境开发工具：Eclipse

10、/MyEclipse开发语言：Java开发环境：Windows XP项目管理：SVN二、概念及原理(一)分类器原理分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程：第一步,建立一个模型，描述预先的数据集或概念集，是为学习阶段。第二步，通过分析由属性描述的样本（或实例，对象等）来构造模型。1、分类方法介绍假定每一个样本都有一个预先定义的类，由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集。Weka 分类算法的父类已经定义好了类 Classifier 的结构和框架，其中有三个最主要的方法：a)buildClassifier():这是一个抽象方法

11、，所有继承他的类都要事先改方法。用于构造分类器，这是分类算法的统一接口，不同的分类算法主要就是在这个方法上不同，如 Bayes 等。b)classifyInstance()建立了分类学习模型后，训练了一定的数据，求每一个实例的类概率，就是这个方法实现的，用于预测实例更可能属于的类别，主要用于预测类标志为数值类型的分类。c)distributionForInstance()用于预测给定实例归为某个类的概率。如果实例没有被分类，返回一个全零的数组，如果类标志是数值类型的，则只返回一个值。所有的分类器必须实现 classifyInstance()和 distributionForInstance()

12、中的一个。2、分类器算法1)朴素贝叶斯(NBC)基于贝叶斯定理：朴素贝叶斯模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。在属性相关性较小时，NBC 模型的性能最为良好。朴素贝叶斯模型：Vmap=arg max P( Vj | a1,a2.an) Vj 属于 V 集合，其中 Vmap 是给定一个 example,得到的最可能的目标值，其中 a1.an 是这个 example 里面的属性， Vmap 目标值,就是后面计算得出的概率最大的一个.所以用 max 来表示。2)多层感知器(MLP)使用感知器的主要目的是为了对外部输入进行分类。多层感知器是通过在单层感知器的输入、输出层之间加

13、入一层或多层处理单元所构成的，它的输入与输出之间是一种高度非线性的映射关系，可以实现非线性可分问题的分类。3)RBF 神经网络神经网络思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。人工神经网络就是模拟人思维的第二种方式，其特色在于信息的分布式存储和并行协同处理。4)J48 决策树决策树算一种类似于流程图的树结构，其中每个内部节点表示一个属性上的测试，每个分枝代表一个测试输出，而每个树叶节点存放一个类标号。决策树很擅长处理非数值型数据。5)集成学习（Bagging）使用 bagging 算法进行预测，分

14、别选择 J48 决策树，多层感知器和 RBF神经网络作为基学习器，在单个学习器相同参数设置的情况下比较使用单个学习器与使用集成学习系统获得的结果有什么不同，并分析原因；一般设置基学习器个数为 10。(二)测试集选项)()()|()|(XPHPHXPXHP之所以要作测试主要算为了测试算法的准确性，最常用的测试方法有两种：设置测试集和交叉测试。选择选项里面的测试方式：1) 设置测试集(Supplied test set)：需要导入测试集树据与原数据集处理的结果进行对比分析。2) 交叉测试：设置交叉测试参数(Cross-validation Flods)，测试参数设置的越大准确性越高，但同时需要花费

15、的时间也多，因此为了取得效率和质量的平衡，一般设置参数为 10 即 10 折交叉验证。为了满足不同测试数量的结果不同还要实现 5 折交叉验证。具体功能实现包含在参数设置模块里面。(三)关联规则原理数据关联：数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets)。第二阶段再由这些高频项目组中产生关联规则(Association Rules)。1、Apriori 算法：Apriori 算法是一

16、种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。Apriori 在 weka 中关联规则用到的核心类有：Apriori.java,AprioriItemSet.java,ItemSet.java。Apriori.java 实现了 Apriori 类, 它是 Apriori 算法实现的主类。在对数据源文件进行 Apriori 算法运算时, 就是从该类的 main 函数调用开始的。Apriori 中用到的关键函数有：resetOptions():被构造函数 Apriori()调用, 完成初始化变量的工作;buildAssociations(Instances):本函数是生成关联规则的核心函数, 它调用了findLargeItemSets 和 findRulesQuick

展开阅读全文

基于临床数据的数据挖掘软件开发——分类分析模块及关联规则模块设计---开题报告

最新文档