《一种基于生物数据的多层关联规则挖掘算法论文》-公开DOC·毕业论文

资源描述

《《一种基于生物数据的多层关联规则挖掘算法论文》-公开DOC·毕业论文》由会员分享，可在线阅读，更多相关《《一种基于生物数据的多层关联规则挖掘算法论文》-公开DOC·毕业论文（66页珍藏版）》请在金锄头文库上搜索。

1、分分类类号号学学号号 2004611700092 学校代码学校代码10487 密密级级硕硕士士学学位位论论文文一种基于生物数据的多层关联规则一种基于生物数据的多层关联规则挖掘算法挖掘算法学位申请人学位申请人学学科科专专业计算机软件与理论业计算机软件与理论指指导导教教师师教授教授答答辩辩日日期期 2007 年年 6 月月 2 日日 A Thesis Submitted in fulfillment of the Requirements for the Degree of Master of Engineering An Algorithm for Mi

2、ning Biological Data Multilevel Association Rules Candidate Zhang Ping Major Computer Software and Theory Supervisor Prof Lu Yansheng Huazhong University of Science but existing algorithms still have some shortcomings The proposed algorithms for mining multilevel association rules such as Cumulate a

3、lgorithm and ML T2L1 algorithm are based on Apriori algorithm These algorithms still adopt candidate generate and test method to get frequent patterns which cause large cost in computing and I O so they are inefficient Improved from FP Growth algorithm MAGO FP an optimized data mining technique to d

4、iscover the multilevel association rules from gene expression data and the concept hierarchy of Gene Ontology GO has been proposed The following measures are applied to expand FP Growth algorithm 1 Expanding every transaction by adding all ancestors of each item during the process of scanning the da

5、tabase This measure ensures that we can get multilevel association rules 2 Deleting the ancestors that are not frequent items in time to compress search space and enhance the efficiency of mining 3 Avoiding generating redundant frequent patterns The multilevel association rules mining algorithm can

6、figure out the relations between GO terms by summarizing the genes with the hierarchy of GO An experiment showed that MAGO FP algorithm got the same result as Cumulate algorithm did and inherited the strongpoint of high efficiency of FP Growth algorithm A data set of 300 expression profiles for yeas

7、t has been analyzed using the algorithm we found numerous rules in the data A cursory analysis of some of these rules reveals numerous associations between certain genes many of which made sense biologically others suggesting new hypotheses that may worth of being further investigated The algorithm

8、could be used to analyze gene expression profiles and uncover gene networks Key words Data Mining Multilevel Association Rules Gene Ontology MAGO FP Algorithm 华华中中科科技技大大学学硕硕士士学学位位论论文文 II 目目录录摘要 I Abstract II 1 绪论 1 1 研究背景与意义 1 1 2 关联规则挖掘研究进展 2 1 3 生物数据关联规则挖掘的基本步骤 11 1 4 论文组织结构 14 2 关联

9、规则挖掘算法 2 1 关联规则的定义和相关概念 15 2 2 两种经典的关联规则挖掘算法 17 2 3 多层关联规则的定义和相关概念 25 2 4 两种经典的多层关联规则挖掘算法 28 2 5 小结 31 3 GENE ONTOLOGY 结构下优化的多层关联规则挖掘算法 3 1 基于 APRIORI 算法的多层关联规则挖掘算法的局限性 32 3 2 基因本体论 GENE ONTOLOGY 及其概念分层结构 32 3 3 MAGO FP 算法 39 3 4 小结 44 4 MAGO FP 算法的实验分析 4 1 实验平台与过程 45 4 2 性能优势分析 45 华华中中科科技技大大学学

10、硕硕士士学学位位论论文文 III 4 3 实验结果与分析 46 4 4 小结 48 5 结论 50 致谢 51 参考文献 52 附录 1 攻读学位期间发表论文目录 60 华华中中科科技技大大学学硕硕士士学学位位论论文文 0 1 绪绪论论 1 1 研究背景与意义研究背景与意义生命科学近年来获得突破性进展 1 随着生物学和医学的迅速发展生物数据呈指数级增长无论是在数量上还是在质量上都极大的丰富了生命科学的数据资源提供了揭开生命奥秘的数据基础然而生物数据种类丰富高通量维数高本质上具有异质性与网络性远远超出传统的分析方法的能力和速度其处理

11、挖掘分析和理解日益迫切如何分析这些具有丰富内涵的数据并从中获得关生物结构和功能的信息从中得到对人类有益的信息是生物研究的瓶颈是当前研究所面临的一个严峻挑战生物信息学是在此背景下发展起来的综合运用生物学数学信息学以及计算机科学等诸多学科理论方法的崭新交叉学科是在生命科学的研究中以计算机科学知识为辅导工具对生物信息进行储存检索和分析的科学是当今生命科学和自然科学的重大前沿领域之一它包含两方面的内容一方面是对海量数据的搜索管理服务即管好数据另一方面从中发现规律即读懂数据随着人类基因组计划的完成生物信息学的研究重点已经从开始的序列分析数据

12、库查询逐渐向生物信息的挖掘表达数据多样性分析的方向发展高通量实验数据分析成为目前生物信息学研究的热点和重点这些数据是通过一些高通量实验测量技术得到的往往包含着几千个基因或基因片断和几十个属性高通量实验数据无论是转录水平上还是蛋白质水平上其中都蕴含着丰富的生物学知识可以帮助我们理解基因理解生物理解细胞等等例如某疾病是由什么基因引起的细胞是处于正常还是恶化状态药物对肿瘤细胞是否有效等由于越来越多数据得以公开人们迫切希望通过数据挖掘技术在这些具有丰富内涵的海量数据中获得有益的信息对高通量实验数据的分析可以获取基因功能和基因表达调控信息这是生物信息学的

13、重大挑战之一也是基因组学蛋白质组学的相关实验技术能够在生物医学领域中广泛应用的关键原因之一它们在医学临床诊断药物疗效判断揭示疾病发生机制等方面有重要的应用华华中中科科技技大大学学硕硕士士学学位位论论文文 1 数据挖掘 2 是新兴的一种科学计算技术与数据分析方法它能够有效地从存有海量信息的数据库中提取隐含的事先未知的潜在的和有用的信息和知识经过多年的研究与发展它已经成为一项很重要的数据分析工具作为一种以数据库统计学和人工智能学为基础的新兴技术数据挖掘给基因组学家们提供了前所未有的数据分析工具为基因和蛋白信息的分析和提取提供了强有力的手

14、段生物信息学数据挖掘两者的结合不论是现在还是将来不论在理论上还是应用上都具有十分重要的意义因此生物数据挖掘日益重要逐渐成为生物信息学研究领域的关键数据挖掘的常用技术中聚类和分类技术已经成为基因鉴定功能预测和基因表达分析等研究中最常用的手段而关联规则挖掘技术作为分析海量数据库中项目间相关联系的重要技术目前在生物学领域中并未得到广泛应用相应的算法也不够成熟与数据挖掘的其他技术相比关联规则更能挖掘出基因间的网络结构因为聚类和分类技术只能显示数据中基因群普遍的表现形式而关联规则的频繁模式集不但可以显示出表现形式其所产生的推论规则更可以描述基因间的联系另

15、外还有支持度和置信度参数可供生物学家作评价标准同时关联规则能有效的克服聚类等分析技术只能将基因分到某一群往往忽略了基因可能同时参与几个生化路径的缺点但是目前的生物数据关联规则挖掘算法仍然存在着挖掘结果缺乏很强的生物学意义候选规则冗余度高和挖掘计算效率低等不足迫切需要针对生物数据的特殊性建立适用的关联规则挖掘算法本研究拟选用 Gene Ontology 完善的概念层次结构 3 通过对 FP Growth 算法 4 进行扩展期望实现一种优化的生物数据多层关联规则挖掘算法能有效地克服传统的基于 Apriori 5 的多层关联规则挖掘算法的缺点大幅提高挖掘效率并且保

16、证挖掘结果具有良好的生物学意义因此拟提出的新算法预期在基因表达分析基因调控网络等研究中具有广泛的应用价值 1 2 关联规则挖掘研究进展关联规则挖掘研究进展关联规则挖掘是发现大量数据中项集之间有趣的关联或相关关系它是数据挖掘中的一个重要问题其研究目标是找出满足最小支持度和最小可信度要求的关联规则关联规则是形如 AB 的蕴涵式其中 A B 都是项集一般地关联规则发华华中中科科技技大大学学硕硕士士学学位位论论文文 2 现分为找出所有的频繁项集和由频繁项集产生强关联规则两个步骤其中找出所有的频繁项集是关联规则算法的性能瓶颈因此绝大部分对关联规则算法的研究都集中在第一步即如何在保证精度的基础上提高算法的运行效率其中精度是指所找出的频繁项集的满足要求的程度 1993 年 Agrawal 等提出了关联规则发现问题 6 同时提出了第一个频繁项集发现算法此后在各种问题背景下围绕着提高算法效率和结果的有用性即用户对其感兴趣程度研究者们提出了各种频繁项集发现算法 7 8 根据这些算法的研究重点不同可将其分为基本频繁项集发现算法

展开阅读全文

《一种基于生物数据的多层关联规则挖掘算法论文》-公开DOC·毕业论文

最新文档