数据挖掘技术在生物信息学中的应用

资源描述

《数据挖掘技术在生物信息学中的应用》由会员分享，可在线阅读，更多相关《数据挖掘技术在生物信息学中的应用（4页珍藏版）》请在金锄头文库上搜索。

1、参考文献 1 扬1l fV & N 盯的有线自视收赞及客户管理幕托设计与实现 J 自* 与信息技术2 0 0 42 3 33 6 z 簧智趣蚌蚌着s l l 且lB a s i cN E T 目* 发实践 M 北京中国接道m # 2 0 0 3l o 2 2 2 2 8 2 站黄鹏，鬻值曹弱超V b l l h s i c N L T 信息系统设计与* 发实例 M n 京机械I 业版社2 0 0 531 5 3 作者简介，1 9 6 5 1 1 月女1 9 8 5 年7 月单t f n 匕i 学2 0 0 3 2 毕t f $ n 荦# 怠擘，H 擘n m 博在4 # m * i 学* 耳

2、# 学自撞$ 荦E M t 、# # i * 自自算机# * | 白柱雪陈耒知 ( 沈阳化工学院计算矾科学与技术学院1 1 0 1 4 2 ) 摘要生物信息学是一门新* 的交叉学科。人党基目组计划的启动和实旄使得按醺、蛋自质数据迅速增长如何从海量数据中获取有效信息成为生特信息举迫切耍解央的问题研究证明教据挖掘技术是生曲信患处理的强有力I 具。数据挖掘在生轴信患学中的应用将取得夏大的进晨。美羹词生暂信息学数据挖掘数据库 1 引言随着人粪基因组计划的实臆通过基因组序列、蛋白质序刊的测序，蛋白质结构与功能的预溅等实验，分子生物学家提供了大量的有关生物分子的原始散据，进些数据需要综台

3、利用数学、物理、信息科学与技术荨进行处理和分析t 因而生物信息学应运而生。它是分子生物学与上述学科交叉结合的产物。大量的生物信息数据还在继续快速增长，国内外各种生物信息数据处理新方法的研究工作正在擞烈的展开。其中数据挖掘技术在生物信息数据处理中的应用研究具有广阔的空间。 2 相关概念 2 1 生物信息学的概念生物信息学是以棱酸、蛋白质等生物太分子敷据库为主要对象，以散学、信息学、计算机科学为主要手段t 以计算机硬件、软件和计算机网络为主要工具t 对浩如烟拇的原始数据进行存储、管理、注释、加工使之成为具有明确生物意义的生物信息。并通过肘生钎信息的查询、搜索、比较、分析，从中获取基因

4、编码、基因调控、校酸和蛋白质结构功能及其相互关系簪理性知识在大量信息和知识的基础上探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重太问题搞清它们的基本规律和时空联系，建立“生物举周期表” 很显然t 生物信息学的研究对象是生物数据当然最“经典”的是分子生物学散据使基因纽技术的产物：D N A 序列，后基因组时代将从系统角度研究生命过程的各个层次，走向探索生命过程的每个环节微观( 深到研究单十分子的结构和运动规律) 和宏观( 节和宏观生态学，从大的角度来研究生命过程) 。着重于“序列结拇、功能，应用”中的“功能和应用”部分就研究面来说涉及并参与各生命科

5、学领域的研究。，2 8 2 2 数据挖掘概念数据挖掘也称为数据库知识发现( K n o w l e d g eD i s c o v 2 e r yi nD a t a b a s e ，K D D ) ，是从数据库中识别出有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程 1 。它被广泛的应用到各个领域，挖掘数据之间潜在的模式，找出有价值的信息。K D D 的基本过程如图1 所示，由以下部分组成： ( 1 ) 数据预处理( 包括数据清理、数据集成、数据变换、数据归纳，为数据挖掘做准备 ( 2 ) 数据挖掘( 核心步骤，使用智能方法提取数据模式) ( 3 ) 模式评估( 根

6、据某种度量，识别表示知识的真正模式) ( 4 ) 知识表示( 使用可视化知识表示技术，向用户提供挖掘的结果知识) 图IK D D 的基卒过程可以看出，数据挖掘是K D D 的核心部分，是采用机器学习、运筹学、统计方法等进行知识发现的阶段。但是从广义上讲，数据挖掘的定义就是从海量数据中提取知识的过程，也就等同于K D D ，这个定义在各界普遍流行。本文也采用“数据挖掘”的广义观点。数据挖掘是在已有的大量数据中寻找模式的决策支持过程，它从理论和技术上继承了知识发现领域的成果，同时又借鉴了许多其他领域的理论和算法，如机器学习( m a c h i n el e a r n i n g )

7、、模式识别( p a t t e r n r e c o g n i t i o n ) 、人工智能( a r t i f i c i a l - - i n t e l l i g e n t ) 以及统计学( s t a t i s t i c s ) 等。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。 3 数据挖掘技术在生物信息学的应用生物信息学是把基因组D N A 序列信息分析作为源头，找到基因组序列中代表蛋白质和R N A 基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在D N A 序列中的遗

8、传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律 2 。生物信息学自诞生以来，经历了3 个阶段：( 1 ) 基因年代的生物信息学，主要是序列分析、数据库的查询、计算机操作和P C 的应用；( 2 ) 基因组年代的生物信息学，主要是基因的寻找、数据与数据之间的比较、网络相互界面；( 3 ) 后基因组年代的生物信息学，主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析，而且进一步到基因和基因组的功能分析，即所谓的功能基因组研究。生物信息学的大

9、量研究都集中在D N A 数据的分析上，这里重点探讨其应用。D N A 分析的研究成果已经导致了对许多疾病和残疾的基因成因的发现，以及对疾病的诊断、预防和治疗的新药物、新方法的发现。基因研究中的一个重要关注点是D N A 序列的研究。所有的D N A 序列由四个基本的构块( 称为核苷) 组成：腺嘌呤( A ) 。胞核嘧啶( C ) ，鸟嘌呤( G ) ，胸腺嘧啶( T ) 。这4 个核苷组合构成很长的序列或链，类似一个双螺旋梯。人类有约1 0 万个基因。一个基因通常有成百个核苷按一定的次序组织而成。核苷按不同的次序和序列可以形成不同的基因，几乎是不计其数。具有挑战性的问题是从中找出导致

10、各种疾病的特定基因序列模式。由于在数据挖掘中已经有许多有意义的序列模式分析和相似的检索技术，因此数据挖掘成为D N A 分析中的强有力工具，并在以下方面对D N A 分析起作用 3 。 ( 1 ) 异构、分布式基因数据库的语义集成。广泛多样的D N A 数据高度分散、无控制地生成与使用，需要对这种异构和广泛分布的基因数据库的语义集成，以便对D N A 数据库进行系统而协同的分析。这促 1 2 9 进了集成式数据仓库和分布式联邦数据库的开发。 ( 2 ) D N A 序列间相似搜索和比较。序列比对是生物信息学的基础。在基因分析中一个最为重要的搜索问题是D N A 序列中的相似搜索和比较。

11、对分别来自带病和健康组织的基因序列，进行比较以识别两类基因间的主要差异。在基因序列相似与非相似的分析中，应用频繁序列模式，首先从两类基因中检索出基因序列，然后找出并比较每一类中频繁出现的模式。通常，在带病样本中出现频度超出健康样本的序列，可以认为是导致疾病的基因因素；另一方面，在健康样本中出现频度超出带病样本的序列，可以认为是抗疾病的因素。 ( 3 ) 关联分析。目前，许多研究关注的是一个基因与另一个基因的比较。但大部分疾病不是由单一基因引起的，而是由基因组合起来共同作用的结果。关联分析方法有助于发现基因组和对基因间的交叉与联系，帮助确定在目标样本中出现的基因种类。 ( 4 ) 路

12、径分析。引起一种疾病的基因可能不止一个，不过不同的基因可能在疾病的不同阶段起着作用。如果能找到疾病发展的不同阶段遗传因素序列，就有可能开发针对疾病不同阶段的治疗药物，从而取得更为有效的治疗效果。在遗传研究中路径分析能对同时出现的基因序列的区别，发现在疾病不同阶段的致因基因。 ( 5 ) 聚类分析。聚类通过把目标数据放人少数相对同源的组或“类”里，分析表达数据。a 通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。b 通过用最紧密关联的谱进行样本聚类，例如用简单的层级聚类方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。c 多维等级分析是一种

13、在二维“距离”中显示实验样本相关的程度。d K 2 m e a n s 方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。在基因的表达、D N A 序列的研究中，聚类分析已经成为标准的程序。 ( 6 ) 可视化工具和遗传数据分析。基因的复杂结构和序列模式通常可以通过各种可视化工具以图、树、方体和链的形式展现。可视化的结构和模式促进了模式理解，知识发现和数据交互是发展有力的数据可视化方法和工具。大规模基因表达数据挖掘另一重要方面。已经用简单图形显示提供聚类结果的途径，对大规模基因表达原始数据的可视化并链接的标注过的序列数据库，可为基因表达分析提供非常有价值的工具，有助于从

14、新的视角看待基因组水平的转录调控并建立模型。可视化因此在生物信息学的数据挖掘中起着重要的作用。 4 问题与展望生物信息学( B i o i n f o r m a t i c s ) 是一门新兴的交叉学科，相对于其他日渐成熟的学科来说，现在我们对生物信息学的研究才刚刚开始。但是它以巨大的发展潜力深深的吸引着世界各地的科研工作者，可以预见，继电子信息技术之后的下一个科技革命将由生物信息技术领头。数据挖掘技术解决生物信息学的研究将得益于数据挖掘的方法的不断改进与完善。反过来，生物信息学对工具的高要求也将促进数据挖掘技术的研究进展。随着数据挖掘技术的进步和生物信息研究的不断深入，它们两

15、者将会不断的相互渗透，越来越紧密的结合。我们正期待着数据挖掘和生物信息技术的完美结合，为整个人类带来无穷的财富。参考文献 1 F a y y a dUM ，P i a t e t s k y S h a p i r oG S m y t hP e ta 1 K n o w l e d g eD i s c o v e r ya n dD a t am i n i n glT o w a r daU n i fy i n g F r a m e w o r k M P r o K D D - - 9 6 M e n l oP a r k ，C A ：A A A I P r e s s ，1

16、9 9 6 8 2 8 8 2 陈润生生物信息学基因组研究的有力工具F E B O L h t t p ：w w w k e r n b i o c o m h o t d o t d e t a i ka s p ? h o t s i d = 9 5 1 2 0 0 1 1 1 1 6 3 J i a w e iH a n M i e h e l i n eK a m b e r 范明，孟小峰，译数据挖掘概念与技术 - M - I 北京：机械工业出版社，2 0 0 1 1 3 0 作者简介 $ t ，女1 9 7 6 1 2 月1 5B ，1 9 9 9 年7 阜i f * m i 幸研n n * i E

展开阅读全文