生物信息学第五章.doc

资源描述

《生物信息学第五章.doc》由会员分享，可在线阅读，更多相关《生物信息学第五章.doc（10页珍藏版）》请在金锄头文库上搜索。

1、第五章生物数据库的信息检索Andreas D Baxevanis国家人类基因组研究学会，基因组技术部国家保健学会马里兰州，Bethesda如第二章所述，建立GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说，GenBank是带有注释的公用DNA,蛋白质序列的集合。写作本书时，GenBank中有160万条链的纪录，含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方法：通过Sequin和BankIt等工具直接提交，或通过国际核苷酸序列数据库的组成部分GenBank，EMBL，和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性质的

2、进一步的信息参见第14章。GenBank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用?，否则就不会有很大的用处。？另外，因为总的来说生物学界还不能有效的利用隐藏在这些上百万的碱基及氨基酸之中的信息，排序的工作也没有很大的用处。为了使这些数据对于一般的使用者容易利用而做过很多努力，这些工作的结果程序和界面是本章的重点。因为这些更通用的数据库与生物学家通常使用的那些数据库相差很远，所以本章的论述集中在如何查询NCBI数据库上，但是本章同时也注意到一些较小的较专门的数据库，它们提供的信息在GenBank中未必能找到。检索数据库记录：检索服务器查询NCBI数据库最简单的方法可能是

3、使用名为Retrieve的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库，可以是简单的（只含有一个关键字或复合的（含有由逻辑算符组合的多个关键字）。服务器的地址为retrievencbi.nlm.nih.gov。同大多数邮件服务器一样，如果向服务器发送一封正文只含一个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。回顾第一章，使用一个邮件服务器时，向服务器发送的消息必须是严格的符合服务器可以理解的指令格式。如下例所示：此处，消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题，因此发送多条消息给服务器的时候加上一个描述性的标题有助于

4、使用者区分不同的查询结果。消息正文以名为DATALIB的查询参数开始，该参数表示应检索那一个可用的数据库（这里是查询SWISSPROT）。标志“BEGIN”表示没有别的检索参数了，紧接着的词都是搜索条件。可以用逻辑符号AND，OR，及NOT组合检索条件；圆括用于分隔检索条件；引号表示必须组合在一起的短语。本例中，服务器将会返回所有含有短语histone H1且含有单词Saccharomyces及Schizosaccharomyces之一的记录。如果不用逻辑运算符及分隔符（即，检索条件为histone H1 Saccharomyces Schizosaccharomyces，则在条件之间将会自动

5、加上OR，这不符合使用者的要求。这个复合查询的结果显示于图5.1。通常，提交的检索范围过大，返回的记录数远多于对查询者有用的数目。例如，前面的检索如果没写种类名的话将会失败，因为含有histone H1的记录太多。况且，即使这条短语并不是某条记录的真正主题，它也有可能出现在该记录之中：例如，这个短语是某篇论文的标题的一部分，但论文是讨论别的序列的。当查到的记录太多无法处理的时候，将会产生错误。输出行数及检索到的记录数都有上限；这主要是由于很多电子邮件系统不能处理太大的电子邮件信息，而且过多的泛泛的查询只会降低系统的速度。为了提高检索质量，用户可以设定额外的检索参数；用于改变行数或记录数的限制，

6、或只返回记录的标题而不是全部列出。用户也可以限制实际检索的域。回到上面的例子，如果检索条件以histone H1DEF开始，则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限制条件的完整的清单，以及可以检索的数据库的列表.图5.1 提交检索服务器的一个复合查询的结果。注意检索在SWISSPROT和更新过的SWISSPROT上运行共两次（后者含有上一个数据库主版本之后的新的记录）。此处提交的查询只返回了一条记录。集成信息检索：ENTREZ系统检索服务器可以对有目标的检索记录，但它主要的缺陷在于一次只能从一个数据库中检索到记录；想对一批数据库进行检索的用户必须为每一个目标

7、数据库分别发出一次申请。很明显，这些大量的公用数据库之间存在着逻辑联系。例如，MEDLINE中的一篇论文可能描述一个基因的序列，该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的，结构的数据可能出现在结构数据库中。最后，基因可能定位在某条染色体的某个区域，这类信息存放在图谱数据库中。在这些生物学上的联系的基础上开发了一种方法；可以通过它查询所有与某一特殊的生物学实体有关的所有信息，而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护，Entrez在所有的主要的数据库计算机平台上均可

8、使用，允许对PubMed（MEDINE）的记录，核苷酸和蛋白质的序列数据，三维结构信息，图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系：相近性和硬连接来提供集成的信息检索。相近性相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE中某条记录时可以要求Entrez找出所有类似的论文，类似的，使用者在查看一个序列的同时可以要求Entrez找出所有与这个序列类似的序列。一个数据库之内的相近性关系是建立在对相似性的统计计算上的：BLAST 序列数据可以用基本局部对比搜索工具（Basic Local Alignment Search Tool

9、,即BLAST）相互比较。这个算法试图找到高度匹配的片段对（high-scoring segment pairs,简记为HSPs），即能够无缺口的对齐且达到一定的分数的成对的序列。第7章详细的讨论了BLAST算法系列及它们的应用。VAST 几套坐标数据之间的比较采用一种名为VAST的基于向量的算法。VAST即Vector Alignment Search Tool（Madej等，1995；Gibrat等，1996）。VAST的比较有三个步骤：1.第一，在坐标数据的基础上，标出所有的构成蛋白质的核心部分的螺旋和片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个

10、一套坐标。2.然后，算法试图最佳的匹配这些向量，寻找类型和相对方位相同的成对的结构单位，并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的核心结构，这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。3.最后，在每个残基位置上使用蒙特卡洛方法对结构的排列进行优化。使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系（可能在功能上也有关系）。最后的对齐结果不一定是全局的，可能在不同的蛋白质的单独的结构域之间配对。需要重点注意的是VAST不是确定结构相似性的最好办法，因为还可以利用三维坐标文件中的其它信息来做更进一步的修正，如考虑侧链的位置及侧链之间的相互作

11、用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而，考虑到这个问题的数量级即需要做的成对比较的次数及采用更高级的方法所需要的计算能力和时间，VAST至少为结构相似性问题提供了一个简单和快速的答案。关于别的基于X射线或NMR坐标数据的结构预测方法可以参见第11章。加权的关键词序列数据对比问题与MEDLINE记录的对比相比较还是容易一点，MEDLINE的记录是自由书写的文本，语法上不固定。Entrez使用了名为相关配对模式检索的方法来做这种对比，该方法依靠的基础是加权关键词（Wilbur和Caffee,1994;Wilbur和Yang 1996），这个概念用具体的例子来描述比较合适

12、。考虑具有下面两个标题的两篇文稿：这两个标题含有公共词BRCAI,Breast,和Cancer，这些公共词的存在显示这些文稿的主题可能是相似的。同时也考虑单词之间的距离，对两条记录中的公共词距离较近的给予较高的分数，分开较远的给予较低的分数。在这个例子中，对词Breast和Cancer将给予较高的分数，因为这两个词是相邻的，比它们之中的任何一个与BRCAI之间的距离短。标题中找到的公共的词比摘要中的公共词得分高，因为一般认为标题的词比摘要中的词更重要。一个词的总的权重取决于它在MEDLINE中的所有记录中出现的频率，在数据库中总的来说出现较少的词得到较高的权重。如果不算相近关系所基于的那些方法

13、，实际确定和利用这些关系的能力是基于所有这些分支数据库的数据的底层格式。这种格式称为抽象语法形式（Abstract Syntax Notation,即ASNI），所有类似的域（如引用书目）可以以完全一样的方式在这种格式中结构化，而不管这条记录是在蛋白质数据库，核酸数据库或其它数据库之中。NCBI的这种数据模式将在第6章中深入的讨论。硬连接硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录，只要这些记录之间存在逻辑联系，就存在硬连接。举例来说，如果一条MEDLINE记录是关于?装配型质粒的，那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒?上的一个开放

14、阅读框架编码某种已知的蛋白质，那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构，那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。相近性和硬连接的关系可以用图5.2来解释。每个分支数据库（MEDLINE，蛋白质，核酸，结构及基因）用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系，根据相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息，比对单个的数据库分别进行查询

15、所花的时间少得多。图5.2 Entrez集成信息查询相同中的关系的示意图。每个五角形表示一个数据库；每个五角形上指向自身的曲线代表相近性关系，图的中心的直线表示硬连接。搜索的入口点如图5.2所指出的，基本上可以从任何地方开始使用Entrz系统搜索使用者不必考虑从何处进入信息的空间。然而，选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。这显然是由于不同类型的数据库中的记录必须有不同的组织方式，以反映了它们所编目的实体的生物学特点。表5.1列出了每个Entrez系统中的数据库可以用于搜索的域。实现不考虑平台的差异，Entrez的搜索可以用两种界面进行。第一种称为Network Entr

16、ez，是用客户服务器方式实现的。这是Entrez程序中最快的，它直接连接到一个NCBI的发送者。其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上，需要用户去获取，安装和维护软件，软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。第二种实现方法是在环球网上，称为WWW Entrez或者Web Entrez。可以利用各种可用的网页浏览器，例如Internet explorer或Netscape,它们把搜索结果传回桌面上。使用网络浏览器的用户不必再确认是否安装了最新的Entrez版本只要浏览器是较新的版本，查询的结果总是通过最新的Entrez版本得到的。Web版还有另外一项用处，上述所有的相近性关系和硬连接关系都可以用超文本表示，用户可以通过点击记录上的特定的词来浏览。用网页实现比网络版进步的地方在于网页可以有连接到外部数据

展开阅读全文

生物信息学 第五章.doc

生物信息学第五章.doc