NCBI检索

上传人:豆浆 文档编号:3155330 上传时间:2017-07-30 格式:DOC 页数:23 大小:135KB
返回 下载 相关 举报
NCBI检索_第1页
第1页 / 共23页
NCBI检索_第2页
第2页 / 共23页
NCBI检索_第3页
第3页 / 共23页
NCBI检索_第4页
第4页 / 共23页
NCBI检索_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《NCBI检索》由会员分享,可在线阅读,更多相关《NCBI检索(23页珍藏版)》请在金锄头文库上搜索。

1、NCBI 的检索NCBI 包括五个部分,第一部分是欢迎进入 NCBI,包括 NCBI 的最新信息、计划与活动、读者来信、服务地址和用户评论等。第二部分是基因序列数据库(GenBank),包括基因库概述、检索与投稿。第三部分是数据库服务,包括免费的 PubMed 检索、Entrez 检索、BLAST 序列族性检索、电子邮件服务(详见本章第四节)、匿名 FTP 服务。第四部分是 NCBI 的其它资源。GenBank 的检索在 NCBI 主页的第二部分点击“Searching GenBank”,即可进入 GenBank 的检索屏幕。NCBI提供了五种检索,即 Entrez 浏览检索、BLAST 序列

2、类似性检索、dbEST 检索、dbSTS检索和文本检索(Text Searching)。一、Entrez 浏览检索1.Entrez 检索的数据库及其检索信息Entrez 浏览器(Entrez Browser)可以检索以下与 NCBI链接的基因序列数据库的分子生物数据和书目文献资料。(1) GenBank、EMBL、DDBJ 中的 DNA 序列;(2) SWISS-PROT、PIR、PRF、PDB 中的蛋白质序列以及 DNA 序列数据库中翻译的蛋白质序列;(3) 基因和染色体图像数据;(4) PDB 以及收入 NCBI 分子模型数据库(MMDB)的蛋白质三维结构;(5) 通过 PubMed 检索

3、 Medline 和 PreMedline 数据库。2.Entrez 检索功能Entrez 提供了以下三种检索功能。(1)自由词检索功能用户可以通过文本词、关键词、截词、期刊名或文献的作者检索 Entrez 数据库。截词用*号,期刊名必须用 Medline 刊名缩写,作者姓名必须是姓在前,名在后,用首字母缩写。(2)索引词表(List Terms)检索功能索引词表检索是当你键入检索词,Entrez在你选定的字段中显示从该检索词开始的一个索引词表窗口,这时,你可以选择一个或几个词进行检索,这对单词拼写不准确时非常有用。例如:在输入框中键入“P53”,选择文本字段(Text Words)和索引词表

4、(List Terms)检索功能,再点击“Search”,这时返回一个以“P53”开始的索引词表窗口,浏览选择一个或几个索引词,点击“Search”,Entrez 将返回检索结果。(3)自动检索功能自动检索功能就是 Entrez 浏览器根据用户输入的检索式自动进行检索,返回当前检索式检出的文献数,如满意,可进一步取得检索结果,如不满意,则可对当前检索式进行修改,直到用户满意为此。例如在输入框键入“P53”,选择所有字段和自动检索功能,点击“Search”,Entrez 返回一个 Web 页,包括当前检出文献数、加词检索和修改当前检索三个部分。如果你对检出文献数不满意(过多或过少),可以在加词检

5、索部分增加更专指的检索词,以提高查准率,也可以在修改当前检索部分选择某一布尔算符(AND、OR、NOT、ANDNOT),对当前的检索策略进行修改,直到你满意为止。对于检出文献,用户可以选择浏览格式进行浏览,也可以打印或存盘。3 Entrez 检索规则(1)Entrez 支持“*”号截词检索;(2)Entrez 对你键入的词可以进行逻辑识别。例如:键入“Lipman DJ Genomics”,Entrez 将它识别为作者的姓名 Lipman DJ 和自由词Genomics,并将提问式转换为“Lipman DJ”AND Genomics。对于 Entrez 不能识别的提问式,如 bac 1,必须加

6、双引号,系统就会将它们作为一个词进行检索;(3)Entrez 支持复杂的布尔逻辑检索;(4)Entrez 支持限定字段检索;字段标识符的全称如下:WORD=Text Word, TITL=Title Word, MESH=Mesh Term, MAJR=MeSH Major Topic, AUTH=Author Name, JOUR=Journal Name, ECNO=EC/RN Number, GENE=Gene Name, DATE=Publication Year, PDAT=Publication/Creation Date, MDAT=Modification Date, PAGE

7、=First Page, VOL=Volume, KYWD=Keyword, ORGN=Organism, ACCN=Accession Number, PROT=Protein Name, SUBS=Substance,PROP=Property, FKEY=Feature Key 和 PTYP=Publicaton Type二、BLAST 序列类似性检索序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。现在用于序列类似性检索的软件很多,下面主要介绍GenBa

8、nk 的序列类似性检索工具棗 BLAST。1. BLAST 简介BLAST 是 Basic Local Alignment Search Tool 的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某

9、个部分的对准结果。在 BLAST 的基础上,NCBI 又开发了 BLAST 2.0、Gapped BLAST 和 PSI-BLAST。BLAST 2.0是一种新的 BLAST 检索工具,它对 BLAST 作了改进,运行速度更快,灵敏度更高,同时具有 Gapped BLAST 和 PSI-BLAST 两种软件的新功能。Gapped BLAST 允许在对准的序列中引入空位(碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST 的全称是 Position-Specific Iterat

10、ed BLAST,意即特殊位置重复 BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。目前,PSI-BLAST仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。2. 使用 NCBI BLAST 服务的四种基本方法(1)经由 WWW 使用的 BLAST使用 BLAST 最容易的方法是 WWW 方式。在用户的浏览器中键入 NCBI 的 URL 地址:http/www.ncbi.nlm.nih.gov,进入 NBCI 主页,然后链接到 BLAST 主页。BLAST主页提供了好几种 BLAST 检索软件,包括 BLA

11、ST、BLAST 2.0、Gapped BLAST 和 PSI-BLAST 等,其中BLAST 和 BLAST 2.0 提供了基本检索和高级检索两种模式。(2)网络版的 BLASTBLAST2 是标准的网络 BLAST 客户软件,它可以通过 NCBI 匿名的 FTP 服务器(ftp:/ncbi.nlm.nih.gov)下的/blast/network/blast2/获取。PowerBlast 是用于大规模分析基因序列的网络 BLAST 客户应用软件,它可以通过NCBI匿名的 FPT 服务器(ftp:/ncbi.nlm.nih.gov)下的/blast/network/blast2/powerB

12、LAST/获取。(3)独立运行的 BLASTBLAST 2.0 可以在本地计算机上独立运行,也可以在自建的序列数据库中进行 BLAST 检索,还可以下载 NCBI 数据库中的记录。BLAST 运行的软硬件环境为 IRIX 6.2、Solaris 2.5、PEC OSF1(第四版)和 Win32 系统。可独立运行的 BLAST 2.0 在 NCBI 匿名的 FTP 服务器(ftp:/ncbi.nlm.nih.gov)下的/blast/executables/获取。(4) 电子邮件的 BLAST通过电子邮件对基因库进行 BLAST 检索(详见本章第四节二)。3. BLAST 的检索方法(1) BL

13、AST 数据库的选择BLAST 检索的数据库包括两大类:一类是肽序列数据库,另一类是核酸序列数据库。 肽序列数据库包括:nr: 所有无冗余基因库 CDS 转录产物、PDB、SwissProt 以及 PIR 序列month: 最近 30 天注释的所有新增的或修订的基因库 CDS 转录产物、PDB、SwissProt和PIR 序列。SwissProt: SwissProt 蛋白质序列数据库中最新的主要注释(无更新)序列。yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。E.coli: E.coli 基因 CDS 转录产物。pdb: 从 Brookhaven 蛋

14、白质序列数据和三维结构衍生出来的序列。Kabat Kabatpro: 免疫学上感兴趣的蛋白质序列 Kabat 数据库。alu: 从重复序列数据库(REPBASE)选取的 Alu 重复序列,适用于过滤查询序列中 Alu 重复序列。通过匿名 FTP 从 ncbi.nlm.nih.gov 下的/pub/jmc/alu 目录中获取。 核酸序列数据库包括:nr: 所有无冗余的 GenBank+EMBL+DDBJ+PDB 序列;但不包括 EST、STS、GSS 或 HTGS 序列。month: 最近 30 天注释的新增加的或修订的 GenBank+EMBL+DDBJ+PDB 序列dbEST: GenBan

15、k+EMBL+DDBJ+PDB 中 EST 部分的无冗余数据。dbSTS: GenBank+EMBL+DDBJ+PDB 中 STS 部分的无冗余数据。htgs: 高允许能力(High Throughput)基因序列。yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。E.coli: 大肠杆菌(E.coli)基因核酸序列。pdb: 蛋白质数据库。KabatKabatnuc: 免疫学上感兴趣的核酸序列 Kabat 数据库。Vector: GenBank 载体数据库。mito: 线粒体序列数据库。alu: 从重复序列数据库(REPBASE)选取的 Alu 重复序

16、列,适用于过滤查询序列中 Alu 重复序列。通过匿名 FTP 从 ncbi.nlm.nih.gov 下的/pub/jmc/alu 目录中获取。epd: 真核生物的启动子数据库。gss: 基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和 Alu PCR 序列。(2) BLAST 程序的选择BLAST 是一种碱基局部对准检索工具,实质上是一种序列类似性检索工具,它运行blastp、blastn、blastx、tblastn、tblastx等五种程序的启发式检索算法;这五种程序是利用改进的 Karlin 和 Altschul 的统计学方法来描述检索结果的显著性。这些程序不支持主题形式检索,也就是不支持主题词、自由词、文本词等检索。下面介绍五种程序的基本功能。blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号