美国国立生物技术信息中心NCBI的数据库资源

上传人:re****.1 文档编号:499608579 上传时间:2022-10-08 格式:DOC 页数:10 大小:66.50KB
返回 下载 相关 举报
美国国立生物技术信息中心NCBI的数据库资源_第1页
第1页 / 共10页
美国国立生物技术信息中心NCBI的数据库资源_第2页
第2页 / 共10页
美国国立生物技术信息中心NCBI的数据库资源_第3页
第3页 / 共10页
美国国立生物技术信息中心NCBI的数据库资源_第4页
第4页 / 共10页
美国国立生物技术信息中心NCBI的数据库资源_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《美国国立生物技术信息中心NCBI的数据库资源》由会员分享,可在线阅读,更多相关《美国国立生物技术信息中心NCBI的数据库资源(10页珍藏版)》请在金锄头文库上搜索。

1、-美国国立生物技术信息中心NCBI的数据库资源生命学院生物技术专业2002级 周帅 * 021402142摘要除了提供GenBank核酸序列数据库以外,美国国家生物技术信息中心还提供对于GenBank中数据的分析,检索资源,另外还通过其提供一系列的有价值的生物数据及信息。NCBI 数据的检索资源包括Entrez, PubMed, LocusLink 以及Ta*onomy浏览器。数据分析资源包括BLAST,电子PCR,开放阅读框寻觅器,序列提交工具,唯一人类基因序列集合,基因同源物数据库,单核苷酸多态性数据库(dbSNP),人类基因组测序,人类基因组基因图谱,分类学浏览器,人-鼠同源基因图谱,

2、异常癌症基因组方案(CCAP),Entrez 基因组,垂直同源基因簇(COGs)数据库,反转录病毒基因分类工具,癌症基因组剖析方案(CGAP),基因表达连续分析图谱(SAGEmap),综合性基因表达(GEO),在线孟德尔人类遗传(OMIM),三维蛋白质构造的分子模型数据库(MMDB)以及保守序列数据库(CDD)。BLAST程序通过增加一些的应用程序实现搜索*些特殊数据的最优化方式。所有的资源可以通过NCBI的首页得到:。引言作为美国国家卫生研究院NIH的国立医学图书馆NLM的一个分支,美国国家生物技术信息中心NCBI成立于1988,其目标是开展新的信息学技术来帮助对那些控制*和疾病的根本分子和

3、遗传过程的理解。除了提供由各个科研院所直接提供的GenBank 核酸序列数据库以外,NCBI还提供对于GenBank中数据检索系统和计算工具以帮助分析GenBank的数据以及其他的NCBI提供的可利用的生物信息数据。NCBI首页()所提供的可用数据涵盖了局部基因的代表性短序列、完整的基因组、蛋白质构造以及一些遗传疾病的临床描述。NCBI提供了一系列的计算工具以帮助分析各种类型的数据。总体来说,NCBI的整套数据库资源分为7大类:数据库检索系统,相似序列检索程序,基因序列分析数据库,染色体序列数据库,基因组分析数据库,基因表达与显型分析数据库,以及蛋白质构造和建模数据库。数据库检索工具Entre

4、zEntrez是一个综合的数据库检索系统,可以通过三维蛋白质构造的分子模型数据库MMDB搜索到DNA和蛋白质序列、基因组图谱、人类数据以及蛋白质构造并通过深入到NCBI的分类中的PubMed以及在线孟德尔人类遗传OMIM搜索生物医学文献。Entrez中的序列数据,尤其是蛋白质序列,是通过各种数据库资源包括GenBank蛋白质翻译, 蛋白质鉴别数据库 (4), SWISS-PROT文本术语 (5),蛋白质研究根底,蛋白质数据库 (6) 以及数据库参考序列 (7)获得的,并且因此比单独的GenBank拥有更多的序列数据。PubMed主要包括联机医学文献分析和检索系统MEDLINE中的107,000

5、,000多篇参考文献及其摘要,它们了多于1100种网络中的可用刊物的论文全文。Entrez可通过简单的检索条目进展序列文本或著书目录的搜索,加之大量的相关信息。*些是简单对照,例如从一个序列到报道它的文章的摘要,从一个蛋白质序列到它的相应DNA序列,或是从*一序列去其它序列。其余的则是基于序列或MEDLINE摘要中的相似性进展搜索。这些预先计算的“邻居使得快速浏览相关记录成为可能。一个名为LinkOut的效劳将单独数据库的记录延伸至相关的外界效劳,包括特定生物体基因组的数据库。分类浏览器NCBI的分类数据库包括大于79000个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

6、分类浏览器可以用于检索一个特定分类级别种或者更高分类如属、科的核酸,蛋白,序列和构造记录。NCBI的分类学搜索可以基于整体的、局部的或是形声基于发音拼写的生物名称,并同时提供在生物搜索中普遍应用的直接的。NCBI新的分类数据库的目的是为序列数据库建立一个一致的自定义种系发生分类学系统。位点位点数据库由NCBI及其国际合作组织维护,它提供一个单一查询界面来找到*一个遗传位点的序列和描述性信息,它展现官方命名,别名,序列登录,表型,EC,MIM,UniGene聚类,同源,图谱位点,和相关的信息。相似性序列搜索程序的BLAST生物基因数据库系统BLAST搜索程序系统为GenBank的最高频分析类型相

7、似性序列搜索而提供。NCBI对于标准2.1BLAST程序的网络界面允许一个或多个序列并且使用同一矩阵搜索核酸或是一个PAM或BLOSUM氨基酸置换矩阵搜索蛋白质。BLAST允许在它产生的队列alignments中存在缺口,到全文记录并伴随一个队列刻痕以及一个用来判断队列性质的统计学重要性尺度期望值。网络BLAST提供一个由颜色标记的队列的图谱总览,它清晰的展示了序列相似性的程度及质量性质以及队列中缺口的存在。网络BLAST也可以产生一个从分类学角度组织的着重强调相似性序列分类类型的结果。BLAST默认搜索的数据库是构造Entrez数据库的无冗余的核酸及蛋白质数据库。个别的特殊数据库也可被检索,

8、而且检索可以被限制在*一特定生物体的序列。所查询序列可因为低复杂度或者人为重复而被过滤掉。用户定制的BLAST网页允许与已测出的人类遗传数据相冲突的序列,微生物基因组或一些疾病关联的基因组存在。BLAST的专门版本被提供用于相似蛋白质的搜索。特定位点重复的BLAST最初执行传统的BLAST检索以找出构建PSSM的序列。后来的BLAST利用PSSM去寻找数据库中的相似性序列。PHI-BLAST指定了搜索序列以及其中的模式。这个模式详细列明了阵列与数据库序列的匹配情况,并建立最正确阵列。另外一个变量,“BLAST2Sequences,比对两个DNA或蛋白质序列并产生一个它所检出的阵列的dot-pl

9、ot显示。Basic BLAST 2.0搜索也可以通过向以下地址发送电子而实行:blastncbi.nlm.nih.gov.。相关文件可以通过向效劳器地址发送“帮助而得到。基因水平的序列的数据库资源UniGene为了控制EST数据的冗余度,NCBI提供了UniGene,作为一个自动分隔GenBank包括ESTs序列成为非冗余的基因来源的clusters数据库。通常有5个UniGene数据库,分别是人,小鼠、大鼠、斑马鱼以及牛的。UniGene以适宜的GenBank的生物分类以及那些共享一样3末端的ESTs生物序列为检索入口。每一个UniGene 的cluster包含代表一个单独基因的序列并相关

10、信息,例如基因表达的组织类型,模式生物蛋白质相似性,LocusLink关于此基因的描述以及其图谱位点。在人类UniGene数据库中,超过18,000,000的GenBank中的人类ESTs被通过21次折叠而简化到约为84000个clusters序列。同样,小鼠、大鼠、斑马鱼以及牛的ESTs被分别压缩到73 000, 37 000,10 000, 5500 clusters。人类UniGene收集已经被用作有效的人类基因图谱测绘工具。在这种情况下,基因及ESTs的3末端被转化为STSs,并被置于物理图谱以及先前存在的基因组遗传图谱中。UniGene同样被用做研究大规模基因表达的单一序列资源。Un

11、iGene数据库每周更新其EST序列,并且每两个月更新一次最新的有特色的序列。UniGene clusters可以通过多种方式搜索:基因名称、染色体位置、cDNA文库、索取号、以及一般性的文本语言等。Cluster序列可以通过FTP下载。HomoloGeneHomoloGene 是一个包含Curated和计算的UniGene 和LocusLink中的同源和ortholog的人类、小鼠、大鼠、斑马鱼和牛的基因。Curated 不同源基因包括Jackson实验室的大鼠基因组数据库基因对以及俄勒冈州大学的斑马鱼序列数据库,另外还来自以发表的论文。计算的同源及ortholog的基因被仔细推定,经过BL

12、AST核算序列与UniGeneclusters的每对基因序列的比对分析。HomoloGene 也包含三个一组的ortholog clusters ,其中的一个ortholog在另外两个生物体中是一样的。对于人类、小鼠和大鼠这三种生物体,目前有超过7000个这种自身一致的三连体。HomoloGene 数据库可以通过查询UniGene Cluster,LocusLink Locus, 基因特征, gene 名称、核苷酸获取以及在UniGene cluster篇名中的术语来实现检索。最近的相关数据也可以以FTP的文件获得。参考序列(RefSeq)参考序列(RefSeq)数据库为中心法则中自然存在的分

13、子,从人类或其它生物的染色体到mRNA到蛋白提供参考序列标准。单核苷酸多态性数据库(dbSNP)单核苷酸多态性数据库(dbSNP)作为由研究机构和组织“堆放的SNPs,小*围的插入或缺失以及多态重复单元,和微卫星变异的“仓库。开放阅读框寻觅器ORF Finder开放阅读框寻觅器ORF Finder可执行一个核苷酸六阅读框的翻译并报告一个包含每一个找到的阅读框的位点图解。用户可以设置要搜索的阅读框的长度限制。预知的蛋白质产物的序列可以直接提交到BLAST中或是相对与COGs数据库进展检索。电子PCR基于PCR的STSs检验可以被用于基因鉴定及绘图。电子PCR (e-PCR) 将一个查询核苷序列同

14、已经定位的STSs比较,来发现查询序列的可能的图谱定位。电子PCR应用索取号或序列作为输入信息,并报告一个符合的dbSTS记录的表格以及所用来扩增每个被鉴定出的STS的引物。染色体序列资源数据库人类基因组测序资源人类基因组测序站点展示了一些特殊染色体在人类测序工程中的进展,提供了个体的contigs及装配过程,并提供了特殊染色体的BLAST搜索。与重要的基因组测序中心的也被提供。序列数据可以通过染色体或contig的形式进展下载。人类基因组图谱阅读器人类基因组图谱阅读器可以同时显示多达7个平行的染色体图谱。显示的图谱可从19套中加以选择,包括细胞发生图谱,例如染色体符号,基于序列的图谱例如那些

15、反映contigs、基因以及SNPs的混合放射图谱例如用于构建GeneMap99的G3和 GB4图谱。对于整个人类基因组或是个别染色体的查询可以通过基因名称、特征、标记名称、SNP标识符、索取号及其它标识实现。人类基因组图谱阅读器是与NCBI的LocusLink和dbSNP数据库等严密相通的。一个类似于人类基因组图谱阅读器的图谱阅读器也被用于显示果蝇的基因组数据。99基因图谱GeneMap99在1994年成立了一个国际性的组织,它的目标是通过测定ESTs相对于一个很有特点的遗传标记的位点而构建人类基因组图谱。此图谱的最新版本是混合放射图谱,含有30,261个单独的基因位点。人鼠同源图谱及大鼠测

16、序资源人鼠同源图谱显示了人鼠同源DNA的遗传位点。图谱经由人和鼠的同族基因数据库信息计算而来。图谱到GeneMap99, OMIM, LocusLink, dbSTS,BLAST2Sequences 以及Jackson实验室的大鼠基因组数据库。在鼠基因组测序网页可以找到其它的鼠基因组序列资源,类似于上述讨论的人类基因组测序网页。异常癌症基因组方案(CCAP)异常癌症基因组方案是由美国国家癌症研究院和NCBI发起的。数据包括Lund, Sweden大学的癌症染色体失常库中的由F. Mitelman,F. Mertens 和B. Johansson 编辑的再生性肿瘤关联的失常染色体。细菌人工染色体BAC也被提供,通过CCAPs的FISH提供人类染色体绘图数据。基因组分析资源数据库Entrez 基因组E

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号