NCBI站点的一般介绍及其它资源库的介绍

上传人:re****.1 文档编号:545146503 上传时间:2023-09-16 格式:DOC 页数:7 大小:96.50KB
返回 下载 相关 举报
NCBI站点的一般介绍及其它资源库的介绍_第1页
第1页 / 共7页
NCBI站点的一般介绍及其它资源库的介绍_第2页
第2页 / 共7页
NCBI站点的一般介绍及其它资源库的介绍_第3页
第3页 / 共7页
NCBI站点的一般介绍及其它资源库的介绍_第4页
第4页 / 共7页
NCBI站点的一般介绍及其它资源库的介绍_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《NCBI站点的一般介绍及其它资源库的介绍》由会员分享,可在线阅读,更多相关《NCBI站点的一般介绍及其它资源库的介绍(7页珍藏版)》请在金锄头文库上搜索。

1、NCBI站点的一般介绍及其它资源库的介绍EmbanksOverview生物信息学站点地图其它资源库的介绍什么是GenBank?GenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。纪录样本关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。访问GenBank通过EntrezNucleotides来查询。用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entr

2、ez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。增长统计参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。公布通知最新-最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。旧-同上相同,是过去公布的统计。遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。向GenBank提交数据关于提交序列数据,

3、收到accessionnumber,和对纪录作更新的一般信息。BankIt-用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体)Sequin提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“networkaware模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)ESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。RefSeq

4、NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。dbEST表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。GSSs基因组调查序列,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。HTGs-来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)

5、序列。注意:完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上访问。STSs序列标签位点短的在基因组上可以被唯一操作的序列,用于产生作图位点。注:SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。国际核苷酸序列数据库合作组织GenBank,DDBJ,EMBL-合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNADataBankofJapan),andEMBL(EuropeanMolecularBiologyLaboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪

6、录的格式和搜索方式可能会不一样,但是accessionnumber,序列数据和注解都是一模一样的。即,你可以用accessionnumberU12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。DDBJ/EMBJ/GenBank特性表特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。FTPGenBankandDailyUpdatesGenBank普通文件格式参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最

7、近的完全公告和日常积累或非积累更新数据。ASN.1格式一摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。FASTA格式定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,不包括EST,STS,GSS,orHTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z,gss.Z,htg.Z,sts.Z,和其它文件。分子数据库概览核酸序列Entrez核酸用accessionnumber,作者姓名,物种,基因/蛋白名字,以及

8、很多其它的文本术语来搜索核酸序列记录(在GenBank+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。RefSeqNCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。和NC_xxxxxx的形式来表示。cDNA序列。也包括来自于差Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,dbEST表达序列标签数据库,短的、单次(测序)阅读的异显示和RACE实验的cDNA序列。dbGSS基因组调查序列的数据库,短的、

9、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。dbSTS序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。dbSNP单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。完整的基因组参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。疟原虫UniGene被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Un

10、igene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。人类UniGene小鼠UniGene大鼠UniGene斑马鱼UniGeneBLAST将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分)BLAST查找BLAST指南蛋白序列Entrez蛋白用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept+Swiss-Prot+PIR+RPF+PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用BatchEntre

11、z(批量Entrez)。RefSeqNCBI数据库的参考序列。Curated,非冗余集合包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。FTPGenPept下载“genpept.fsa.Z文”件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。完整基因组参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒

12、,viroids,质粒。Entrez基因组提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面Genomes和Maps,部分Entrez基因组的一般描述)FTP基因组蛋白从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。PROWWeb上的蛋白资源,关于大约20

13、0种人类的CD细胞表面分子的简短官方向导。互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)BLAST将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分)BLASTp查找PSI-BLAST结构主页关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。

14、MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。MMDBMMDB的记录以ASN.1格式存储,可以用Cn3D,Rasmol,或Kinemage来显示。另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTsearch来同数据库进行比较。Cn3D“Seein3D”,一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列结构或结构结构同源比较。

15、Cn3D用起来就象你浏览器上的一个帮助工具。VAST矢量同源比较搜索工具一个在NCBI开发的计算算法,用于确定相似的蛋白三维结构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面的链接访问。这些邻居可以用来确认那些不能被序列比较识别的远的同源性。VAST搜索结构结构相似搜索服务。比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同源相似。分类学NCBI的分类数据库主页关于分类计划的一般信息,包括分类资源和同NCBI分类学家合作的外部管理者的列表。分类浏览器搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就被加到(分类)数据库中。NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。分类学文献数据库概要PubMed一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。PubM

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号