教你如何读懂GeneBank数据.

资源描述

《教你如何读懂GeneBank数据.》由会员分享，可在线阅读，更多相关《教你如何读懂GeneBank数据.（126页珍藏版）》请在金锄头文库上搜索。

1、生物信息学数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库基因组数据库生物信息学数据库的分类,生物信息学数据库欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de 美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Genbank/ 日本国立遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/searches-e.html 核酸序列数据库,GenBank数据库结构,作用：了解序列数据库的格式，有助于更好地提高数据库检索的效率和准确性。 DDBJ数据库的内容和格式与GenBank相同，

2、此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构,GenBank数据库数据注释 (www.ncbi.nlm.nih.gov/genbank/ ),GenBank库包含所有已知的核酸序列和蛋白质序列, 以及与它们相关的文献著作和生物学注释。 NCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。数据库序列文件：注释内容文章索引文件：检索目录文摘,GenBank数据库结构,完整的 GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的，用于数据库查询。 GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序

3、列数据库数据格式为FastA。,GenBank数据库结构,GenBank中最常用的是序列文件。序列文件的基本单位：是序列条目，包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目：文章的格式,(www.ncbi.nlm.nih.gov/genbank/,Genbank,Genbank 查找页面,D31716,描述部分,CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of which can be determine

4、d by comparative analysis. Molecular evolution uses such domains as building blocks and these may be recombined in different arrangements to make different proteins with different functions.,CD s编码序列，含终止密码子 polyA_signal 多聚A信号,D31716,特性表,序列本身,关键字,CDs are recurring units in polypeptide chains,D31716,序

5、列本身,序列结束,4859 bp,D31716,GenBank数据记录,GenBank数据记录,GenBank数据库结构,GenBank序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。字段分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“/”作结束标记,GenBank数据库结构,序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可占一行，也可以占若干行。若一行中写不下时，继续行以空格开始,GenBank数据库,物种：GenBank 库里的数据按来源于大约100,000个

6、物种，其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列) 记录：每条GenBank数据记录包含对序列的简要描述，它的科学命名，物种分类名称，参考文献，序列特征表，及序列本身,GenBank数据库,序列特征表：包含对序列生物学特征注释如：编码区、转录单元、重复区域、突变位点或修饰位点等分类：所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被分成若干文件,注释内容,序列条目关键字： LOCUS (代码), DEFINITION (说明)， ACCESSION(编号)， NID符(核酸标识),

7、KEYWORDS (关键词)， SOURCE (数据来源)， REFERENCE (文献)， FEATURES (特性表)， BASE COUNT (碱基组成) ORIGIN (碱基排列顺序)。新版的核酸序列数据库将引入新的关键词SV (序列版本号)，用“编号.版本号”表示，并取代关键词NID,LOCUS,LOCUS (代码)：是该序列条目的标记，或者说标识符，蕴涵这个序列的功能：如HUMCYCLOX表示人的环氧化酶。序列长度类型种属来源录入日期等说明字段是有关这一序列的简单描述,ACCESSION,ACCESSION (编号)：具有唯一性和永久性，在文献中引用这个序列时，应该以

8、此编号为准。,KEYWORDS,KEYWORDS (关键词)字段：由该序列的提交者提供，包括该序列的基因产物其它相关信息,SOURCE,SOURCE (数据来源)字段：说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM (种属)：指出该生物体的分类学地位,REFERENCE,REFERENCE(文献)字段：说明该序列中的相关文献，包括 AUTHORS (作者), TITLE (题目)及 JOURNAL(杂志名)等, 以次关键词列出。 MEDLINE的代码：该代码实际上是个超文本链接，点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示，并给出该序列中哪一部

9、分与文献有关。,FEATURES,FEATURES (特性表)：具有特定的格式，用来详细描述序列特性。特性表中带有/db-xref/标志的字符可以连接到其它数据库，如分类数据库(taxon 9606), 以及蛋白质序列数据库(PID：g181254)。序列中各部分的位置都在表中标明，5非编码区，编码区，3非编码区，多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段，给出序列中的碱组成,ORIGIN,ORIGIN行是序列的引导行下面便是碱基序列以双斜杠行“/”结束。,GenBank数据库数据库格式,FASTA格式 gi|1293613|gb|U49845.1|SCU4

10、9845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGC

11、CAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGC

12、CCT （该序列没有完全列出）,GenBank数据库数据库格式(1),FASTA格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号（）表示一个新文件的开始结束用（/） FASTA格式并没有什么特殊的要求。,FASTA格式序列的提交,GenBank数据库数据库格式(1),FASTA格式特点：只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性 FASTA格式在许多分子生物学软件包中得到广泛应用。,GenBank数据库数据库格式(2),GenBank纯文本文件格式(GenBank flatfile, GBFF)

13、: GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，它们是怎样交换数据的呢？,GBFF文件格式,GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一。,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 G

14、I:1293613 KEYWORDS . SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of RE

15、V7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl

16、2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 15028 /organism=“Saccharomyces cerevisiae“ /db_xref=“taxon:4932“ /chromosome=“IX“ /map=“9“ CDS 1206 /codon_start=3 /

展开阅读全文