GeneBank数据库使用.ppt

上传人:汽*** 文档编号:569595855 上传时间:2024-07-30 格式:PPT 页数:123 大小:5.96MB
返回 下载 相关 举报
GeneBank数据库使用.ppt_第1页
第1页 / 共123页
GeneBank数据库使用.ppt_第2页
第2页 / 共123页
GeneBank数据库使用.ppt_第3页
第3页 / 共123页
GeneBank数据库使用.ppt_第4页
第4页 / 共123页
GeneBank数据库使用.ppt_第5页
第5页 / 共123页
点击查看更多>>
资源描述

《GeneBank数据库使用.ppt》由会员分享,可在线阅读,更多相关《GeneBank数据库使用.ppt(123页珍藏版)》请在金锄头文库上搜索。

1、NCBIGenBankGenBank数据库结构数据库结构n n作用:了解序列数据库的格式,有助于更好地提高数据库作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。检索的效率和准确性。n nDDBJDDBJ数据库的内容和格式与数据库的内容和格式与GenBankGenBank相同,此处不作详细相同,此处不作详细介绍。介绍。n n分别介绍分别介绍EMBLEMBL和和GenBankGenBank的数据库结构的数据库结构NCBIGenBankGenBank数据库数据注释数据库数据注释数据库数据注释数据库数据注释( (www.ncbi.nlm.nih.gov/genbank/www.n

2、cbi.nlm.nih.gov/genbank/) )n nGenBankGenBank库包含所有已知的核酸序列和蛋白质序列库包含所有已知的核酸序列和蛋白质序列, ,以及与以及与它们相关的文献著作和生物学注释。它们相关的文献著作和生物学注释。n nNCBINCBI可提供广泛的数据查询、序列相似性搜索以及其它分可提供广泛的数据查询、序列相似性搜索以及其它分析服务。析服务。n n数据库数据库序列文件:注释内容序列文件:注释内容文章文章索引文件:检索目录索引文件:检索目录文摘文摘NCBIGenBankGenBank数据库结构数据库结构数据库结构数据库结构n n完整的完整的 GenBankGenBan

3、k数据库包括序列文件,索引文件以及其它数据库包括序列文件,索引文件以及其它有关文件。有关文件。n n索引文件是根据数据库中作者、参考文献等建立的,用于索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。数据库查询。n nGenPeptGenPept是由是由GenBankGenBank中的核酸序列翻译而得到的蛋白质序中的核酸序列翻译而得到的蛋白质序列数据库列数据库n n数据格式为数据格式为FastAFastA。 NCBIGenBankGenBank数据库结构数据库结构n nGenBankGenBank中最常用的是序列文件。中最常用的是序列文件。n n序列文件的基本单位:是序列条目,包括

4、核苷酸碱基排列序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。顺序和注释两部分。n n生物信息资源中心通过计算机网络提供该数据库文件。生物信息资源中心通过计算机网络提供该数据库文件。n n注释条目:文章的格式注释条目:文章的格式(www.ncbi.nlm.nih.gov/genbank/NCBIGenbankGenbankNCBIGenbank查找页面NCBID31716D31716描述部分NCBICDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanb

5、edeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs编码序列,含终止密码子polyA_signal多聚A信号NCBID31716D31716特性表序列本身关键字CDsarerecurringunitsinpolypeptidechainsNCBID31716D31716序列本身NCBINCBI序列

6、结束4859bpNCBID31716D31716NCBIGenBankGenBank数据记录数据记录NCBIGenBankGenBank数据记录数据记录NCBIGenBankGenBank数据库结构数据库结构n nGenBankGenBank序列文件由单个的序列条目组成。序列文件由单个的序列条目组成。n n序列条目由字段组成,每个字段由关键字起始,后面为该序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段的具体说明。n n字段分若干次子字段,以次关键字或特性表说明符开始。字段分若干次子字段,以次关键字或特性表说明符开始。n n每个序列条目以双斜杠每个序列条目以双斜杠“ “/

7、”/”作结束标记作结束标记NCBIGenBankGenBank数据库结构数据库结构n n序列条目的格式非常重要,关键字从第一列开始,次关键序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。字从第三列开始,特性表说明符从第五列开始。n n每个字段可占一行,也可以占若干行。每个字段可占一行,也可以占若干行。n n若一行中写不下时,继续行以空格开始若一行中写不下时,继续行以空格开始 NCBIGenBankGenBank数据库数据库n n物种:物种:GenBankGenBank库里的数据按来源于大约库里的数据按来源于大约100,000100,000个物种,个物

8、种,其中其中56%56%是人类的基因组序列是人类的基因组序列( (所有序列中的所有序列中的34%34%是人类的是人类的ESTEST序列序列) )n n记录:每条记录:每条GenBankGenBank数据记录包含对序列的简要描述,它数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及的科学命名,物种分类名称,参考文献,序列特征表,及序列本身序列本身NCBIGenBankGenBank数据库数据库n n序列特征表:包含对序列生物学特征注释如:编码区、转序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等录单元、重复区域、突变位点或修

9、饰位点等n n分类:所有数据记录被划分为如细菌类、病毒类、灵长类、分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及啮齿类,以及ESTEST数据、基因组测序数据、大规模基因组数据、基因组测序数据、大规模基因组序列数据等序列数据等1616类,其中类,其中ESTEST数据等又被分成若干文件数据等又被分成若干文件NCBI注释内容注释内容n n序列条目关键字:序列条目关键字: LOCUS(LOCUS(代码代码),), DEFINITION(DEFINITION(说明说明) ), ACCESSION(ACCESSION(编号编号) ), NIDNID符符( (核酸标识核酸标识),), KE

10、YWORDS(KEYWORDS(关键词关键词) ), SOURCE(SOURCE(数据来源数据来源) ), REFERENCE(REFERENCE(文献文献) ), FEATURES(FEATURES(特性表特性表) ), BASECOUNT(BASECOUNT(碱基组成碱基组成) ) ORIGIN(ORIGIN(碱基排列顺序碱基排列顺序) )。n n新版的核酸序列数据库将引入新的关键词新版的核酸序列数据库将引入新的关键词SV(SV(序列版本号序列版本号) ),用,用“ “编编号号. .版本号版本号” ”表示,并取代关键词表示,并取代关键词NIDNIDNCBILOCUSLOCUSn nLOCU

11、S(LOCUS(代码代码) ):是该序列条目的标记,或者说标识符,:是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:如蕴涵这个序列的功能:如HUMCYCLOXHUMCYCLOX表示人的环氧化酶。表示人的环氧化酶。序列长度序列长度类型类型种属来源种属来源录入日期等录入日期等n n说明字段是有关这一序列的简单描述说明字段是有关这一序列的简单描述NCBIACCESSIONACCESSIONn nACCESSION(ACCESSION(编号编号) ):具有唯一性和永久性,在文献中引:具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。用这个序列时,应该以此编号为准。NCBIKEYWOR

12、DSKEYWORDSn nKEYWORDS(KEYWORDS(关键词关键词) )字段:由该序列的提交者提供,包字段:由该序列的提交者提供,包括括该序列的基因产物该序列的基因产物其它相关信息其它相关信息NCBISOURCESOURCEn nSOURCE(SOURCE(数据来源数据来源) )字段:说明该序列是从什么生物体、字段:说明该序列是从什么生物体、什么组织得到的什么组织得到的n n次关键字次关键字ORGANISM(ORGANISM(种属种属) ):指出该生物体的分类学地位:指出该生物体的分类学地位NCBIREFERENCEREFERENCEn nREFERENCE(REFERENCE(文献文

13、献) )字段:说明该序列中的相关文献,包括字段:说明该序列中的相关文献,包括AUTHORS(AUTHORS(作者作者),),TITLE(TITLE(题目题目) )及及JOURNAL(JOURNAL(杂志名杂志名) )等等, ,以次关键词列出。以次关键词列出。n nMEDLINEMEDLINE的代码:该代码实际上是个超文本链接,点击它的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。可以直接调用上述文献摘要。n n一个序列可有多篇文献一个序列可有多篇文献, ,以不同序号表示,并给出该序列中以不同序号表示,并给出该序列中哪一部分与文献有关。哪一部分与文献有关。NCBIFEATUR

14、ESFEATURESn nFEATURES(FEATURES(特性表特性表) ):具有特定的格式,用来详细描述序:具有特定的格式,用来详细描述序列特性。列特性。n n特性表中带有特性表中带有 /db-xref/db-xref/标志的字符可以连接到其它数据标志的字符可以连接到其它数据库,如分类数据库库,如分类数据库(taxon9606),(taxon9606),以及蛋白质序列数据库以及蛋白质序列数据库(PID(PID:g181254)g181254)。n n序列中各部分的位置都在表中标明,序列中各部分的位置都在表中标明,55非编码区,编码区,非编码区,编码区,33非编码区,多聚腺苷酸重复区域等。

15、非编码区,多聚腺苷酸重复区域等。n n翻译所得信号肽以及最终蛋白质产物翻译所得信号肽以及最终蛋白质产物n n碱基含量字段,给出序列中的碱组成碱基含量字段,给出序列中的碱组成NCBIORIGINORIGINn nORIGINORIGIN行是序列的引导行行是序列的引导行n n下面便是碱基序列下面便是碱基序列n n以双斜杠行以双斜杠行“ “/”/”结束。结束。 NCBIGenBankGenBank数据库数据库数据库格式数据库格式n nFASTAFASTA格式格式格式格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-bet

16、a gene, partial cds; and gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsAxl2p (AXL2) and Rev7p (REV7) genes, complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGGATCCTCCATATACAAC

17、GGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACC

18、AAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAAATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTT

19、TTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATATCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCTATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT(该序列没有完

20、全列出)(该序列没有完全列出) NCBIGenBankGenBank数据库数据库数据库数据库数据库格式数据库格式数据库格式数据库格式(1)(1)n nFASTAFASTA格式:将一个格式:将一个DNADNA或者蛋白质序列表示为一个带有一些标记或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。的核苷酸或氨基酸字符串。n n大于号(大于号( )表示一个新文件的开始)表示一个新文件的开始n n结束用(结束用(/ /)n nFASTAFASTA格式并没有什么特殊的要求。格式并没有什么特殊的要求。NCBIFASTAFASTA 格式序列的提交格式序列的提交NCBIGenBankGenBank数据

21、库数据库数据库格式数据库格式(1)(1)n nFASTAFASTA格式特点:格式特点:只存储了最少量的信息只存储了最少量的信息它将所存储的信息转化为简单的字符串它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性人和计算机对其存储的信息都具有极大的可读性n nFASTAFASTA格式在许多分子生物学软件包中得到广泛应用。格式在许多分子生物学软件包中得到广泛应用。NCBIGenBankGenBank数据库数据库数据库格式数据库格式(2)(2)n nGenBankGenBank纯文本文件格式纯文本文件格式纯文本文件格式纯文本文件格式(GenBank flatfile, GB

22、FF): (GenBank flatfile, GBFF): n nGenBankGenBank、EMBLEMBL、DDBJDDBJ每天都相互同步更新各自的数据每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?库,它们是怎样交换数据的呢?NCBIGBFFGBFF文件格式文件格式n nGBFFGBFF是是GenBankGenBank数据库的基本信息单位,数据库的基本信息单位,n n是最为广泛使用的生物信息学序列格式之一。是最为广泛使用的生物信息学序列格式之一。NCBI头部中部尾部GGE EN NB BA AN NKK纯纯纯纯文文文文本本本本文文文文件件件件格格格格式式式式LOCUS SCU

23、49845 5028 bp DNA PLN 21-JUN-1999LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2pDEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. (AXL2) and Rev7p (REV7) genes,

24、complete cds.ACCESSION U49845ACCESSION U49845VERSION U49845.1 GI:1293613VERSION U49845.1 GI:1293613KEYWORDS .KEYWORDS .SOURCE bakers yeast.SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Eukary

25、ota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. Saccharomycetaceae; Saccharomyces.REFERENCE 1 (bases 1 to 5028)REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawr

26、ence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1

27、503-1509 (1994) JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 MEDLINE 95176709REFERENCE 2 (bases 1 to 5028)REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast

28、 requires Axl2p, a novel TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 MEDLINE 96194260REFERENCE 3 (bases 1 to 5028)

29、REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. AUTHORS Roemer,T. TITLE Direct Submission TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA Haven, CT, USAFEATU

30、RES Location/QualifiersFEATURES Location/Qualifiers source 1.5028 source 1.5028 /organism=Saccharomyces cerevisiae /organism=Saccharomyces cerevisiae /db_xref=taxon:4932 /db_xref=taxon:4932 /chromosome=IX /chromosome=IX /map=9 /map=9 CDS 1.206 CDS 1.206 /codon_start=3 /codon_start=3 /product=TCP1-be

31、ta /product=TCP1-beta /protein_id=AAA98665.1 /protein_id=AAA98665.1 /db_xref=GI:1293614 /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM AEVLLRVDNIIRARPRTANRQHM gene 687.3158 gene 687.3158

32、/gene=AXL2 /gene=AXL2 CDS 687.3158 CDS 687.3158 /gene=AXL2 /gene=AXL2 /note=plasma membrane glycoprotein /note=plasma membrane glycoprotein /codon_start=1 /codon_start=1 /function=required for axial budding pattern of S.cerevisiae /function=required for axial budding pattern of S.cerevisiae /product

33、=Axl2p /product=Axl2p /protein_id=AAA98666.1 /protein_id=AAA98666.1 /db_xref=GI:1293615 /db_xref=GI:1293615 /translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF /translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF (有部分序列未列出)(有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEMLVDFSNKSNVNVGQVKDIHGRIPEMLBASE

34、COUNT 1510 a 1074 c 835 g 1609 tBASE COUNT 1510 a 1074 c 835 g 1609 tORIGIN ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 61 ccgacatga

35、g acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct (有部分序列未列出)(有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 4981 tgccatgact cagattc

36、taa ttttaagcta ttcaatttct ctttgatc/ / NCBIGBFFGBFF格式格式n n按域(按域(FieldField)可以划分为三个部分)可以划分为三个部分头部包含整个记录的信息(描述符);头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身。第三部分是核苷酸序列本身。n n所有序列数据库记录都在最后一行以所有序列数据库记录都在最后一行以“ “/”/”结尾。结尾。NCBIGBFFGBFF格式头部格式头部LocusLocus行行n n所有的所有的GBFFGBFF都起始于都起始于LOCUSLOC

37、US行:行:-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFFGBFF格式头部格式头部格式头部格式头部LocusLocus行行行行1 1、LOCUSLOCUS行:行:行:行:n n第一项第一项第一项第一项是是LOCUSLOCUS名称名称: :最初这一名称是用来表示本记录描述的基因最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:座,以方便检索相似序列: 前三个字母代表特定物种的名称

38、前三个字母代表特定物种的名称 第四、第五个字母代表如基因产物等特定的类别名称。第四、第五个字母代表如基因产物等特定的类别名称。 如如HUMHBB(HUMHBB(人人- -珠蛋白基因区域珠蛋白基因区域) )。NCBIGBFFGBFF格式头部格式头部LocusLocus行行n nLOCUSLOCUS这种这种“ “十字符十字符” ”命名方式已经无法满足基因在基因座中所包命名方式已经无法满足基因在基因座中所包含的信息。含的信息。n nLOCUSLOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在名称目前唯一的作用是它在数据库中是独一无二的,已不在具有任何实际意义。具有任何实际意义。n n仅使

39、用检索号码仅使用检索号码(acessionnumber)(acessionnumber)以满足对以满足对LOCUSLOCUS名称的要求名称的要求11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFFGBFF格式头部格式头部LocusLocus行行n n第二项第二项第二项第二项是序列长度。是序列长度。n nGenBankGenBank对提交的序列长度没有上限要求。对提交的序列长度没有上限要求。n n根据国际序列数据库合作计划的协议,为方便不

40、同的软件根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过处理序列,规定单条数据库记录的长度不能超过350kb350kb。n nGenBankGenBank已经很少接受长度低于已经很少接受长度低于50bp50bp的序列。的序列。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFFGBFF格式头部格式头部LocusLocus行行n n第三项表明序列的分子类型:其序列必须是一种单一的分第三项表明序列

41、的分子类型:其序列必须是一种单一的分子类型。子类型。n n包括:基因组包括:基因组DNADNA、RNARNA、RNARNA前体、前体、mRNA(cDNA)mRNA(cDNA)、tRNAtRNA等。等。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFFGBFF格式头部格式头部LocusLocus行行n n第四项是第四项是GenBankGenBank分类码:由三个字母组成,分类码:由三个字母组成,n n分类码将分类码将GenBankGen

42、Bank数据库分为数据库分为1717个分支个分支11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGenBankGenBank分类码(分类码(GenBankDivisionGenBankDivision)类类中文名称中文名称符号符号类类符号符号primatesequencesprimatesequences灵长类动物序列灵长类动物序列PRIPRIrodentsequencesrodentsequences啮齿类动物序列啮齿类动物序列RODRO

43、Dothermammaliansequencesothermammaliansequences其它哺乳动物序列其它哺乳动物序列MAMMAMothervertebratesequencsothervertebratesequencs其它脊椎动物序列其它脊椎动物序列VRTVRTinvertebratesequencesinvertebratesequences无脊椎动物序无脊椎动物序INVINVPlants,fungal,andalgalPlants,fungal,andalgalsequencessequences植物、真菌和藻类序列植物、真菌和藻类序列PLNPLNbacterialsequen

44、cesbacterialsequences细菌序列细菌序列BCTBCTviralsequencesviralsequences病毒序列病毒序列VRLVRLbacteriophagesequencesbacteriophagesequences噬菌体序列噬菌体序列PHGPHGsyntheticsequencessyntheticsequences人工合成序列人工合成序列SYNSYNunanntotatedsequencesunanntotatedsequences未注释序列未注释序列UNAUNAESTsequencesESTsequences表达序列标签表达序列标签ESTESTpatentseq

45、uencespatentsequences专利序列专利序列PATPATSTSsequencesSTSsequences序列标记位点序列标记位点STSSTSgenomesurveysequencesgenomesurveysequences基因组测定序列基因组测定序列GSSGSSHTGSsequencesHTGSsequences高通量基因组序列高通量基因组序列HTGHTGunfinishedhigh-throughputunfinishedhigh-throughputcDNAsequencingcDNAsequencing未完成测序的高通量未完成测序的高通量cDNAcDNA序列序列HTCHT

46、CNCBIGBFFGBFF格式头部格式头部LocusLocus行行n n第五项是最后修订日期。第五项是最后修订日期。n n某些时候,它也是数据第一次被公开的日期。某些时候,它也是数据第一次被公开的日期。n n这项简单的信息并无法对此做出判断。这项简单的信息并无法对此做出判断。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFFGBFF格式头部格式头部DEFINITIONDEFINITION行行2 2、DEFINITIONDEFINITI

47、ON行:行:n n主要对主要对GenBankGenBank记录中所含的生物学意义做出总结。记录中所含的生物学意义做出总结。n n它的说明内容包括来源物种、基因它的说明内容包括来源物种、基因/ /蛋白质名称;蛋白质名称;-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andDEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(RE

48、V7)genes,completecds.Axl2p(AXL2)andRev7p(REV7)genes,completecds.NCBIGBFFGBFF格式头部格式头部DEFINITIONDEFINITION行行n n如果序列是非编码区,则包含对序列功能的简单描述;如如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列果序列是一段编码区,则标明该序列是部分序列(partial(partialcds)cds)还是全序列还是全序列(completecds)(completecds)。-+-+-+-+-+-+-+-+-+-+-11020304050601102

49、030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7pDEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.(REV7)genes,completecds.NCBIGBFFGBFF格式头部格式头部-ACCESSION-ACCESSION行行3 3、检索号(、检索号(ACCESSIONACCESSION): :是序列记录的

50、唯一指针。是序列记录的唯一指针。n n检索号通常由一个字母加检索号通常由一个字母加5 5个数字(个数字(U12345U12345)或者由两个字)或者由两个字母加母加6 6个数字(个数字(AF123456AF123456)组成。)组成。-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060ACCESSIONU49845ACCESSIONU49845DearGenBankSubmitter:DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.Wehavepro

51、videdaGenBankaccessionThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence:numberforyournucleotidesequence:bankit660463AY795899bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordis

52、cussesWestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-linethesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.servers.NCBIGB

53、FFGBFF格式头部格式头部-ACCESSION-ACCESSION行行n n检索号在数据库中是唯一而且不变的,即使数据的提交者检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。改变数据的内容。n n在在 ACCESSIONACCESSION行中可能出现多个检索号,可能是因为数行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。的记录覆盖了原有的旧记录。n n第一个检索号为主检索号,而其余的统称为二级检索号。第一个检索号为主检索号,而其余的统称为二级检索号。NCBIGB

54、FFGBFF格式头部格式头部VERSIONVERSION行行4 4、版本号行:它的格式是:检索号、版本号行:它的格式是:检索号. .版本号。版本号。n n版本号于版本号于9999年年2 2月由三大数据库采纳使用。主要用于识别数月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。据库中一条单一的特定核苷酸序列。n n在数据库中,如果某条序列数据发生了变化,即使是单碱在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变基的改变,它的版本号都将增加,而它的检索号保持不变n n如由如由U12345.1U12345.1变为变为U12345

55、.2U12345.2。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079VERSIONU49845.1GI:1293613VERSIONU49845.1GI:1293613NCBIGBFFGBFF格式头部格式头部VERSIONVERSION行行n n版本号系统与跟在其后的版本号系统与跟在其后的GIGI(GenInfoIdentifierGenInfoIdentifier)号系统)号系统是平行运行是平行运行n n当一条序列改变后,它将被赋予一个新的当一条序列改变后,它将被赋予一个新的GIGI号,同时它的号,同时它的版本号

56、将增加。版本号将增加。n n当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的翻译发生任何变换,核酸序列都将被赋予一个新的GIGI号。号。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079VERSIONU49845.1GI:1293613VERSIONU49845.1GI:1293613NCBIGBFFGBFF格式头部格式头部KEYWORDSKEYWORDS行行5 5、关键词行:是用来描述序列的。如果该行中没有任何内、关键词行

57、:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个容,那么就只包含一个“ “.” .”。n n由于没有对照词汇表,所以由于没有对照词汇表,所以NCBIGenBankNCBIGenBank拒绝接受关键词,拒绝接受关键词,它只存在于旧的记录中。它只存在于旧的记录中。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079KEYWORDS.KEYWORDS.NCBIGBFFGBFF格式头部格式头部 SOURCESOURCE行行6 6、序列来源行:没有做特殊的规定,它通常包含序列来源、序列来源行:没有做特殊的规定,它通常包

58、含序列来源生物的简称,有些时候也包含分子类型。生物的简称,有些时候也包含分子类型。n nOrganismOrganism:以:以NCBINCBI的分类数据库为依据,指明物种的正式的分类数据库为依据,指明物种的正式科学名称。科学名称。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079SOURCEbakersyeast.SOURCEbakersyeast.ORGANISMSaccharomycescerevisiaeORGANISMSaccharomycescerevisiaeEukaryota(Eukaryota(真核真

59、核);Fungi();Fungi(真菌真菌);Ascomycota();Ascomycota(子囊菌门子囊菌门);Hemiascomycetes();Hemiascomycetes(半子囊菌纲半子囊菌纲););Saccharomycetales;Saccharomycetaceae;Saccharomyces.Saccharomycetales;Saccharomycetaceae;Saccharomyces.NCBIGBFFGBFF格式头部格式头部REFERENCEREFERENCE行行7 7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表、参考文献行:将与该数据有关的参考文献均

60、收录在内,将最先发表的文献列于第一位。的文献列于第一位。n n如果序列数据没有被文献报道,该行将显示如果序列数据没有被文献报道,该行将显示“ “inpress”inpress”或或“ “unpublished”unpublished”n n如所引用文献存在于如所引用文献存在于MEDLINEMEDLINE数据库中,将出现一个数据库中,将出现一个MEDLINEMEDLINE单一单一指针指针(uniqueidentifier,UID)(uniqueidentifier,UID)以便检索。以便检索。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-11020304050607079110203

61、04050607079REFERENCE1(bases1to5028)REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisTITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmut

62、agenesisinrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)JOURNALYeast10(11),1503-1509(1994)MEDLINE95176709MEDLINE95176709NCBIGBFFGBFF格式头部格式头部REFERENCEREFERENCE行行n n如果序列是直接提交而未经发表的,就将在标题如果序列是直接提交而未经发表的,就将在标题(TITLE)(TITLE)中注明中注明

63、“ “直接提交直接提交(DirectSubmission)”(DirectSubmission)”n n在期刊(在期刊(JOURNALJOURNAL)中注明提交日期,提交者姓名以及)中注明提交日期,提交者姓名以及提交者的工作单位。提交者的工作单位。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079REFERENCE1(bases1to1939)REFERENCE1(bases1to1939)AUTHORSYi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.AUTHORSYi,CA

64、O.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.TITLECloningandexpressionstudiesofacDNAencodingUDP-TITLECloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalinaglucosedehydrogenasefromDunaliellasalinaJOURNALUnpublishedJOURNALUnpublishedNCBIGBFFGBFF格式中部格式中部 n n特性表特性表(FEATURES):

65、(FEATURES):它描述基因和基因的产物,以及与序列它描述基因和基因的产物,以及与序列相关的生物学特性。相关的生物学特性。n n特性表提供一个参考词汇表以对合法的特性进行注释特性表提供一个参考词汇表以对合法的特性进行注释 这些特性包括该序列是否执行一个生物学功能;这些特性包括该序列是否执行一个生物学功能; 它是否与一个生物学功能的表达相关;它是否与一个生物学功能的表达相关; 它是否与其它分子相互作用;它是否与其它分子相互作用; 它是否影响一条序列的复制;它是否影响一条序列的复制; 它是否与其它序列的重组相关;它是否与其它序列的重组相关; 它是否是一条已识别的重复序列;它是否是一条已识别的重

66、复序列; 它是否有二级或三级结构;它是否有二级或三级结构; 它是否存在变异或者它是否被修订过。它是否存在变异或者它是否被修订过。 NCBIGBFFGBFF格式格式中部中部n n特性表格式特性表格式特性表格式特性表格式:按表单的方式设计的,包含三个部分:按表单的方式设计的,包含三个部分:第一,特性关键词第一,特性关键词(Featurekey)(Featurekey);第二,特性位置第二,特性位置(Location)(Location);第三,限定词第三,限定词(Qualifiers)(Qualifiers)。FEATURESLocation/QualifiersFEATURESLocation/

67、Qualifierssource1.5028source1.5028/organism=“Saccharomycescerevisiae”/organism=“Saccharomycescerevisiae”酿酒酵母酿酒酵母/mol_type=genomicDNA/mol_type=genomicDNA基因组基因组基因组基因组DNADNADNADNA/db_xref=taxon:4932/db_xref=taxon:4932分类学分类学/chromosome=IX/chromosome=IX染色体染色体/map=9/map=9NCBIGBFFGBFF格式中部格式中部FEATURESFEATUR

68、ESn n第一,特性关键词第一,特性关键词(Featurekey),(Featurekey),是一个简要说明功能组的是一个简要说明功能组的关键词,允许加入新的或未定义的特性;关键词,允许加入新的或未定义的特性;n n第二,特性位置第二,特性位置(Location)(Location),指明在特性表中的什么地方找,指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符到相关特性,在位置特性中可以包含操作符(Operator)(Operator)和功和功能性描述符能性描述符(Descriptor)(Descriptor)以指明序列需经过怎样的处理才能以指明序列需经过怎样的处理才能得到相应

69、的特性;得到相应的特性;n n第三,限定词第三,限定词(Qualifiers),(Qualifiers),相关特性的辅助信息,限定词使相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。用一组标准化的对照词汇表以利于计算机从中提取信息。NCBIGBFFGBFF格式中部格式中部FEATURESFEATURES例例1 1KeyLocation/QualifiersKeyLocation/QualifiersCDS23.400CDS23.400/product=alcoholdehydrogenase/product=alcoholdehydrogenase/gene=ad

70、hI/gene=adhIn n特性表含义:特性表含义:该编码序列(该编码序列(CDSCDS)起始于第)起始于第2323碱基,终止于第碱基,终止于第400400碱基碱基产物是乙醇脱氢酶产物是乙醇脱氢酶基因名称是基因名称是“ “adhI”adhI”。NCBIGBFFGBFF格式中部格式中部FEATURESFEATURESn n例例2 2KeyLocation/QualifiersKeyLocation/QualifiersCDSjoin(544.589,688.1032)CDSjoin(544.589,688.1032)/product=T-cellreceptorbeta-chain/produ

71、ct=T-cellreceptorbeta-chainn n特性表含义:特性表含义:它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,表达产物表达产物“ “T-T-细胞受体细胞受体betabeta链链” ”由序列内两个片段结合生成由序列内两个片段结合生成指明两个片段在序列中所处的位置。指明两个片段在序列中所处的位置。NCBIGBFFGBFF格式中部特性表关键词格式中部特性表关键词1 1、特性表的关键词:以树型结构生成、特性表的关键词:以树型结构生成misc_featuremisc_feature生物学特性无法用特性表关键词描述的序列生物学特性无法用特性表关键词描述

72、的序列misc_differencemisc_difference序列特性无法用特性表关键词描述的序列序列特性无法用特性表关键词描述的序列conflictconflict同一序列在不同的研究中在位点或区域上有差异同一序列在不同的研究中在位点或区域上有差异unsureunsure序列不能确定的区域序列不能确定的区域old_sequenceold_sequence该序列对以前的版本做过修订该序列对以前的版本做过修订variationvariation包含稳定突变的序列包含稳定突变的序列modified_basemodified_base修饰过的核苷酸修饰过的核苷酸genegene已识别为基因或已命

73、名的序列区域已识别为基因或已命名的序列区域misc_signalmisc_signal无法用信号特性关键词描述的信号序列无法用信号特性关键词描述的信号序列promoterpromoter转录起始区转录起始区CAAT_signalCAAT_signal真核启动子上游的真核启动子上游的CAATCAAT盒,与盒,与RNARNA结合相关结合相关TATA_signalTATA_signal真核启动子的真核启动子的TATATATA盒盒-35_signal-35_signal原核启动子中的原核启动子中的-35-35框框-10_signal-10_signal原核启动子原核启动子PribowPribow盒盒G

74、C_signalGC_signal真核启动子的真核启动子的GCGC盒盒RBSRBS核糖体结合位点核糖体结合位点polyA_signalRNApolyA_signalRNA转录本的剪切识别位点转录本的剪切识别位点enhancerenhancer增强子增强子attenuatorattenuator与转录终止有关的序列与转录终止有关的序列terminatorterminator转录终止序列转录终止序列rep_originrep_origin双链双链DNADNA复制起始区复制起始区NCBIGBFFGBFF格式中部特性表关键词格式中部特性表关键词misc_RNAmisc_RNA无法用无法用RNARNA关

75、键词描述的转录物或关键词描述的转录物或RNARNA产物产物prim_transcriptprim_transcript初始转录本初始转录本precursor_RNAprecursor_RNA前体前体RNARNAmRNAmRNA信使信使RNARNA5clip5clip前体转录本中被剪切掉的前体转录本中被剪切掉的55端序列端序列3clip3clip前体转录本中被剪切掉的前体转录本中被剪切掉的33端序列端序列5UTR55UTR5非翻译区非翻译区3UTR33UTR3非翻译区非翻译区exonexon外显子外显子CDSCDS蛋白质编码序列蛋白质编码序列sig_peptidesig_peptide编码信号肽

76、的序列编码信号肽的序列transit_peptidetransit_peptide转运蛋白编码序列转运蛋白编码序列mat_peptidemat_peptide编码成熟肽的序列编码成熟肽的序列intronintron内含子内含子polyA_siteRNApolyA_siteRNA转录本的多聚腺苷酸化位点转录本的多聚腺苷酸化位点rRNArRNA核糖体核糖体RNARNAtRNAtRNA转运转运RNARNAscRNAscRNA小细胞质小细胞质RNARNAsnRNAsnRNA小核小核RNARNAsnoRNAsnoRNA加工和修饰加工和修饰rRNArRNA的小核的小核RNARNANCBIGBFFGBFF格

77、式中部特性表关键词格式中部特性表关键词immunoglobulin_relatedimmunoglobulin_relatedC_regionC_region免疫相关蛋白上的稳定区免疫相关蛋白上的稳定区D_segmentD_segment码免疫球蛋白重链的可变区基因之一码免疫球蛋白重链的可变区基因之一J_segmentJ_segment编码免疫球蛋白轻链和重链的可变区基因之一编码免疫球蛋白轻链和重链的可变区基因之一N_regionN_region插入重排免疫球蛋白片段间的核苷酸插入重排免疫球蛋白片段间的核苷酸S_regionS_region免疫球蛋白重链的开关区免疫球蛋白重链的开关区V_reg

78、ionV_region免疫球蛋白轻链和重链的可变区,和免疫球蛋白轻链和重链的可变区,和T T细胞受体细胞受体 , 和和 链;编码可变链;编码可变的氨基末端部分;可由的氨基末端部分;可由V_segment,D_segment,N_regionV_segment,D_segment,N_region和和J_segmentJ_segment组成组成 V_segmentV_segment免疫球蛋白轻链和重链的可变区段,和免疫球蛋白轻链和重链的可变区段,和TT细胞受体细胞受体 , 和和 链;编码大链;编码大多数可变区(多数可变区(v_regionv_region) 和前导肽的最后几个氨基酸和前导肽的最后

79、几个氨基酸repeat_regionrepeat_region基因组中所包含的重复序列基因组中所包含的重复序列NCBIGBFFGBFF格式中部特性表关键词格式中部特性表关键词repeat_unitrepeat_unit单个的重复元件单个的重复元件LTRLTR长末端重复序列长末端重复序列SatelliteSatellite卫星重复序列卫星重复序列misc_bindingmisc_binding无法描述的核酸序列结合位点无法描述的核酸序列结合位点primer_bindprimer_bind复制、转录的引物结合位点复制、转录的引物结合位点protein_bindprotein_bind蛋白质结合区蛋

80、白质结合区STSSTS测序标签位点测序标签位点misc_recombmisc_recomb无法用重组特性关键词描述的重组事件无法用重组特性关键词描述的重组事件iDNAiDNA通过重组所消除的通过重组所消除的DNADNAmisc_structuremisc_structure无法用结构关键词描述的核酸序列高级结构或构型无法用结构关键词描述的核酸序列高级结构或构型stem_loopstem_loop发夹结构发夹结构D-loopD-loop线粒体中线粒体中DNADNA中的取代环中的取代环 NCBIGBFFGBFF格式中部格式中部LocationLocation2 2、特性位置(、特性位置(Locat

81、ionLocation):用来描述在序列中的什么区域能):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含够找到相关的特性,位置特性可以包含ComplementComplement、JoinJoin、OrderOrder等三个操作符(等三个操作符(OperatorOperator)。)。467467指明序列中的单个碱基指明序列中的单个碱基340.565340.565指明包括起始和中止碱基在内的一段连续序列指明包括起始和中止碱基在内的一段连续序列345.500345.500指明序列起始于起始碱基号之前的某个位置,但起指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界

82、未知始碱基号之前的特性边界未知NCBIGBFFGBFF格式中部格式中部LocationLocation1.888gi|995614|dbj|D49653|RATOBESERatmRNAforobese.gi|995614|dbj|D49653|RATOBESERatmRNAforobese. CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTT

83、GGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGAAGTCGGTATCCGCCAGGC

84、AGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCCCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGC

85、AGAAGCCAGAGAGCCTGGATGGCGTCCTGGTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCT

86、GAGGTTTCCTGAATGCTGAGGTTTC以上这个以上这个FASTAFASTA文件中包含了文件中包含了gigi号码、号码、GenBankGenBank检索号码、检索号码、LOCUSLOCUS名称、以及名称、以及GenBankGenBank记录中的记录中的DEFINATIONDEFINATION字段。字段。一种最简单的一种最简单的fastafasta序列形式可以表示为:序列形式可以表示为:D49653D49653 CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCC

87、CAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.AGTCGGTATCCG.NCBI序列文件格式例子序列

88、文件格式例子(GenBank)(GenBank)n nLOCUSRATOBESE539bpss-mRNAROD23-SEP-1995LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995n nDEFINITIONRatmRNAforobese.DEFINITIONRatmRNAforobese.n nACCESSIOND49653ACCESSIOND49653n nKEYWORDS.KEYWORDS.n nSOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedSOURCERattusnorvegi

89、cus(strainOLETF,LETOandZucker,)differentiatedn nadiposecDNAtomRNA.adiposecDNAtomRNA.n nORGANISMRattusnorvegicusORGANISMRattusnorvegicusn nEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Eukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;n nVertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Ver

90、tebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;n nSciurognathi;Myomorpha;Muridae;Murinae;Rattus.Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.n nREFERENCE1(bases1to539)REFERENCE1(bases1to539)n nAUTHORSMurakami,T.andShima,K.AUTHORSMurakami,T.andShima,K.n nTITLECloningofratobesecDNAanditsexpressioni

91、nobeseratsTITLECloningofratobesecDNAanditsexpressioninobeseratsn nJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)JOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)n nSTANDARDfullautomaticSTANDARDfullautomaticn nCOMMENTSubmitted(10-Mar-1995)toDDBJby:COMMENTSubmitted(10-Mar-1995)toDDBJby:n nTakas

92、hiMurakamiTakashiMurakamin nDepartmentofLaboratoryMedicineDepartmentofLaboratoryMedicinen nSchoolofMedicineSchoolofMedicinen nUniversityofTokushimaUniversityofTokushiman nKuramotocho3-chomeKuramotocho3-chomen nTokushima770Tokushima770n nJapanJapann nPhone:+81-886-33-7184Phone:+81-886-33-7184n nFax:+

93、81-886-31-9495.Fax:+81-886-31-9495.NCBI 序列文件格式例子序列文件格式例子(GenBank)(GenBank)n nNCBI gi: 995614NCBI gi: 995614n nFEATURES Location/QualifiersFEATURES Location/Qualifiersn n source 1.539 source 1.539n n /organism=Rattus norvegicus /organism=Rattus norvegicusn n /strain=OLETF, LETO and Zucker /strain=OLE

94、TF, LETO and Zuckern n /dev_stage=differentiated /dev_stage=differentiatedn n /sequenced_mol=cDNA to mRNA /sequenced_mol=cDNA to mRNAn n /tissue_type=adipose /tissue_type=adiposen n CDS 30.533 CDS 30.533n n /partial /partialn n /note=NCBI gi: 995615 /note=NCBI gi: 995615n n /codon_start=1 /codon_sta

95、rt=1n n /product=obese /product=obesen n /translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND /translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDn n ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLEn n NLRDLLHLLAFSKSCSLPQ

96、TRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQn n LDLSPEC LDLSPECn nBASE COUNT 121 a 167 c 133 g 118 tBASE COUNT 121 a 167 c 133 g 118 tn nORIGINORIGINn n 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 1 ccaagaagaa gaagacccca g

97、cgaggaaaa tgtgctggag acccctgtgc cggttcctgtn n 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgacan n 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg 121 ccaaaaccct catcaagacc attgtcacca ggatca

98、atga catttcacac acgcagtcggn n 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctgan n 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcac

99、c agcttgccttn n 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgcn n 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagccn

100、n 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgcn n 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttcn n/NCBI序列文件格式例子(序

101、列文件格式例子(GCGGCG)n nLOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95LOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95n nDEFINITIONRatmRNAforobese.DEFINITIONRatmRNAforobese.n nACCESSION-ACCESSION-n nKEYWORDS-KEYWORDS-n nSOURCERattusnorvegicus;NorwayratSOURCERattusnorvegicus;Norwayratn nORGANISMEukaryotae;mitochondria

102、leukaryotes;Metazoa;Chordata;Vertebrata;ORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;n nSarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;n nMyomorpha;Muridae;Murinae;RattusMyomorpha;Muridae;Murinae;Rattusn nREFERENC

103、E1REFERENCE1n nAUTHORSMurakami,T.&Shima,K.AUTHORSMurakami,T.&Shima,K.n nTITLECloningofratobesecDNAanditsexpressioninobeserats.TITLECloningofratobesecDNAanditsexpressioninobeserats.n nJOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)JOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)n nCOMM

104、ENTDatabaseReference:COMMENTDatabaseReference:n nDDBJRATOBESEDDBJRATOBESEn nAccession:D49653Accession:D49653n n-n nSubmitted(10-Mar-1995)toDDBJby:Submitted(10-Mar-1995)toDDBJby:n nTakashiMurakamiTakashiMurakamin nDepartmentofLaboratoryMedicineDepartmentofLaboratoryMedicinen nSchoolofMedicineSchoolof

105、Medicinen nUniversityofTokushimaUniversityofTokushiman nKuramotocho3-chomeKuramotocho3-chomen nTokushima770Tokushima770n nJapanJapann nPhone:+81-886-33-7184Phone:+81-886-33-7184n nFax:+81-886-31-9495Fax:+81-886-31-9495NCBI序列文件格式例子(序列文件格式例子(GCGGCG)n nFEATURES From To/Span DescriptionFEATURES From To/

106、Span Descriptionn n pept 30 533 obese pept 30 533 obesen n ? 1 539 source; /organism=Rattus norvegicus; ? 1 539 source; /organism=Rattus norvegicus;n n /strain=OLETF, LETO and Zucker; /strain=OLETF, LETO and Zucker;n n /dev_stage=differentiated; /sequenced_mol=cDNA /dev_stage=differentiated; /sequen

107、ced_mol=cDNAn n to mRNA; /tissue_type=adipose to mRNA; /tissue_type=adiposen nBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERn nORIGIN ?ORIGIN ?n n RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 . RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check:

108、5797 .n n 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGTn n 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACAn n 121 CCAAAA

109、CCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGGn n 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGAn n 241 GTTTGTCCAA GATGGACCA

110、G ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTTn n 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGCn n 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC A

111、GACCCGTGG CCTGCAGAAG CCAGAGAGCC 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCCn n 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGCn n 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCT

112、GAATGC TGAGGTTTC 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTCn n/NCBI序列文件格式例子序列文件格式例子(ASN.1)(ASN.1)ASN.1ASN.1是是NCBINCBI用来存储和维护所有数据的格式用来存储和维护所有数据的格式 Seq-entry:=setlevel1,classnuc-prot,descrpubpubsubauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrSeq-entry:=setlevel1,cla

113、ssnuc-prot,descrpubpubsubauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrTakashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,TakashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,

114、Tokushima,Tokushima770,Japan(E-mail:muraclin.med.tokushima-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495),mediumemail,datestdyearTokushima770,Japan(E-mail:muraclin.med.tokushima-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495),mediumemail,datestdyear1995,month3,day10,pubpubmuid95251725,articletitl

115、enameCloningofratobesecDNAanditsexpressioninobeserats.,1995,month3,day10,pubpubmuid95251725,articletitlenameCloningofratobesecDNAanditsexpressioninobeserats.,authorsnamesstdnamenamelastMurakami,initialsT.,namenamelastShima,initialsK.,affilstrDepartmentofauthorsnamesstdnamenamelastMurakami,initialsT.

116、,namenamelastShima,initialsK.,affilstrDepartmentofLaboratoryMedicine,SchoolofMedicine,UniversityofTokushima,Japan.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaLaboratoryMedicine,SchoolofMedicine,UniversityofTokushima,Japan.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaBioche

117、mBiophysResCommun,issn0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyear1995,BiochemBiophysResCommun,issn0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyear1995,month4,day26,volume209,issue3,pages944-952,languageeng,idspubmed7733988,medline9525172

118、5,pmid7733988month4,day26,volume209,issue3,pages944-952,languageeng,idspubmed7733988,medline95251725,pmid7733988,update-datestdyear2000,month2,day1,sourceorgtaxnameRattusnorvegicus,commonNorwayrat,dbdbtaxon,tagid10116,update-datestdyear2000,month2,day1,sourceorgtaxnameRattusnorvegicus,commonNorwayra

119、t,dbdbtaxon,tagid10116,orgnamenamebinomialgenusRattus,speciesnorvegicus,modsubtypestrain,subnameOLETF,LETOandZucker,lineage,orgnamenamebinomialgenusRattus,speciesnorvegicus,modsubtypestrain,subnameOLETF,LETOandZucker,lineageEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheri

120、a;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,Eukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,mgcode2,divROD,subtypesubtypetissue-type,nameadipose,subtypedev-stage,namedifferentiated,seq-setseqidmgcode2,divROD,

121、subtypesubtypetissue-type,nameadipose,subtypedev-stage,namedifferentiated,seq-setseqidddbjnameRATOBESE,accessionD49653,version1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbankddbjnameRATOBESE,accessionD49653,version1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbanksour

122、ceRattusnorvegicus(strain:OLETF,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobese(ob),leptin,obesity,sourceRattusnorvegicus(strain:OLETF,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobese(ob),leptin,obesity,obproduct,secretoryprotein,molinfobiomolmRNA,create-datestdyear1995,mont

123、h9,day22,instreprraw,molrna,lengthobproduct,secretoryprotein,molinfobiomolmRNA,create-datestdyear1995,month9,day22,instreprraw,molrna,length539,seq-datancbi2na508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A38539,seq-datancbi2na508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A384500

124、574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DCD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9BD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252

125、225E8E9B5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationint5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationintfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995615,descrtitlele

126、ptin(obproduct)Rattusfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995615,descrtitleleptin(obproduct)Rattusnorvegicus,molinfobiomolpeptide,create-datestdyear1995,month9,day22,instreprraw,molaa,length167,seq-datancbieaanorvegicus,molinfobiomolpeptide,create-datestdyear1995,month9,day22

127、,instreprraw,molaa,length167,seq-datancbieaaMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEALDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSL

128、PQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC,annotdataftabledataprotnameleptin(obproduct),locationwholegi995615,SLYSTEVVALSRLQGSLQDILQQLDLSPEC,annotdataftabledataprotnameleptin(obproduct),locationwholegi995615,dataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfrom0,to20,idgi9956

129、15,dataprotnamesecreteddataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfrom0,to20,idgi995615,dataprotnamesecretedprotein,leptin,processedmature,locationintfrom21,to166,idgi995615,annotdataftabledatacdregionframeone,protein,leptin,processedmature,locationintfrom21,to166,idgi995615,

130、annotdataftabledatacdregionframeone,codeid1,productwholegi995615,locationintfrom29,to532,idgi995614codeid1,productwholegi995615,locationintfrom29,to532,idgi995614NCBI基因组数据库的注释基因组数据库的注释NCBI基因组注释工具基因组注释工具 n n迄今还没有一种普遍使用的基因组序列注释工具。迄今还没有一种普遍使用的基因组序列注释工具。n n基因组注释咨询小组:在美国成立基因组注释咨询小组:在美国成立, ,其成员来自其成员来自OakR

131、idgeOakRidge、LawrenceBerkeleyLawrenceBerkeley、ArgonneArgonne三个国家实验室以及其他基三个国家实验室以及其他基因组测序实验室因组测序实验室n n目的:开发研制基因组注释工具。目的:开发研制基因组注释工具。n n提出了开发名为提出了开发名为“ “GenomeChannel”GenomeChannel”的基因组注释工具的设的基因组注释工具的设想,该软件的模型可从想,该软件的模型可从OakRidgeOakRidge国家实验室的国家实验室的WebWeb节点节点(http:/compbio.ornl.gov/tools/channel/)(htt

132、p:/compbio.ornl.gov/tools/channel/)获取。获取。 NCBI基因组注释工具基因组注释工具GenomeChannelGenomeChannel为所为所有测序完成和尚未完有测序完成和尚未完成的基因组提供了一成的基因组提供了一个染色体图形界面个染色体图形界面( (核核型浏览型浏览) ),从各测序实验室发送从各测序实验室发送的单个结合点用彩色的单个结合点用彩色编码区带在染色体的编码区带在染色体的适当位置上显示出来适当位置上显示出来每个结合点直每个结合点直接与含有丰富接与含有丰富信息的图谱信息的图谱(information-(information-richmap)ric

133、hmap)相连,相连,信息图谱包括信息图谱包括各种特征信息,各种特征信息,如如ORFsORFs、转录、转录因子、预测基因子、预测基因的因的BLASTBLAST结结果、建立结合果、建立结合点的凝胶标记点的凝胶标记和基因克隆及和基因克隆及DNADNA确认序列确认序列NCBI基因组注释工具基因组注释工具n n前景:一旦前景:一旦GenomeChannelGenomeChannel投入使用,科研人员投入使用,科研人员 将可以将可以为现有的基因组序列增加新的生物学特征注释或修改以前为现有的基因组序列增加新的生物学特征注释或修改以前的注释。的注释。n n该注释工具是用该注释工具是用JavaJava语言开发

134、的,并不适合于所有的语言开发的,并不适合于所有的WebWeb浏览器浏览器 。 NCBI微生物基因组序列合作注释工具微生物基因组序列合作注释工具 n nWITWIT软件是从生物化学软件是从生物化学/ /代谢通道透视图的角度来注释微生代谢通道透视图的角度来注释微生物基因组物基因组n n基本原理是所有生物体共享同一的代谢通道即同源基因编基本原理是所有生物体共享同一的代谢通道即同源基因编码出来的蛋白质具有同一功能码出来的蛋白质具有同一功能n n生物体全基因组序列的所有基因的功能注释过程可以被认生物体全基因组序列的所有基因的功能注释过程可以被认为是生物体的为是生物体的“ “代谢重建代谢重建” ”n n代

135、谢重建代谢重建(metabolicreconstructoion)(metabolicreconstructoion)的目的在于确定生物体的目的在于确定生物体的代谢通道以及确定哪个基因具有这种功能。的代谢通道以及确定哪个基因具有这种功能。 NCBIWhatIsThere(WIT)WhatIsThere(WIT)“WhatIsThere”(WIT),由Argonne国家实验室的RossOverbeek和密西根州大学的NielsLarsen合作研制,Web节点http:/wit.mcs.anl.gov/WIT2/TIGR已经使用WIT注释各种基因组数据。WITWeb节点http:/www.cme.

136、msu.edu/WIT/HTML/curate.htmlNCBIhttp:/www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord序列提交序列提交NCBI在线提交序列(在线提交序列(BankItBankIt)n nBankItBankIt是是NCBINCBI提供的在线提交序列的工具提供的在线提交序列的工具n n由一系列表单,包括联络信息、发布要求、引用参考信息、由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以

137、及序列本身的信息等。序列来源信息、以及序列本身的信息等。n n用户提交序列后,会从电子邮件收到自动生成的数据条目,用户提交序列后,会从电子邮件收到自动生成的数据条目,GenbankGenbank的新序列编号,以及完成注释后的完整的数据记的新序列编号,以及完成注释后的完整的数据记录。录。NCBI在线提交序列(在线提交序列(BankItBankIt) 用户还可以在用户还可以在BankItBankIt页面下修改已经发布序列的信息。页面下修改已经发布序列的信息。n nBankItBankIt适合于独立测序工作者提交少量序列,而不适合适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交

138、很长的序列,大量序列的提交,也不适合提交很长的序列,ESTEST序列序列和和GSSGSS序列也不应用序列也不应用BankItBankIt提交。提交。NCBI在线提交序列步骤在线提交序列步骤1. 1.登陆登陆BankItBankIt页面页面 http:/www.ncbi.nlm.nih.gov/BankIthttp:/www.ncbi.nlm.nih.gov/BankIt2. 2.填写表单内容。填写表单内容。3. 3.确认表单内容。确认表单内容。4. 4.等待电子邮件返回信息。等待电子邮件返回信息。NCBI填写表单信息(填写表单信息(1 1)填写表单的内容包括四个方面一些注意事项和介绍NCBI填

139、写表单信息(填写表单信息(2 2)基本信息:提交的序列数目,联系人的信息,公开序列发布日期等。NCBI填写表单信息(填写表单信息(3 3)参考信息:序列作者,相关文献等信息NCBI填写表单信息(填写表单信息(4 4)来源信息:序列来源,物种等描述NCBI填写表单信息(填写表单信息(5 5)序列信息:序列类型,序列等NCBI填写表单信息(填写表单信息(6 6)附加信息:评论,致谢等(可以不填写)填完后点击进入确认界面NCBI确认表单信息确认表单信息确认无误后提交到genbank如果发现有不对,返回表单页面修改。NCBI提交的序列提交的序列NCBI序列提交工具序列提交工具(sequin)(sequ

140、in)n n大量的序列提交可以由大量的序列提交可以由SequinSequin程序完成。程序完成。n nSequinSequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证查函数来提高序列的质量保证n n用于提交来自系统进化、种群和突变研究的序列,可以加入比对的用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。数据。n nSequinSequin除了用于编辑和修改序列数据记录,还可用于序列的分析,除了用于编辑和修改序列数据记录,还可用于序列的分析,任何以任何以FASTAFASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以格式序列为输入数据的序列分析程序都可以整合到整合到SequinSequin程序下。程序下。n n不同操作系统下运行的不同操作系统下运行的SequinSequin程序:程序:ftp:/ncbi.nlm.nih.gov/sequin/ftp:/ncbi.nlm.nih.gov/sequin/n nSequinSequin的使用说明:的使用说明:http:/www.ncbi.nih.gov/Sequin/index.htmlhttp:/www.ncbi.nih.gov/Sequin/index.html

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号