生物信息数据库:2序列注释格式课件

上传人:re****.1 文档编号:575624513 上传时间:2024-08-18 格式:PPT 页数:109 大小:2.10MB
返回 下载 相关 举报
生物信息数据库:2序列注释格式课件_第1页
第1页 / 共109页
生物信息数据库:2序列注释格式课件_第2页
第2页 / 共109页
生物信息数据库:2序列注释格式课件_第3页
第3页 / 共109页
生物信息数据库:2序列注释格式课件_第4页
第4页 / 共109页
生物信息数据库:2序列注释格式课件_第5页
第5页 / 共109页
点击查看更多>>
资源描述

《生物信息数据库:2序列注释格式课件》由会员分享,可在线阅读,更多相关《生物信息数据库:2序列注释格式课件(109页珍藏版)》请在金锄头文库上搜索。

1、NCBI分子数据库结构分子数据库结构分子数据库结构分子数据库结构曹毅NCBIGenBank数据库结构n n作用:了解序列数据库的格式,有助于更好地提高数据库作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。检索的效率和准确性。n nDDBJDDBJ数据库的内容和格式与数据库的内容和格式与GenBankGenBank相同,此处不作详细相同,此处不作详细介绍。介绍。n n分别介绍分别介绍EMBLEMBL和和GenBankGenBank的数据库结构的数据库结构NCBIGenBank数据库数据注释数据库数据注释(www.ncbi.nlm.nih.gov/genbank/)n nGe

2、nBankGenBank库包含所有已知的核酸序列和蛋白质序列库包含所有已知的核酸序列和蛋白质序列, ,以及与以及与它们相关的文献著作和生物学注释。它们相关的文献著作和生物学注释。n nNCBINCBI可提供广泛的数据查询、序列相似性搜索以及其它分可提供广泛的数据查询、序列相似性搜索以及其它分析服务。析服务。n n数据库数据库序列文件:注释内容序列文件:注释内容文章文章索引文件:检索目录索引文件:检索目录文摘文摘NCBIGenBank数据库结构数据库结构n n完整的完整的 GenBankGenBank数据库包括序列文件,索引文件以及其它数据库包括序列文件,索引文件以及其它有关文件。有关文件。n

3、n索引文件是根据数据库中作者、参考文献等建立的,用于索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。数据库查询。n nGenPeptGenPept是由是由GenBankGenBank中的核酸序列翻译而得到的蛋白质序中的核酸序列翻译而得到的蛋白质序列数据库列数据库n n数据格式为数据格式为FastAFastA。 NCBIGenBank数据记录NCBIGenBank数据记录NCBIGenBank数据库结构n nGenBankGenBank中最常用的是序列文件。中最常用的是序列文件。n n序列文件的基本单位:是序列条目,包括核苷酸碱基排列序列文件的基本单位:是序列条目,包括核苷酸碱基排

4、列顺序和注释两部分。顺序和注释两部分。n n生物信息资源中心通过计算机网络提供该数据库文件。生物信息资源中心通过计算机网络提供该数据库文件。n n注释条目:文章的格式注释条目:文章的格式NCBIGenBank数据库结构n nGenBankGenBank序列文件由单个的序列条目组成。序列文件由单个的序列条目组成。n n序列条目由字段组成,每个字段由关键字起始,后面为该序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段的具体说明。n n字段分若干次子字段,以次关键字或特性表说明符开始。字段分若干次子字段,以次关键字或特性表说明符开始。n n每个序列条目以双斜杠每个序列条目以双斜

5、杠“ “/”/”作结束标记作结束标记NCBIGenBank数据库结构n n序列条目的格式非常重要,关键字从第一列开始,次关键序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。字从第三列开始,特性表说明符从第五列开始。n n每个字段可占一行,也可以占若干行。每个字段可占一行,也可以占若干行。n n若一行中写不下时,继续行以空格开始若一行中写不下时,继续行以空格开始 NCBIGenBank数据库n n物种:物种:GenBankGenBank库里的数据按来源于大约库里的数据按来源于大约100,000100,000个物种,个物种,其中其中56%56%是人类的基

6、因组序列是人类的基因组序列( (所有序列中的所有序列中的34%34%是人类的是人类的ESTEST序列序列) )n n记录:每条记录:每条GenBankGenBank数据记录包含对序列的简要描述,它数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及的科学命名,物种分类名称,参考文献,序列特征表,及序列本身序列本身NCBIGenBank数据库n n序列特征表:包含对序列生物学特征注释如:编码区、转序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等录单元、重复区域、突变位点或修饰位点等n n分类:所有数据记录被划分为如细菌类、病毒

7、类、灵长类、分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及啮齿类,以及ESTEST数据、基因组测序数据、大规模基因组数据、基因组测序数据、大规模基因组序列数据等序列数据等1616类,其中类,其中ESTEST数据等又被分成若干文件数据等又被分成若干文件NCBI注释内容n n序列条目关键字:序列条目关键字: LOCUS(LOCUS(代码代码),), DEFINITION(DEFINITION(说明说明) ), ACCESSION(ACCESSION(编号编号) ), NIDNID符符( (核酸标识核酸标识),), KEYWORDS(KEYWORDS(关键词关键词) ), SOUR

8、CE(SOURCE(数据来源数据来源) ), REFERENCE(REFERENCE(文献文献) ), FEATURES(FEATURES(特性表特性表) ), BASECOUNT(BASECOUNT(碱基组成碱基组成) ) ORIGIN(ORIGIN(碱基排列顺序碱基排列顺序) )。n n先版的核酸序列数据库将引入新的关键词先版的核酸序列数据库将引入新的关键词SV(SV(序列版本号序列版本号) ),用,用“ “编编号号. .版本号版本号” ”表示,并取代关键词表示,并取代关键词NIDNIDNCBILOCUSn nLOCUS(LOCUS(代码代码) ):是该序列条目的标记,或者说标识符,:是该

9、序列条目的标记,或者说标识符,蕴涵这个序列的功能:如蕴涵这个序列的功能:如HUMCYCLOXHUMCYCLOX表示人的环氧化酶。表示人的环氧化酶。序列长度序列长度类型类型种属来源以种属来源以录入日期等录入日期等n n说明字段是有关这一序列的简单描述说明字段是有关这一序列的简单描述NCBIACCESSIONn nACCESSION(ACCESSION(编号编号) ):具有唯一性和永久性,在文献中引:具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。用这个序列时,应该以此编号为准。NCBIKEYWORDSn nKEYWORDS(KEYWORDS(关键词关键词) )字段:由该序列的提交者

10、提供,包字段:由该序列的提交者提供,包括括该序列的基因产物该序列的基因产物其它相关信息其它相关信息NCBISOURCEn nSOURCE(SOURCE(数据来源数据来源) )字段:说明该序列是从什么生物体、字段:说明该序列是从什么生物体、什么组织得到的什么组织得到的n n次关键字次关键字ORGANISM(ORGANISM(种属种属) ):指出该生物体的分类学地位:指出该生物体的分类学地位NCBIREFERENCEn nREFERENCE(REFERENCE(文献文献) )字段:说明该序列中的相关文献,包括字段:说明该序列中的相关文献,包括AUTHORS(AUTHORS(作者作者),),TITL

11、E(TITLE(题目题目) )及及JOURNAL(JOURNAL(杂志名杂志名) )等等, ,以次关键词列出。以次关键词列出。n nMEDLINEMEDLINE的代码:该代码实际上是个超文本链接,点击它的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。可以直接调用上述文献摘要。n n一个序列可有多篇文献一个序列可有多篇文献, ,以不同序号表示,并给出该序列中以不同序号表示,并给出该序列中哪一部分与文献有关。哪一部分与文献有关。NCBIFEATURESn nFEATURES(FEATURES(特性表特性表) ):具有特定的格式,用来详细描述序:具有特定的格式,用来详细描述序列特

12、性。列特性。n n特性表中带有特性表中带有 /db-xref/db-xref/标志的字符可以连接到其它数据标志的字符可以连接到其它数据库,如分类数据库库,如分类数据库(taxon9606),(taxon9606),以及蛋白质序列数据库以及蛋白质序列数据库(PID(PID:g181254)g181254)。n n序列中各部分的位置都在表中标明,序列中各部分的位置都在表中标明,55非编码区,编码区,非编码区,编码区,33非编码区,多聚腺苷酸重复区域等。非编码区,多聚腺苷酸重复区域等。n n翻译所得信号肽以及最终蛋白质产物翻译所得信号肽以及最终蛋白质产物n n碱基含量字段,给出序列中的碱组成碱基含量

13、字段,给出序列中的碱组成NCBIORIGINn nORIGINORIGIN行是序列的引导行行是序列的引导行n n下面便是碱基序列下面便是碱基序列n n以双斜杠行以双斜杠行“ “/”/”结束。结束。 NCBIGenBank数据库数据库格式n nFASTAFASTA格式格式格式格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gen

14、e, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsAxl2p (AXL2) and Rev7p (REV7) genes, complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGT

15、AGTCAGCTCTGCATCTGAAGCCGCTGAACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAAC

16、GCAAAAAATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATATCACAAATAAA

17、TTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCTATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT(该序列没有完全列出)(该序列没有完全列出) NCBIGenBank数据库数据库数据库格式数据库格式(1)n nFASTAFASTA格式:将一个格式:将一个DNADNA或者蛋白质序列表示为一个带有一些标记

18、或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。的核苷酸或氨基酸字符串。n n大于号(大于号( )表示一个新文件的开始)表示一个新文件的开始n n结束用(结束用(/ /)n nFASTAFASTA格式并没有什么特殊的要求。格式并没有什么特殊的要求。NCBIFASTA格式序列的提交NCBIGenBank数据库数据库格式(1)n nFASTAFASTA格式特点:格式特点:只存储了最少量的信息只存储了最少量的信息它将所存储的信息转化为简单的字符串它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性人和计算机对其存储的信息都具有极大的可读性n nFASTAFASTA

19、格式在许多分子生物学软件包中得到广泛应用。格式在许多分子生物学软件包中得到广泛应用。NCBIGenBank数据库数据库格式(2)n nGenBankGenBank纯文本文件格式纯文本文件格式纯文本文件格式纯文本文件格式(GenBank flatfile, GBFF): (GenBank flatfile, GBFF): n nGenBankGenBank、EMBLEMBL、DDBJDDBJ每天都相互同步更新各自的数据每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?库,它们是怎样交换数据的呢?NCBIGBFF文件格式n nGBFFGBFF是是GenBankGenBank数据库的基本信息单

20、位,数据库的基本信息单位,n n是最为广泛使用的生物信息学序列格式之一。是最为广泛使用的生物信息学序列格式之一。NCBI头部中部尾部GGE EN NB BA AN NKK纯纯纯纯文文文文本本本本文文文文件件件件格格格格式式式式LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2pDEFINITION Saccharomyces cere

21、visiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. (AXL2) and Rev7p (REV7) genes, complete cds.ACCESSION U49845ACCESSION U49845VERSION U49845.1 GI:1293613VERSION U49845.1 GI:1293613KEYWORDS .KEYWORDS .SOURCE bakers yeast.SOURCE bakers yeast. ORGANISM Saccharom

22、yces cerevisiae ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. Saccharomycetaceae; Saccharomyces.REFERENCE 1 (bases 1 to 5028)REFERENCE 1 (bases 1

23、 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced m

24、utagenesis in Saccharomyces cerevisiae DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 MEDLINE 95176709REFERENCE 2 (bases 1 to 5028)REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K.,

25、Chang,J. and Snyder,M. AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7

26、), 777-793 (1996) JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 MEDLINE 96194260REFERENCE 3 (bases 1 to 5028)REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. AUTHORS Roemer,T. TITLE Direct Submission TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale Univ

27、ersity, New JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA Haven, CT, USAFEATURES Location/QualifiersFEATURES Location/Qualifiers source 1.5028 source 1.5028 /organism=Saccharomyces cerevisiae /organism=Saccharomyces cerevisiae /db_xref=taxon:4932 /db_xref

28、=taxon:4932 /chromosome=IX /chromosome=IX /map=9 /map=9 CDS 1.206 CDS 1.206 /codon_start=3 /codon_start=3 /product=TCP1-beta /product=TCP1-beta /protein_id=AAA98665.1 /protein_id=AAA98665.1 /db_xref=GI:1293614 /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA /translation

29、=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM AEVLLRVDNIIRARPRTANRQHM gene 687.3158 gene 687.3158 /gene=AXL2 /gene=AXL2 CDS 687.3158 CDS 687.3158 /gene=AXL2 /gene=AXL2 /note=plasma membrane glycoprotein /note=plasma membrane glycoprotein /codon_start=1 /codon_start=1 /functio

30、n=required for axial budding pattern of S.cerevisiae /function=required for axial budding pattern of S.cerevisiae /product=Axl2p /product=Axl2p /protein_id=AAA98666.1 /protein_id=AAA98666.1 /db_xref=GI:1293615 /db_xref=GI:1293615 /translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF /translation

31、=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF (有部分序列未列出)(有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEMLVDFSNKSNVNVGQVKDIHGRIPEMLBASE COUNT 1510 a 1074 c 835 g 1609 tBASE COUNT 1510 a 1074 c 835 g 1609 tORIGIN ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 1 gatcctccat atacaacggt atc

32、tccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct (有部分序列未列出)(有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct4921 ttttcagtgt tagattgctc taa

33、ttctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc/ / NCBIGBFF格式n n按域(按域(FieldField)可以划分为三个部分)可以划分为三个部分头部包含整个记录的信息(描述符);头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身。第三部分是核苷酸序列

34、本身。n n所有序列数据库记录都在最后一行以所有序列数据库记录都在最后一行以“ “/”/”结尾。结尾。NCBIGBFF格式头部Locus行n n所有的所有的GBFFGBFF都起始于都起始于LOCUSLOCUS行:行:-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFF格式头部Locus行1 1、LOCUSLOCUS行:行:行:行:n n第一项第一项第一项第一项是是LOCUSLOCUS名称名称:

35、:最初这一名称是用来表示本记录描述的基因最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:座,以方便检索相似序列: 前三个字母代表特定物种的名称前三个字母代表特定物种的名称 第四、第五个字母代表如基因产物等特定的类别名称。第四、第五个字母代表如基因产物等特定的类别名称。 如如HUMHBBHUMHBB。NCBIGBFF格式头部Locus行n nLOCUSLOCUS这种这种“ “十字符十字符” ”命名方式已经无法满足基因在基因座中所包命名方式已经无法满足基因在基因座中所包含的信息。含的信息。n nLOCUSLOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在名称目前唯一的作用

36、是它在数据库中是独一无二的,已不在具有任何实际意义。具有任何实际意义。n n仅使用检索号码仅使用检索号码(acessionnumber)(acessionnumber)以满足对以满足对LOCUSLOCUS名称的要求名称的要求11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFF格式头部Locus行n n第二项第二项第二项第二项是序列长度。是序列长度。n nGenBankGenBank对提交的序列长度没有上限要求。对提交的序列长度没有上限要

37、求。n n根据国际序列数据库合作计划的协议,为方便不同的软件根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过处理序列,规定单条数据库记录的长度不能超过350kb350kb。n nGenBankGenBank已经很少接受长度低于已经很少接受长度低于50bp50bp的序列。的序列。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFF格式头部Locus行n n第三项表明序列的分子类型:其序列必须是一

38、种单一的分第三项表明序列的分子类型:其序列必须是一种单一的分子类型。子类型。n n包括:基因组包括:基因组DNADNA、RNARNA、RNARNA前体、前体、mRNA(cDNA)mRNA(cDNA)、tRNAtRNA等。等。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFF格式头部Locus行n n第四项是第四项是GenBankGenBank分类码:由三个字母组成,分类码:由三个字母组成,n n分类码将分类码将GenBankGenBa

39、nk数据库分为数据库分为1717个分支个分支11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGenBank分类码(GenBankDivision)类类中文名称中文名称符号符号类类符号符号primatesequencesprimatesequences灵灵长类动长类动物序列物序列PRIPRIrodentsequencesrodentsequences啮齿类动啮齿类动物序列物序列RODRODothermammaliansequencesothe

40、rmammaliansequences其它哺乳其它哺乳动动物序列物序列MAMMAMothervertebratesequencsothervertebratesequencs其它脊椎其它脊椎动动物序列物序列VRTVRTinvertebratesequencesinvertebratesequences无脊椎无脊椎动动物序物序INVINVPlants,fungal,andalgalPlants,fungal,andalgalsequencessequences植物、真菌和藻植物、真菌和藻类类序列序列PLNPLNbacterialsequencesbacterialsequences细细菌序列菌序

41、列BCTBCTviralsequencesviralsequences病毒序列病毒序列VRLVRLbacteriophagesequencesbacteriophagesequences噬菌体序列噬菌体序列PHGPHGsyntheticsequencessyntheticsequences人工合成序列人工合成序列SYNSYNunanntotatedsequencesunanntotatedsequences未注未注释释序列序列UNAUNAESTsequencesESTsequences表达序列表达序列标签标签ESTESTpatentsequencespatentsequences专专利序列利序

42、列PATPATSTSsequencesSTSsequences序列序列标记标记位点位点STSSTSgenomesurveysequencesgenomesurveysequences基因基因组测组测定序列定序列GSSGSSHTGSsequencesHTGSsequences高通量基因高通量基因组组序列序列HTGHTGunfinishedhigh-throughputunfinishedhigh-throughputcDNAsequencingcDNAsequencing未完成未完成测测序的高通量序的高通量cDNAcDNA序列序列HTCHTCNCBIGBFF格式头部Locus行n n第五项是最后

43、修订日期。第五项是最后修订日期。n n某些时候,它也是数据第一次被公开的日期。某些时候,它也是数据第一次被公开的日期。n n这项简单的信息并无法对此做出判断。这项简单的信息并无法对此做出判断。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999NCBIGBFF格式头部DEFINITION行2 2、DEFINITIONDEFINITION行:行:n n主要对主要对GenBankGenBank记录中所含的生物学意义做出总结。记录中所含的生物学意义做出总结。

44、n n它的说明内容包括来源物种、基因它的说明内容包括来源物种、基因/ /蛋白质名称;蛋白质名称;-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andDEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.Axl2p(AXL2)andRev7p(REV7)genes,completec

45、ds.NCBIGBFF格式头部DEFINITION行n n如果序列是非编码区,则包含对序列功能的简单描述;如如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列果序列是一段编码区,则标明该序列是部分序列(partial(partialcds)cds)还是全序列还是全序列(completecds)(completecds)。-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2

46、)andRev7pDEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.(REV7)genes,completecds.NCBIGBFF格式头部-ACCESSION行3 3、检索号(、检索号(ACCESSIONACCESSION): :是序列记录的唯一指针。是序列记录的唯一指针。n n检索号通常由一个字母加检索号通常由一个字母加5 5个数字(个数字(U12345U12345)或者由两个字)或者由两个字母加母加6 6个数字(个数字(AF1234

47、56AF123456)组成。)组成。-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060ACCESSIONU49845ACCESSIONU49845DearGenBankSubmitter:DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBank

48、accessionnumberforyournucleotidesequence:numberforyournucleotidesequence:bankit660463AY795899bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesWestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscusse

49、sthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-linethesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.servers.NCBIGBFF格式头部-ACCESSION行n n检索号在数据库中是唯一而且不变的,即使数据的提交者检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。改变数据的内容。n n在在 ACCESSI

50、ONACCESSION行中可能出现多个检索号,可能是因为数行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。的记录覆盖了原有的旧记录。n n第一个检索号为主检索号,而其余的统称为二级检索号。第一个检索号为主检索号,而其余的统称为二级检索号。NCBIGBFF格式头部VERSION行4 4、版本号行:它的格式是:检索号、版本号行:它的格式是:检索号. .版本号。版本号。n n版本号于版本号于9999年年2 2月由三大数据库采纳使用。主要用于识别数月由三大数据库采纳使用。主要用于识别数据库

51、中一条单一的特定核苷酸序列。据库中一条单一的特定核苷酸序列。n n在数据库中,如果某条序列数据发生了变化,即使是单碱在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变基的改变,它的版本号都将增加,而它的检索号保持不变n n如由如由U12345.1U12345.1变为变为U12345.2U12345.2。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079VERSIONU49845.1GI:1293613VERSIONU49845.1GI:1293613NCBIGBFF格式

52、头部VERSION行n n版本号系统与跟在其后的版本号系统与跟在其后的GIGI(GenInfoIdentifierGenInfoIdentifier)号系统是)号系统是平行运行平行运行n n当一条序列改变后,它将被赋予一个新的当一条序列改变后,它将被赋予一个新的GIGI号,同时它的号,同时它的版本号将增加。版本号将增加。n n当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的翻译发生任何变换,核酸序列都将被赋予一个新的GIGI号。号。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-11020

53、30405060707911020304050607079VERSIONU49845.1GI:1293613VERSIONU49845.1GI:1293613NCBIGBFF格式头部KEYWORDS行5 5、关键词行:是用来描述序列的。如果该行中没有任何内、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个容,那么就只包含一个“ “.” .”。n n由于没有对照词汇表,所以由于没有对照词汇表,所以NCBIGenBankNCBIGenBank拒绝接受关键词,拒绝接受关键词,它只存在于旧的记录中。它只存在于旧的记录中。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-11

54、02030405060707911020304050607079KEYWORDS.KEYWORDS.NCBIGBFF格式头部SOURCE行6 6、序列来源行:没有做特殊的规定,它通常包含序列来源、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。生物的简称,有些时候也包含分子类型。n nOrganismOrganism:以:以NCBINCBI的分类数据库为依据,指明物种的正式的分类数据库为依据,指明物种的正式科学名称。科学名称。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079SOUR

55、CEbakersyeast.SOURCEbakersyeast.ORGANISMSaccharomycescerevisiaeORGANISMSaccharomycescerevisiaeEukaryota(Eukaryota(真核真核);Fungi();Fungi(真菌真菌);Ascomycota();Ascomycota(子囊菌门子囊菌门);Hemiascomycetes();Hemiascomycetes(半子囊菌纲半子囊菌纲););Saccharomycetales;Saccharomycetaceae;Saccharomyces.Saccharomycetales;Saccharom

56、ycetaceae;Saccharomyces.NCBIGBFF格式头部REFERENCE行7 7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。的文献列于第一位。n n如果序列数据没有被文献报道,该行将显示如果序列数据没有被文献报道,该行将显示“ “inpress”inpress”或或“ “unpublished”unpublished”n n如所引用文献存在于如所引用文献存在于MEDLINEMEDLINE数据库中,将出现一个数据库中,将出现一个MEDLINEMEDLINE单一单一指针指针(unique

57、identifier,UID)(uniqueidentifier,UID)以便检索。以便检索。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079REFERENCE1(bases1to5028)REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,ag

58、enewhosefunctionisTITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)JOURNALYeast10(11),1503-1509(1994)MEDLINE95176709MEDLINE95176709NCBIGB

59、FF格式头部REFERENCE行n n如果序列是直接提交而未经发表的,就将在标题如果序列是直接提交而未经发表的,就将在标题(TITLE)(TITLE)中注明中注明“ “直接提交直接提交(DirectSubmission)”(DirectSubmission)”n n在期刊(在期刊(JOURNALJOURNAL)中注明提交日期,提交者姓名以及)中注明提交日期,提交者姓名以及提交者的工作单位。提交者的工作单位。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079REFERENCE1(bases1to1939)REFERENC

60、E1(bases1to1939)AUTHORSYi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.AUTHORSYi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.TITLECloningandexpressionstudiesofacDNAencodingUDP-TITLECloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalinaglucosedehydrogenasefromDunaliellasa

61、linaJOURNALUnpublishedJOURNALUnpublishedNCBIGBFF格式中部n n特性表特性表(FEATURES):(FEATURES):它描述基因和基因的产物,以及与序列它描述基因和基因的产物,以及与序列相关的生物学特性。相关的生物学特性。n n特性表提供一个参考词汇表以对合法的特性进行注释特性表提供一个参考词汇表以对合法的特性进行注释 这些特性包括该序列是否执行一个生物学功能;这些特性包括该序列是否执行一个生物学功能; 它是否与一个生物学功能的表达相关;它是否与一个生物学功能的表达相关; 它是否与其它分子相互作用;它是否与其它分子相互作用; 它是否影响一条序列的

62、复制;它是否影响一条序列的复制; 它是否与其它序列的重组相关;它是否与其它序列的重组相关; 它是否是一条已识别的重复序列;它是否是一条已识别的重复序列; 它是否有二级或三级结构;它是否有二级或三级结构; 它是否存在变异或者它是否被修订过。它是否存在变异或者它是否被修订过。 NCBIGBFF格式中部n n特性表格式特性表格式特性表格式特性表格式:按表单的方式设计的,包含三个部分:按表单的方式设计的,包含三个部分:第一,特性关键词第一,特性关键词(Featurekey)(Featurekey);第二,特性位置第二,特性位置(Location)(Location);第三,限定词第三,限定词(Qual

63、ifiers)(Qualifiers)。FEATURESLocation/QualifiersFEATURESLocation/Qualifierssource1.5028source1.5028/organism=Saccharomycescerevisiae/organism=Saccharomycescerevisiae/mol_type=genomicDNA/mol_type=genomicDNA/db_xref=taxon:4932/db_xref=taxon:4932/chromosome=IX/chromosome=IX/map=9/map=9NCBIGBFF格式中部FEATUR

64、ESn n第一,特性关键词第一,特性关键词(Featurekey),(Featurekey),是一个简要说明功能组的是一个简要说明功能组的关键词,允许加入新的或未定义的特性;关键词,允许加入新的或未定义的特性;n n第二,特性位置第二,特性位置(Location)(Location),指明在特性表中的什么地方找,指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符到相关特性,在位置特性中可以包含操作符(Operator)(Operator)和功和功能性描述符能性描述符(Descriptor)(Descriptor)以指明序列需经过怎样的处理才能以指明序列需经过怎样的处理才能得到相应

65、的特性;得到相应的特性;n n第三,限定词第三,限定词(Qualifiers),(Qualifiers),相关特性的辅助信息,限定词使相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。用一组标准化的对照词汇表以利于计算机从中提取信息。NCBIGBFF格式中部FEATURES例例1 1KeyLocation/QualifiersKeyLocation/QualifiersCDS23.400CDS23.400/product=alcoholdehydrogenase/product=alcoholdehydrogenase/gene=adhI/gene=adhIn n特

66、性表含义:特性表含义:该编码序列(该编码序列(CDSCDS)起始于第)起始于第2323碱基,终止于第碱基,终止于第400400碱基碱基产物是乙醇脱氢酶产物是乙醇脱氢酶基因名称是基因名称是“ “adhI”adhI”。NCBIGBFF格式中部FEATURESn n例例2 2KeyLocation/QualifiersKeyLocation/QualifiersCDSjoin(544.589,688.1032)CDSjoin(544.589,688.1032)/product=T-cellreceptorbeta-chain/product=T-cellreceptorbeta-chainn n特性

67、表含义:特性表含义:它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,表达产物表达产物“ “T-T-细胞受体细胞受体betabeta链链” ”由序列内两个片段结合生成由序列内两个片段结合生成指明两个片段在序列中所处的位置。指明两个片段在序列中所处的位置。NCBIGBFF格式中部特性表关键词1 1、特性表的关键词:以树型结构生成、特性表的关键词:以树型结构生成misc_featuremisc_feature生物学特性无法用特性表关键词描述的序列生物学特性无法用特性表关键词描述的序列misc_differencemisc_difference序列特性无法用特性表关键词

68、描述的序列序列特性无法用特性表关键词描述的序列conflictconflict同一序列在不同的研究中在位点或区域上有差异同一序列在不同的研究中在位点或区域上有差异unsureunsure序列不能确定的区域序列不能确定的区域old_sequenceold_sequence该序列对以前的版本做过修订该序列对以前的版本做过修订variationvariation包含稳定突变的序列包含稳定突变的序列modified_basemodified_base修饰过的核苷酸修饰过的核苷酸genegene已识别为基因或已命名的序列区域已识别为基因或已命名的序列区域misc_signalmisc_signal无法用

69、信号特性关键词描述的信号序列无法用信号特性关键词描述的信号序列promoterpromoter转录起始区转录起始区CAAT_signalCAAT_signal真核启动子上游的真核启动子上游的CAATCAAT盒,与盒,与RNARNA结合相关结合相关TATA_signalTATA_signal真核启动子的真核启动子的TATATATA盒盒-35_signal-35_signal原核启动子中的原核启动子中的-35-35框框-10_signal-10_signal原核启动子原核启动子PribowPribow盒盒GC_signalGC_signal真核启动子的真核启动子的GCGC盒盒RBSRBS核糖体结合

70、位点核糖体结合位点polyA_signalRNApolyA_signalRNA转录本的剪切识别位点转录本的剪切识别位点enhancerenhancer增强子增强子attenuatorattenuator与转录终止有关的序列与转录终止有关的序列terminatorterminator转录终止序列转录终止序列rep_originrep_origin双链双链DNADNA复制起始区复制起始区NCBIGBFF格式中部特性表关键词misc_RNAmisc_RNA无法用无法用RNARNA关键词描述的转录物或关键词描述的转录物或RNARNA产物产物prim_transcriptprim_transcript初

71、始转录本初始转录本precursor_RNAprecursor_RNA前体前体RNARNAmRNAmRNA信使信使RNARNA5clip5clip前体转录本中被剪切掉的前体转录本中被剪切掉的55端序列端序列3clip3clip前体转录本中被剪切掉的前体转录本中被剪切掉的33端序列端序列5UTR55UTR5非翻译区非翻译区3UTR33UTR3非翻译区非翻译区exonexon外显子外显子CDSCDS蛋白质编码序列蛋白质编码序列sig_peptidesig_peptide编码信号肽的序列编码信号肽的序列transit_peptidetransit_peptide转运蛋白编码序列转运蛋白编码序列mat

72、_peptidemat_peptide编码成熟肽的序列编码成熟肽的序列intronintron内含子内含子polyA_siteRNApolyA_siteRNA转录本的多聚腺苷酸化位点转录本的多聚腺苷酸化位点rRNArRNA核糖体核糖体RNARNAtRNAtRNA转运转运RNARNAscRNAscRNA小细胞质小细胞质RNARNAsnRNAsnRNA小核小核RNARNAsnoRNAsnoRNA加工和修饰加工和修饰rRNArRNA的小核的小核RNARNANCBIGBFF格式中部特性表关键词immunoglobulin_relatedimmunoglobulin_relatedC_regionC_r

73、egion免疫相关蛋白上的稳定区免疫相关蛋白上的稳定区D_segmentD_segment码免疫球蛋白重链的可变区基因之一码免疫球蛋白重链的可变区基因之一J_segmentJ_segment编码免疫球蛋白轻链和重链的可变区基因之一编码免疫球蛋白轻链和重链的可变区基因之一N_regionN_region插入重排免疫球蛋白片段间的核苷酸插入重排免疫球蛋白片段间的核苷酸S_regionS_region免疫球蛋白重链的开关区免疫球蛋白重链的开关区V_regionV_region免疫球蛋白轻链和重链的可变区,和免疫球蛋白轻链和重链的可变区,和T T细胞受体细胞受体 , 和和 链;编码可变链;编码可变的氨

74、基末端部分;可由的氨基末端部分;可由V_segment,D_segment,N_regionV_segment,D_segment,N_region和和J_segmentJ_segment组成组成 V_segmentV_segment免疫球蛋白轻链和重链的可变区段,和免疫球蛋白轻链和重链的可变区段,和TT细胞受体细胞受体 , 和和 链;编码大链;编码大多数可变区(多数可变区(v_regionv_region) 和前导肽的最后几个氨基酸和前导肽的最后几个氨基酸repeat_regionrepeat_region基因组中所包含的重复序列基因组中所包含的重复序列NCBIGBFF格式中部特性表关键词r

75、epeat_unitrepeat_unit单个的重复元件单个的重复元件LTRLTR长末端重复序列长末端重复序列SatelliteSatellite卫星重复序列卫星重复序列misc_bindingmisc_binding无法描述的核酸序列结合位点无法描述的核酸序列结合位点primer_bindprimer_bind复制、转录的引物结合位点复制、转录的引物结合位点protein_bindprotein_bind蛋白质结合区蛋白质结合区STSSTS测序标签位点测序标签位点misc_recombmisc_recomb无法用重组特性关键词描述的重组事件无法用重组特性关键词描述的重组事件iDNAiDNA通

76、过重组所消除的通过重组所消除的DNADNAmisc_structuremisc_structure无法用结构关键词描述的核酸序列高级结构或构型无法用结构关键词描述的核酸序列高级结构或构型stem_loopstem_loop发夹结构发夹结构D-loopD-loop线粒体中线粒体中DNADNA中的取代环中的取代环 NCBIGBFF格式中部Location2 2、特性位置(、特性位置(LocationLocation):用来描述在序列中的什么区域能):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含够找到相关的特性,位置特性可以包含ComplementComplement、JoinJo

77、in、OrderOrder等三个操作符(等三个操作符(OperatorOperator)。)。467467指明序列中的单个碱基指明序列中的单个碱基340.565340.565指明包括起始和中止碱基在内的一段连续序列指明包括起始和中止碱基在内的一段连续序列345.500345.500指明序列起始于起始碱基号之前的某个位置,但起指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知始碱基号之前的特性边界未知NCBIGBFF格式中部Location1.888gi|995614|dbj|D49653|RATOBESERatmRNAforobese.gi|995614|dbj|D4965

78、3|RATOBESERatmRNAforobese. CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTA

79、TCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGAAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGC

80、TGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCCCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAG

81、CCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTCCTGAATGCTGAGGTTTC以上这个以上这个FASTAFASTA文件中包含了文件中包含了gigi号码、号码、GenBankGenBank检索号码、检索号码、LOCUSLOCUS名称、以及名称、以及GenBankGenB

82、ank记录中的记录中的DEFINATIONDEFINATION字段。字段。一种最简单的一种最简单的fastafasta序列形式可以表示为:序列形式可以表示为:D49653D49653 CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACAC

83、CAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.AGTCGGTATCCG.NCBI序列文件格式例子(GenBank)n nLOCUSRATOBESE539bpss-mRNAROD23-SEP-1995LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995n nDEFINITIONRatmRNAforobese.DEF

84、INITIONRatmRNAforobese.n nACCESSIOND49653ACCESSIOND49653n nKEYWORDS.KEYWORDS.n nSOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedSOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedn nadiposecDNAtomRNA.adiposecDNAtomRNA.n nORGANISMRattusnorvegicusORGANISMRattusnorvegicusn

85、nEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Eukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;n nVertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;n nSciurognathi;Myomorpha;Muridae;Murinae;Rattus.Sciurognathi;Myomorpha;Muridae;Murinae;

86、Rattus.n nREFERENCE1(bases1to539)REFERENCE1(bases1to539)n nAUTHORSMurakami,T.andShima,K.AUTHORSMurakami,T.andShima,K.n nTITLECloningofratobesecDNAanditsexpressioninobeseratsTITLECloningofratobesecDNAanditsexpressioninobeseratsn nJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)JOURNALBiochem.Bioph

87、ys.Res.Commun.209,944-952(1995)n nSTANDARDfullautomaticSTANDARDfullautomaticn nCOMMENTSubmitted(10-Mar-1995)toDDBJby:COMMENTSubmitted(10-Mar-1995)toDDBJby:n nTakashiMurakamiTakashiMurakamin nDepartmentofLaboratoryMedicineDepartmentofLaboratoryMedicinen nSchoolofMedicineSchoolofMedicinen nUniversityo

88、fTokushimaUniversityofTokushiman nKuramotocho3-chomeKuramotocho3-chomen nTokushima770Tokushima770n nJapanJapann nPhone:+81-886-33-7184Phone:+81-886-33-7184n nFax:+81-886-31-9495.Fax:+81-886-31-9495.NCBI 序列文件格式例子(GenBank)n nNCBI gi: 995614NCBI gi: 995614n nFEATURES Location/QualifiersFEATURES Locatio

89、n/Qualifiersn n source 1.539 source 1.539n n /organism=Rattus norvegicus /organism=Rattus norvegicusn n /strain=OLETF, LETO and Zucker /strain=OLETF, LETO and Zuckern n /dev_stage=differentiated /dev_stage=differentiatedn n /sequenced_mol=cDNA to mRNA /sequenced_mol=cDNA to mRNAn n /tissue_type=adip

90、ose /tissue_type=adiposen n CDS 30.533 CDS 30.533n n /partial /partialn n /note=NCBI gi: 995615 /note=NCBI gi: 995615n n /codon_start=1 /codon_start=1n n /product=obese /product=obesen n /translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND /translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRI

91、NDn n ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLEn n NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQn n LDLSPEC LDLSPECn nBASE COUNT 121 a 167 c 133 g 118 t

92、BASE COUNT 121 a 167 c 133 g 118 tn nORIGINORIGINn n 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgtn n 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 61 ggctttggtc ctatctgtcc tatgttcaag ctg

93、tgcctat ccacaaagtc caggatgacan n 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcggn n 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggct

94、tcac cccattctgan n 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgccttn n 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctg

95、cn n 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagccn n 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgcn n 481 agggc

96、tctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttcn n/NCBI序列文件格式例子(GCG)n nLOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95LOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95n nDEFINITIONRatmRNAforobese.DEFINITIONRatmRNAforobese.n nACCESSIO

97、N-ACCESSION-n nKEYWORDS-KEYWORDS-n nSOURCERattusnorvegicus;NorwayratSOURCERattusnorvegicus;Norwayratn nORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;ORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;n nSarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognath

98、i;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;n nMyomorpha;Muridae;Murinae;RattusMyomorpha;Muridae;Murinae;Rattusn nREFERENCE1REFERENCE1n nAUTHORSMurakami,T.&Shima,K.AUTHORSMurakami,T.&Shima,K.n nTITLECloningofratobesecDNAanditsexpressioninobeserats.TITLECloningofratobesecDNAanditsexpressi

99、oninobeserats.n nJOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)JOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)n nCOMMENTDatabaseReference:COMMENTDatabaseReference:n nDDBJRATOBESEDDBJRATOBESEn nAccession:D49653Accession:D49653n n-n nSubmitted(10-Mar-1995)toDDBJby:Submitted(10-Mar-199

100、5)toDDBJby:n nTakashiMurakamiTakashiMurakamin nDepartmentofLaboratoryMedicineDepartmentofLaboratoryMedicinen nSchoolofMedicineSchoolofMedicinen nUniversityofTokushimaUniversityofTokushiman nKuramotocho3-chomeKuramotocho3-chomen nTokushima770Tokushima770n nJapanJapann nPhone:+81-886-33-7184Phone:+81-

101、886-33-7184n nFax:+81-886-31-9495Fax:+81-886-31-9495NCBI序列文件格式例子(GCG)n nFEATURES From To/Span DescriptionFEATURES From To/Span Descriptionn n pept 30 533 obese pept 30 533 obesen n ? 1 539 source; /organism=Rattus norvegicus; ? 1 539 source; /organism=Rattus norvegicus;n n /strain=OLETF, LETO and Zu

102、cker; /strain=OLETF, LETO and Zucker;n n /dev_stage=differentiated; /sequenced_mol=cDNA /dev_stage=differentiated; /sequenced_mol=cDNAn n to mRNA; /tissue_type=adipose to mRNA; /tissue_type=adiposen nBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERn nORIGIN ?ORIGI

103、N ?n n RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 . RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 .n n 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGTn n 61 GGCTTTGGTC CTATCTGTCC TATG

104、TTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACAn n 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGGn n 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATT

105、CC CGGGCTTCAC CCCATTCTGA 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGAn n 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTTn n 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC

106、CTCCATCTGC 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGCn n 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCCn n 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC 421

107、 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGCn n 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTCn n/NCBI序列文件格式例子(ASN.1)ASN.1是NCBI用来存储和维护所有数据的格式Seq-entry:=setlevel1,classnuc-prot,descrpubpub

108、subauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrSeq-entry:=setlevel1,classnuc-prot,descrpubpubsubauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrTakashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,TokushimaTakashiMurakam

109、i,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,Tokushima770,Japan(E-mail:-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495),mediumemail,datestdyear1995,month3,day10,pubpub770,Japan(E-mail:-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495),mediumema

110、il,datestdyear1995,month3,day10,pubpubmuid95251725,articletitlenameCloningofratobesecDNAanditsexpressioninobeserats.,authorsnamesstdnamenamelastmuid95251725,articletitlenameCloningofratobesecDNAanditsexpressioninobeserats.,authorsnamesstdnamenamelastMurakami,initialsT.,namenamelastShima,initialsK.,a

111、ffilstrDepartmentofLaboratoryMedicine,SchoolofMedicine,Murakami,initialsT.,namenamelastShima,initialsK.,affilstrDepartmentofLaboratoryMedicine,SchoolofMedicine,UniversityofTokushima,Japan.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaBiochemBiophysResCommun,issnUniversityofTokushima,Japa

112、n.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaBiochemBiophysResCommun,issn0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyear1995,month4,day26,volume209,issue0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyear1995,month4,day26,volume2

113、09,issue3,pages944-952,languageeng,idspubmed7733988,medline95251725,pmid7733988,update-datestdyear2000,month2,3,pages944-952,languageeng,idspubmed7733988,medline95251725,pmid7733988,update-datestdyear2000,month2,day1,sourceorgtaxnameRattusnorvegicus,commonNorwayrat,dbdbtaxon,tagid10116,orgnamenamebi

114、nomialgenusday1,sourceorgtaxnameRattusnorvegicus,commonNorwayrat,dbdbtaxon,tagid10116,orgnamenamebinomialgenusRattus,speciesnorvegicus,modsubtypestrain,subnameOLETF,LETOandZucker,lineageEukaryota;Metazoa;Chordata;Craniata;Rattus,speciesnorvegicus,modsubtypestrain,subnameOLETF,LETOandZucker,lineageEu

115、karyota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,mgcode2,divROD,subtypeVertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,mgcode2,divROD,subtypesubtypetissue-type,nameadipose,sub

116、typedev-stage,namedifferentiated,seq-setseqidddbjnameRATOBESE,accessionsubtypetissue-type,nameadipose,subtypedev-stage,namedifferentiated,seq-setseqidddbjnameRATOBESE,accessionD49653,version1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbanksourceRattusnorvegicus(strain:OLETF,D49653,ve

117、rsion1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbanksourceRattusnorvegicus(strain:OLETF,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobese(ob),leptin,obesity,obproduct,secretoryprotein,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobese(ob),leptin,obesity,obprodu

118、ct,secretoryprotein,molinfobiomolmRNA,create-datestdyear1995,month9,day22,instreprraw,molrna,length539,seq-datancbi2namolinfobiomolmRNA,create-datestdyear1995,month9,day22,instreprraw,molrna,length539,seq-datancbi2na5A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A385A00EE7A2157B96BD7BA7FAD737B5CEF427B

119、9735102D4A384500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DCD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9BD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D

120、5E59215BA5E48252225E8E9B5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationint5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationintfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995

121、615,descrtitleleptin(obproduct)Rattusfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995615,descrtitleleptin(obproduct)Rattusnorvegicus,molinfobiomolpeptide,create-datestdyear1995,month9,day22,instreprraw,molaa,length167,seq-datancbieaanorvegicus,molinfobiomolpeptide,create-datestdyear1

122、995,month9,day22,instreprraw,molaa,length167,seq-datancbieaaMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEALDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLEN

123、LRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC,annotdataftabledataprotnameleptin(obproduct),locationwholegi995615,SLYSTEVVALSRLQGSLQDILQQLDLSPEC,annotdataftabledataprotnameleptin(obproduct),locationwholegi995615,dataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfro

124、m0,to20,idgi995615,dataprotnamesecreteddataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfrom0,to20,idgi995615,dataprotnamesecretedprotein,leptin,processedmature,locationintfrom21,to166,idgi995615,annotdataftabledatacdregionframeone,protein,leptin,processedmature,locationintfrom21,t

125、o166,idgi995615,annotdataftabledatacdregionframeone,codeid1,productwholegi995615,locationintfrom29,to532,idgi995614codeid1,productwholegi995615,locationintfrom29,to532,idgi995614NCBI基因组数据库的注释基因组数据库的注释NCBI基因组注释工具n n迄今还没有一种普遍使用的基因组序列注释工具。迄今还没有一种普遍使用的基因组序列注释工具。n n基因组注释咨询小组:在美国成立基因组注释咨询小组:在美国成立, ,其成员来自其

126、成员来自OakRidgeOakRidge、LawrenceBerkeleyLawrenceBerkeley、ArgonneArgonne三个国家实验室以及其他基三个国家实验室以及其他基因组测序实验室因组测序实验室n n目的:开发研制基因组注释工具。目的:开发研制基因组注释工具。n n提出了开发名为提出了开发名为“ “GenomeChannel”GenomeChannel”的基因组注释工具的设的基因组注释工具的设想,该软件的模型可从想,该软件的模型可从OakRidgeOakRidge国家实验室的国家实验室的WebWeb节点节点(http:/compbio.ornl.gov/tools/chann

127、el/)(http:/compbio.ornl.gov/tools/channel/)获取。获取。 NCBI基因组注释工具GenomeChannelGenomeChannel为所为所有测序完成和尚未完有测序完成和尚未完成的基因组提供了一成的基因组提供了一个染色体图形界面个染色体图形界面( (核核型浏览型浏览) ),从各测序实验室发送从各测序实验室发送的单个结合点用彩色的单个结合点用彩色编码区带在染色体的编码区带在染色体的适当位置上显示出来适当位置上显示出来每个结合点直每个结合点直接与含有丰富接与含有丰富信息的图谱信息的图谱(information-(information-richmap)ri

128、chmap)相连,相连,信息图谱包括信息图谱包括各种特征信息,各种特征信息,如如ORFsORFs、转录、转录因子、预测基因子、预测基因的因的BLASTBLAST结结果、建立结合果、建立结合点的凝胶标记点的凝胶标记和基因克隆及和基因克隆及DNADNA确认序列确认序列NCBI基因组注释工具n n前景:一旦前景:一旦GenomeChannelGenomeChannel投入使用,科研人员投入使用,科研人员 将可以将可以为现有的基因组序列增加新的生物学特征注释或修改以前为现有的基因组序列增加新的生物学特征注释或修改以前的注释。的注释。n n该注释工具是用该注释工具是用JavaJava语言开发的,并不适合

129、于所有的语言开发的,并不适合于所有的WebWeb浏览器浏览器 。 NCBI微生物基因组序列合作注释工具n nWITWIT软件是从生物化学软件是从生物化学/ /代谢通道透视图的角度来注释微生代谢通道透视图的角度来注释微生物基因组物基因组n n基本原理是所有生物体共享同一的代谢通道即同源基因编基本原理是所有生物体共享同一的代谢通道即同源基因编码出来的蛋白质具有同一功能码出来的蛋白质具有同一功能n n生物体全基因组序列的所有基因的功能注释过程可以被认生物体全基因组序列的所有基因的功能注释过程可以被认为是生物体的为是生物体的“ “代谢重建代谢重建” ”n n代谢重建代谢重建(metabolicreco

130、nstructoion)(metabolicreconstructoion)的目的在于确定生物体的目的在于确定生物体的代谢通道以及确定哪个基因具有这种功能。的代谢通道以及确定哪个基因具有这种功能。 NCBIWhatIsThere(WIT)“WhatIsThere”(WIT),由Argonne国家实验室的RossOverbeek和密西根州大学的NielsLarsen合作研制,Web节点http:/wit.mcs.anl.gov/WIT2/TIGR已经使用WIT注释各种基因组数据。WITWeb节点http:/www.cme.msu.edu/WIT/HTML/curate.htmlNCBIhttp:

131、/www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord序列提交NCBI在线提交序列(BankIt)n nBankItBankIt是是NCBINCBI提供的在线提交序列的工具提供的在线提交序列的工具n n由一系列表单,包括联络信息、发布要求、引用参考信息、由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。序列来源信息、以及序列本身的信息等。n n用户提交序列后,会从电子邮件收到自动生成的数据

132、条目,用户提交序列后,会从电子邮件收到自动生成的数据条目,GenbankGenbank的新序列编号,以及完成注释后的完整的数据记的新序列编号,以及完成注释后的完整的数据记录。录。NCBI在线提交序列(BankIt) 用户还可以在用户还可以在BankItBankIt页面下修改已经发布序列的信息。页面下修改已经发布序列的信息。n nBankItBankIt适合于独立测序工作者提交少量序列,而不适合适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,大量序列的提交,也不适合提交很长的序列,ESTEST序列序列和和GSSGSS序列也不应用序列也不应用BankItBankI

133、t提交。提交。NCBI在线提交序列步骤1. 1.登陆登陆BankItBankIt页面页面 http:/www.ncbi.nlm.nih.gov/BankIthttp:/www.ncbi.nlm.nih.gov/BankIt2. 2.填写表单内容。填写表单内容。3. 3.确认表单内容。确认表单内容。4. 4.等待电子邮件返回信息。等待电子邮件返回信息。NCBI填写表单信息(1)填写表单的内容包括四个方面一些注意事项和介绍NCBI填写表单信息(2)基本信息:提交的序列数目,联系人的信息,公开序列发布日期等。NCBI填写表单信息(3)参考信息:序列作者,相关文献等信息NCBI填写表单信息(4)来源信

134、息:序列来源,物种等描述NCBI填写表单信息(5)序列信息:序列类型,序列等NCBI填写表单信息(6)附加信息:评论,致谢等(可以不填写)填完后点击进入确认界面NCBI确认表单信息确认无误后提交到genbank如果发现有不对,返回表单页面修改。NCBI提交的序列NCBI序列提交工具(sequin)n n大量的序列提交可以由大量的序列提交可以由SequinSequin程序完成。程序完成。n nSequinSequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证查函数来提高序列的质量保证n n用于提交来自系统进化

135、、种群和突变研究的序列,可以加入比对的用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。数据。n nSequinSequin除了用于编辑和修改序列数据记录,还可用于序列的分析,除了用于编辑和修改序列数据记录,还可用于序列的分析,任何以任何以FASTAFASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以格式序列为输入数据的序列分析程序都可以整合到整合到SequinSequin程序下。程序下。n n不同操作系统下运行的不同操作系统下运行的SequinSequin程序:程序:ftp:/ncbi.nlm.nih.gov/sequin/ftp:/ncbi.nlm.nih.gov/sequin/n nSequinSequin的使用说明:的使用说明:http:/www.ncbi.nih.gov/Sequin/index.htmlhttp:/www.ncbi.nih.gov/Sequin/index.htmlNCBI谢谢!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号