《GeneBank数据库使用》由会员分享,可在线阅读,更多相关《GeneBank数据库使用(123页珍藏版)》请在金锄头文库上搜索。
1、NCBIGenBank数据库结构n n作用:了解序列数据库的格式,有助于更好地提高数据库作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。检索的效率和准确性。n nDDBJDDBJ数据库的内容和格式与数据库的内容和格式与GenBankGenBank相同,此处不作详细相同,此处不作详细介绍。介绍。n n分别介绍分别介绍EMBLEMBL和和GenBankGenBank的数据库结构的数据库结构GeneBank数据库使用NCBIGenBank数据库数据注释数据库数据注释()n nGenBankGenBank库包含所有已知的核酸序列和蛋白质序列库包含所有已知的核酸序列和蛋白质序列,
2、,以及与以及与它们相关的文献著作和生物学注释。它们相关的文献著作和生物学注释。n nNCBINCBI可提供广泛的数据查询、序列相似性搜索以及其它分可提供广泛的数据查询、序列相似性搜索以及其它分析服务。析服务。n n数据库数据库序列文件:注释内容序列文件:注释内容文章文章索引文件:检索目录索引文件:检索目录文摘文摘GeneBank数据库使用NCBIGenBank数据库结构数据库结构n n完整的完整的 GenBankGenBank数据库包括序列文件,索引文件以及其它数据库包括序列文件,索引文件以及其它有关文件。有关文件。n n索引文件是根据数据库中作者、参考文献等建立的,用于索引文件是根据数据库中
3、作者、参考文献等建立的,用于数据库查询。数据库查询。n nGenPeptGenPept是由是由GenBankGenBank中的核酸序列翻译而得到的蛋白质序中的核酸序列翻译而得到的蛋白质序列数据库列数据库n n数据格式为数据格式为FastAFastA。 GeneBank数据库使用NCBIGenBank数据库结构n nGenBankGenBank中最常用的是序列文件。中最常用的是序列文件。n n序列文件的基本单位:是序列条目,包括核苷酸碱基排列序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。顺序和注释两部分。n n生物信息资源中心通过计算机网络提供该数据库文件。生物信息资源中心
4、通过计算机网络提供该数据库文件。n n注释条目:文章的格式注释条目:文章的格式(GeneBank数据库使用NCBIGenbankGeneBank数据库使用NCBIGenbank查找页面GeneBank数据库使用NCBID31716描述部分GeneBank数据库使用NCBICDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanbedeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildin
5、gblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs编码序列,含终止密码子polyA_signal多聚A信号GeneBank数据库使用NCBID31716特性表序列本身关键字CDsarerecurringunitsinpolypeptidechainsGeneBank数据库使用NCBID31716序列本身GeneBank数据库使用NCBIGeneBank数据库使用NCBI序列结束4859bpGeneBank数据库使用NCBID31716Gene
6、Bank数据库使用NCBIGenBank数据记录GeneBank数据库使用NCBIGenBank数据记录GeneBank数据库使用NCBIGenBank数据库结构n nGenBankGenBank序列文件由单个的序列条目组成。序列文件由单个的序列条目组成。n n序列条目由字段组成,每个字段由关键字起始,后面为该序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段的具体说明。n n字段分若干次子字段,以次关键字或特性表说明符开始。字段分若干次子字段,以次关键字或特性表说明符开始。n n每个序列条目以双斜杠每个序列条目以双斜杠“ “/”/”作结束标记作结束标记GeneBank数据
7、库使用NCBIGenBank数据库结构n n序列条目的格式非常重要,关键字从第一列开始,次关键序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。字从第三列开始,特性表说明符从第五列开始。n n每个字段可占一行,也可以占若干行。每个字段可占一行,也可以占若干行。n n若一行中写不下时,继续行以空格开始若一行中写不下时,继续行以空格开始 GeneBank数据库使用NCBIGenBank数据库n n物种:物种:GenBankGenBank库里的数据按来源于大约库里的数据按来源于大约100,000100,000个物种,个物种,其中其中56%56%是人类的基因组
8、序列是人类的基因组序列( (所有序列中的所有序列中的34%34%是人类的是人类的ESTEST序列序列) )n n记录:每条记录:每条GenBankGenBank数据记录包含对序列的简要描述,它数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及的科学命名,物种分类名称,参考文献,序列特征表,及序列本身序列本身GeneBank数据库使用NCBIGenBank数据库n n序列特征表:包含对序列生物学特征注释如:编码区、转序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等录单元、重复区域、突变位点或修饰位点等n n分类:所有数据记录
9、被划分为如细菌类、病毒类、灵长类、分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及啮齿类,以及ESTEST数据、基因组测序数据、大规模基因组数据、基因组测序数据、大规模基因组序列数据等序列数据等1616类,其中类,其中ESTEST数据等又被分成若干文件数据等又被分成若干文件GeneBank数据库使用NCBI注释内容n n序列条目关键字:序列条目关键字: LOCUS(LOCUS(代码代码),), DEFINITION(DEFINITION(说明说明) ), ACCESSION(ACCESSION(编号编号) ), NIDNID符符( (核酸标识核酸标识),), KEYWORDS(
10、KEYWORDS(关键词关键词) ), SOURCE(SOURCE(数据来源数据来源) ), REFERENCE(REFERENCE(文献文献) ), FEATURES(FEATURES(特性表特性表) ), BASECOUNT(BASECOUNT(碱基组成碱基组成) ) ORIGIN(ORIGIN(碱基排列顺序碱基排列顺序) )。n n新版的核酸序列数据库将引入新的关键词新版的核酸序列数据库将引入新的关键词SV(SV(序列版本号序列版本号) ),用,用“ “编编号号. .版本号版本号” ”表示,并取代关键词表示,并取代关键词NIDNIDGeneBank数据库使用NCBILOCUSn nLOC
11、US(LOCUS(代码代码) ):是该序列条目的标记,或者说标识符,:是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:如蕴涵这个序列的功能:如HUMCYCLOXHUMCYCLOX表示人的环氧化酶。表示人的环氧化酶。序列长度序列长度类型类型种属来源种属来源录入日期等录入日期等n n说明字段是有关这一序列的简单描述说明字段是有关这一序列的简单描述GeneBank数据库使用NCBIACCESSIONn nACCESSION(ACCESSION(编号编号) ):具有唯一性和永久性,在文献中引:具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。用这个序列时,应该以此编号为准。GeneB
12、ank数据库使用NCBIKEYWORDSn nKEYWORDS(KEYWORDS(关键词关键词) )字段:由该序列的提交者提供,包字段:由该序列的提交者提供,包括括该序列的基因产物该序列的基因产物其它相关信息其它相关信息GeneBank数据库使用NCBISOURCEn nSOURCE(SOURCE(数据来源数据来源) )字段:说明该序列是从什么生物体、字段:说明该序列是从什么生物体、什么组织得到的什么组织得到的n n次关键字次关键字ORGANISM(ORGANISM(种属种属) ):指出该生物体的分类学地位:指出该生物体的分类学地位GeneBank数据库使用NCBIREFERENCEn nRE
13、FERENCE(REFERENCE(文献文献) )字段:说明该序列中的相关文献,包括字段:说明该序列中的相关文献,包括AUTHORS(AUTHORS(作者作者),),TITLE(TITLE(题目题目) )及及JOURNAL(JOURNAL(杂志名杂志名) )等等, ,以次关键词列出。以次关键词列出。n nMEDLINEMEDLINE的代码:该代码实际上是个超文本链接,点击它的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。可以直接调用上述文献摘要。n n一个序列可有多篇文献一个序列可有多篇文献, ,以不同序号表示,并给出该序列中以不同序号表示,并给出该序列中哪一部分与文献有关
14、。哪一部分与文献有关。GeneBank数据库使用NCBIFEATURESn nFEATURES(FEATURES(特性表特性表) ):具有特定的格式,用来详细描述序:具有特定的格式,用来详细描述序列特性。列特性。n n特性表中带有特性表中带有 /db-xref/db-xref/标志的字符可以连接到其它数据标志的字符可以连接到其它数据库,如分类数据库库,如分类数据库(taxon9606),(taxon9606),以及蛋白质序列数据库以及蛋白质序列数据库(PID(PID:g181254)g181254)。n n序列中各部分的位置都在表中标明,序列中各部分的位置都在表中标明,55非编码区,编码区,非
15、编码区,编码区,33非编码区,多聚腺苷酸重复区域等。非编码区,多聚腺苷酸重复区域等。n n翻译所得信号肽以及最终蛋白质产物翻译所得信号肽以及最终蛋白质产物n n碱基含量字段,给出序列中的碱组成碱基含量字段,给出序列中的碱组成GeneBank数据库使用NCBIORIGINn nORIGINORIGIN行是序列的引导行行是序列的引导行n n下面便是碱基序列下面便是碱基序列n n以双斜杠行以双斜杠行“ “/”/”结束。结束。 GeneBank数据库使用NCBIGenBank数据库数据库格式n nFASTAFASTA格式格式格式格式 gi|1293613|gb|U49845.1|SCU49845 Sa
16、ccharomyces cerevisiae TCP1-beta gene, partial cds; and gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsAxl2p (AXL2) and Rev7p (REV7) genes, complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACC
17、ATTGCCGACATGAGGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATAGTTCTAC
18、TAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAAATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTTATCCACTATATAATTCAAAGACGC
19、GAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATATCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCTATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCA
20、AAGCTCCTTGCCGAGAGTCGCCCT(该序列没有完全列出)(该序列没有完全列出) GeneBank数据库使用NCBIGenBank数据库数据库数据库格式数据库格式(1)n nFASTAFASTA格式:将一个格式:将一个DNADNA或者蛋白质序列表示为一个带有一些标记或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。的核苷酸或氨基酸字符串。n n大于号(大于号( )表示一个新文件的开始)表示一个新文件的开始n n结束用(结束用(/ /)n nFASTAFASTA格式并没有什么特殊的要求。格式并没有什么特殊的要求。GeneBank数据库使用NCBIFASTA格式序列的提交Ge
21、neBank数据库使用NCBIGenBank数据库数据库格式(1)n nFASTAFASTA格式特点:格式特点:只存储了最少量的信息只存储了最少量的信息它将所存储的信息转化为简单的字符串它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性人和计算机对其存储的信息都具有极大的可读性n nFASTAFASTA格式在许多分子生物学软件包中得到广泛应用。格式在许多分子生物学软件包中得到广泛应用。GeneBank数据库使用NCBIGenBank数据库数据库格式(2)n nGenBankGenBank纯文本文件格式纯文本文件格式纯文本文件格式纯文本文件格式(GenBank flat
22、file, GBFF): (GenBank flatfile, GBFF): n nGenBankGenBank、EMBLEMBL、DDBJDDBJ每天都相互同步更新各自的数据每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?库,它们是怎样交换数据的呢?GeneBank数据库使用NCBIGBFF文件格式n nGBFFGBFF是是GenBankGenBank数据库的基本信息单位,数据库的基本信息单位,n n是最为广泛使用的生物信息学序列格式之一。是最为广泛使用的生物信息学序列格式之一。GeneBank数据库使用NCBI头部中部尾部GGE EN NB BA AN NKK纯纯纯纯文文文文本本本
23、本文文文文件件件件格格格格式式式式LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2pDEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. (AXL2
24、) and Rev7p (REV7) genes, complete cds.ACCESSION U49845ACCESSION U49845VERSION U49845.1 GI:1293613VERSION U49845.1 GI:1293613KEYWORDS .KEYWORDS .SOURCE bakers yeast.SOURCE bakers yeast. ORGANISM Saccharomyces cerevisiae ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes;
25、 Saccharomycetales; Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. Saccharomycetaceae; Saccharomyces.REFERENCE 1 (bases 1 to 5028)REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. AUTHORS Torpey,L.E., Gibb
26、s,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae DNA damage-induced mutagenesis in Saccharomyces cerevisia
27、e JOURNAL Yeast 10 (11), 1503-1509 (1994) JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 MEDLINE 95176709REFERENCE 2 (bases 1 to 5028)REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of a
28、xial growth sites in yeast requires Axl2p, a novel TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 MEDLINE 96194260REF
29、ERENCE 3 (bases 1 to 5028)REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. AUTHORS Roemer,T. TITLE Direct Submission TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, C
30、T, USA Haven, CT, USAFEATURES Location/QualifiersFEATURES Location/Qualifiers source 1.5028 source 1.5028 /organism=Saccharomyces cerevisiae /organism=Saccharomyces cerevisiae /db_xref=taxon:4932 /db_xref=taxon:4932 /chromosome=IX /chromosome=IX /map=9 /map=9 CDS 1.206 CDS 1.206 /codon_start=3 /codo
31、n_start=3 /product=TCP1-beta /product=TCP1-beta /protein_id=AAA98665.1 /protein_id=AAA98665.1 /db_xref=GI:1293614 /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM AEVLLRVDNIIRARPRTANRQHM ge
32、ne 687.3158 gene 687.3158 /gene=AXL2 /gene=AXL2 CDS 687.3158 CDS 687.3158 /gene=AXL2 /gene=AXL2 /note=plasma membrane glycoprotein /note=plasma membrane glycoprotein /codon_start=1 /codon_start=1 /function=required for axial budding pattern of S.cerevisiae /function=required for axial budding patter
33、n of S.cerevisiae /product=Axl2p /product=Axl2p /protein_id=AAA98666.1 /protein_id=AAA98666.1 /db_xref=GI:1293615 /db_xref=GI:1293615 /translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF /translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF (有部分序列未列出)(有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEMLVDFS
34、NKSNVNVGQVKDIHGRIPEMLBASE COUNT 1510 a 1074 c 835 g 1609 tBASE COUNT 1510 a 1074 c 835 g 1609 tORIGIN ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgag
35、ca gtagtcagct 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct (有部分序列未列出)(有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttga
36、tc 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc/ / GeneBank数据库使用NCBIGBFF格式n n按域(按域(FieldField)可以划分为三个部分)可以划分为三个部分头部包含整个记录的信息(描述符);头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身。第三部分是核苷酸序列本身。n n所有序列数据库记录都在最后一行以所有序列数据库记录都在最后一行以“ “/”/”结尾。结尾。GeneBank数据库使用NCBIGBFF格式头部Locus行n
37、 n所有的所有的GBFFGBFF都起始于都起始于LOCUSLOCUS行:行:-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999GeneBank数据库使用NCBIGBFF格式头部格式头部Locus行行1 1、LOCUSLOCUS行:行:行:行:n n第一项第一项第一项第一项是是LOCUSLOCUS名称名称: :最初这一名称是用来表示本记录描述的基因最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:座
38、,以方便检索相似序列: 前三个字母代表特定物种的名称前三个字母代表特定物种的名称 第四、第五个字母代表如基因产物等特定的类别名称。第四、第五个字母代表如基因产物等特定的类别名称。 如如HUMHBB(HUMHBB(人人- -珠蛋白基因区域珠蛋白基因区域) )。GeneBank数据库使用NCBIGBFF格式头部Locus行n nLOCUSLOCUS这种这种“ “十字符十字符” ”命名方式已经无法满足基因在基因座中所包命名方式已经无法满足基因在基因座中所包含的信息。含的信息。n nLOCUSLOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在名称目前唯一的作用是它在数据库中是独一无二的,已
39、不在具有任何实际意义。具有任何实际意义。n n仅使用检索号码仅使用检索号码(acessionnumber)(acessionnumber)以满足对以满足对LOCUSLOCUS名称的要求名称的要求11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999GeneBank数据库使用NCBIGBFF格式头部Locus行n n第二项第二项第二项第二项是序列长度。是序列长度。n nGenBankGenBank对提交的序列长度没有上限要求。对提交的序列长度没有上限要求。
40、n n根据国际序列数据库合作计划的协议,为方便不同的软件根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过处理序列,规定单条数据库记录的长度不能超过350kb350kb。n nGenBankGenBank已经很少接受长度低于已经很少接受长度低于50bp50bp的序列。的序列。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999GeneBank数据库使用NCBIGBFF格式头部Locus行n n第三项表明序列的分
41、子类型:其序列必须是一种单一的分第三项表明序列的分子类型:其序列必须是一种单一的分子类型。子类型。n n包括:基因组包括:基因组DNADNA、RNARNA、RNARNA前体、前体、mRNA(cDNA)mRNA(cDNA)、tRNAtRNA等。等。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999GeneBank数据库使用NCBIGBFF格式头部Locus行n n第四项是第四项是GenBankGenBank分类码:由三个字母组成,分类码:由三个字母组成
42、,n n分类码将分类码将GenBankGenBank数据库分为数据库分为1717个分支个分支11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999GeneBank数据库使用NCBIGenBank分类码(GenBankDivision)类类中文名称中文名称符号符号类类符号符号primatesequencesprimatesequences灵长类动物序列灵长类动物序列PRIPRIrodentsequencesrodentsequences啮齿类动物序列啮齿类
43、动物序列RODRODothermammaliansequencesothermammaliansequences其它哺乳动物序列其它哺乳动物序列MAMMAMothervertebratesequencsothervertebratesequencs其它脊椎动物序列其它脊椎动物序列VRTVRTinvertebratesequencesinvertebratesequences无脊椎动物序无脊椎动物序INVINVPlants,fungal,andalgalPlants,fungal,andalgalsequencessequences植物、真菌和藻类序列植物、真菌和藻类序列PLNPLNbacter
44、ialsequencesbacterialsequences细菌序列细菌序列BCTBCTviralsequencesviralsequences病毒序列病毒序列VRLVRLbacteriophagesequencesbacteriophagesequences噬菌体序列噬菌体序列PHGPHGsyntheticsequencessyntheticsequences人工合成序列人工合成序列SYNSYNunanntotatedsequencesunanntotatedsequences未注释序列未注释序列UNAUNAESTsequencesESTsequences表达序列标签表达序列标签ESTEST
45、patentsequencespatentsequences专利序列专利序列PATPATSTSsequencesSTSsequences序列标记位点序列标记位点STSSTSgenomesurveysequencesgenomesurveysequences基因组测定序列基因组测定序列GSSGSSHTGSsequencesHTGSsequences高通量基因组序列高通量基因组序列HTGHTGunfinishedhigh-throughputunfinishedhigh-throughputcDNAsequencingcDNAsequencing未完成测序的高通量未完成测序的高通量cDNAcDNA
46、序列序列HTCHTCGeneBank数据库使用NCBIGBFF格式头部Locus行n n第五项是最后修订日期。第五项是最后修订日期。n n某些时候,它也是数据第一次被公开的日期。某些时候,它也是数据第一次被公开的日期。n n这项简单的信息并无法对此做出判断。这项简单的信息并无法对此做出判断。11020304050601102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999LOCUSSCU498455028bpDNAPLN21-JUN-1999GeneBank数据库使用NCBIGBFF格式头部DEFINITION行2 2、DEFINITIONDEFINI
47、TION行:行:n n主要对主要对GenBankGenBank记录中所含的生物学意义做出总结。记录中所含的生物学意义做出总结。n n它的说明内容包括来源物种、基因它的说明内容包括来源物种、基因/ /蛋白质名称;蛋白质名称;-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andDEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(
48、REV7)genes,completecds.Axl2p(AXL2)andRev7p(REV7)genes,completecds.GeneBank数据库使用NCBIGBFF格式头部DEFINITION行n n如果序列是非编码区,则包含对序列功能的简单描述;如如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列果序列是一段编码区,则标明该序列是部分序列(partial(partialcds)cds)还是全序列还是全序列(completecds)(completecds)。-+-+-+-+-+-+-+-+-+-+-110203040506011020304
49、05060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7pDEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.(REV7)genes,completecds.GeneBank数据库使用NCBIGBFF格式头部-ACCESSION行3 3、检索号(、检索号(ACCESSIONACCESSION): :是序列记录的唯一指针。是序列记录
50、的唯一指针。n n检索号通常由一个字母加检索号通常由一个字母加5 5个数字(个数字(U12345U12345)或者由两个字)或者由两个字母加母加6 6个数字(个数字(AF123456AF123456)组成。)组成。-+-+-+-+-+-+-+-+-+-+-11020304050601102030405060ACCESSIONU49845ACCESSIONU49845DearGenBankSubmitter:DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenB
51、ankaccessionThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence:numberforyournucleotidesequence:bankit660463AY795899bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesWest
52、ronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-linethesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.servers.GeneBank数据库使用NCB
53、IGBFF格式头部-ACCESSION行n n检索号在数据库中是唯一而且不变的,即使数据的提交者检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。改变数据的内容。n n在在 ACCESSIONACCESSION行中可能出现多个检索号,可能是因为数行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。的记录覆盖了原有的旧记录。n n第一个检索号为主检索号,而其余的统称为二级检索号。第一个检索号为主检索号,而其余的统称为二级检索号。GeneBank数据库使用NCBIGBFF格
54、式头部VERSION行4 4、版本号行:它的格式是:检索号、版本号行:它的格式是:检索号. .版本号。版本号。n n版本号于版本号于9999年年2 2月由三大数据库采纳使用。主要用于识别数月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。据库中一条单一的特定核苷酸序列。n n在数据库中,如果某条序列数据发生了变化,即使是单碱在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变基的改变,它的版本号都将增加,而它的检索号保持不变n n如由如由U12345.1U12345.1变为变为U12345.2U12345.2。-+-+-+-+
55、-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079VERSIONU49845.1GI:1293613VERSIONU49845.1GI:1293613GeneBank数据库使用NCBIGBFF格式头部VERSION行n n版本号系统与跟在其后的版本号系统与跟在其后的GIGI(GenInfoIdentifierGenInfoIdentifier)号系统)号系统是平行运行是平行运行n n当一条序列改变后,它将被赋予一个新的当一条序列改变后,它将被赋予一个新的GIGI号,同时它的号,同时它的版本号将增加。版本号将增加。n n当依据核酸序列的
56、内部序列进行蛋白质翻译时,蛋白质的当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的翻译发生任何变换,核酸序列都将被赋予一个新的GIGI号。号。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079VERSIONU49845.1GI:1293613VERSIONU49845.1GI:1293613GeneBank数据库使用NCBIGBFF格式头部KEYWORDS行5 5、关键词行:是用来描述序列的。如果该行中没有任何内、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只
57、包含一个容,那么就只包含一个“ “.” .”。n n由于没有对照词汇表,所以由于没有对照词汇表,所以NCBIGenBankNCBIGenBank拒绝接受关键词,拒绝接受关键词,它只存在于旧的记录中。它只存在于旧的记录中。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079KEYWORDS.KEYWORDS.GeneBank数据库使用NCBIGBFF格式头部SOURCE行6 6、序列来源行:没有做特殊的规定,它通常包含序列来源、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。生物的简称,
58、有些时候也包含分子类型。n nOrganismOrganism:以:以NCBINCBI的分类数据库为依据,指明物种的正式的分类数据库为依据,指明物种的正式科学名称。科学名称。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079SOURCEbakersyeast.SOURCEbakersyeast.ORGANISMSaccharomycescerevisiaeORGANISMSaccharomycescerevisiaeEukaryota(Eukaryota(真核真核);Fungi();Fungi(真菌真菌);Ascomy
59、cota();Ascomycota(子囊菌门子囊菌门);Hemiascomycetes();Hemiascomycetes(半子囊菌纲半子囊菌纲););Saccharomycetales;Saccharomycetaceae;Saccharomyces.Saccharomycetales;Saccharomycetaceae;Saccharomyces.GeneBank数据库使用NCBIGBFF格式头部REFERENCE行7 7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。的文献列于第一位。n n如果序
60、列数据没有被文献报道,该行将显示如果序列数据没有被文献报道,该行将显示“ “inpress”inpress”或或“ “unpublished”unpublished”n n如所引用文献存在于如所引用文献存在于MEDLINEMEDLINE数据库中,将出现一个数据库中,将出现一个MEDLINEMEDLINE单一单一指针指针(uniqueidentifier,UID)(uniqueidentifier,UID)以便检索。以便检索。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079REFERENCE1(bases1to5028
61、)REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisTITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinrequiredforDNAdamage-ind
62、ucedmutagenesisinSaccharomycescerevisiaeSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)JOURNALYeast10(11),1503-1509(1994)MEDLINE95176709MEDLINE95176709GeneBank数据库使用NCBIGBFF格式头部REFERENCE行n n如果序列是直接提交而未经发表的,就将在标题如果序列是直接提交而未经发表的,就将在标题(TITLE)(TITLE)中注明中注明“ “直接提交直接提交(DirectSubmission)”(DirectSu
63、bmission)”n n在期刊(在期刊(JOURNALJOURNAL)中注明提交日期,提交者姓名以及)中注明提交日期,提交者姓名以及提交者的工作单位。提交者的工作单位。-+-+-+-+-+-+-+-+-+-+-+-+-+-+-1102030405060707911020304050607079REFERENCE1(bases1to1939)REFERENCE1(bases1to1939)AUTHORSYi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.AUTHORSYi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,H
64、E.TITLECloningandexpressionstudiesofacDNAencodingUDP-TITLECloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalinaglucosedehydrogenasefromDunaliellasalinaJOURNALUnpublishedJOURNALUnpublishedGeneBank数据库使用NCBIGBFF格式中部n n特性表特性表(FEATURES):(FEATURES):它描述基因和基因的产物,以及与序列它描述基因和基
65、因的产物,以及与序列相关的生物学特性。相关的生物学特性。n n特性表提供一个参考词汇表以对合法的特性进行注释特性表提供一个参考词汇表以对合法的特性进行注释 这些特性包括该序列是否执行一个生物学功能;这些特性包括该序列是否执行一个生物学功能; 它是否与一个生物学功能的表达相关;它是否与一个生物学功能的表达相关; 它是否与其它分子相互作用;它是否与其它分子相互作用; 它是否影响一条序列的复制;它是否影响一条序列的复制; 它是否与其它序列的重组相关;它是否与其它序列的重组相关; 它是否是一条已识别的重复序列;它是否是一条已识别的重复序列; 它是否有二级或三级结构;它是否有二级或三级结构; 它是否存在
66、变异或者它是否被修订过。它是否存在变异或者它是否被修订过。 GeneBank数据库使用NCBIGBFF格式中部n n特性表格式特性表格式特性表格式特性表格式:按表单的方式设计的,包含三个部分:按表单的方式设计的,包含三个部分:第一,特性关键词第一,特性关键词(Featurekey)(Featurekey);第二,特性位置第二,特性位置(Location)(Location);第三,限定词第三,限定词(Qualifiers)(Qualifiers)。FEATURESLocation/QualifiersFEATURESLocation/Qualifierssource1.5028source1.
67、5028/organism=“Saccharomycescerevisiae”/organism=“Saccharomycescerevisiae”酿酒酵母酿酒酵母/mol_type=genomicDNA/mol_type=genomicDNA基因组基因组基因组基因组DNADNADNADNA/db_xref=taxon:4932/db_xref=taxon:4932分类学分类学/chromosome=IX/chromosome=IX染色体染色体/map=9/map=9GeneBank数据库使用NCBIGBFF格式中部FEATURESn n第一,特性关键词第一,特性关键词(Featurekey)
68、,(Featurekey),是一个简要说明功能组的是一个简要说明功能组的关键词,允许加入新的或未定义的特性;关键词,允许加入新的或未定义的特性;n n第二,特性位置第二,特性位置(Location)(Location),指明在特性表中的什么地方找,指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符到相关特性,在位置特性中可以包含操作符(Operator)(Operator)和功和功能性描述符能性描述符(Descriptor)(Descriptor)以指明序列需经过怎样的处理才能以指明序列需经过怎样的处理才能得到相应的特性;得到相应的特性;n n第三,限定词第三,限定词(Quali
69、fiers),(Qualifiers),相关特性的辅助信息,限定词使相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。用一组标准化的对照词汇表以利于计算机从中提取信息。GeneBank数据库使用NCBIGBFF格式中部FEATURES例例1 1KeyLocation/QualifiersKeyLocation/QualifiersCDS23.400CDS23.400/product=alcoholdehydrogenase/product=alcoholdehydrogenase/gene=adhI/gene=adhIn n特性表含义:特性表含义:该编码序列(该编码
70、序列(CDSCDS)起始于第)起始于第2323碱基,终止于第碱基,终止于第400400碱基碱基产物是乙醇脱氢酶产物是乙醇脱氢酶基因名称是基因名称是“ “adhI”adhI”。GeneBank数据库使用NCBIGBFF格式中部FEATURESn n例例2 2KeyLocation/QualifiersKeyLocation/QualifiersCDSjoin(544.589,688.1032)CDSjoin(544.589,688.1032)/product=T-cellreceptorbeta-chain/product=T-cellreceptorbeta-chainn n特性表含义:特性表
71、含义:它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,表达产物表达产物“ “T-T-细胞受体细胞受体betabeta链链” ”由序列内两个片段结合生成由序列内两个片段结合生成指明两个片段在序列中所处的位置。指明两个片段在序列中所处的位置。GeneBank数据库使用NCBIGBFF格式中部特性表关键词1 1、特性表的关键词:以树型结构生成、特性表的关键词:以树型结构生成misc_featuremisc_feature生物学特性无法用特性表关键词描述的序列生物学特性无法用特性表关键词描述的序列misc_differencemisc_difference序列特性无法用
72、特性表关键词描述的序列序列特性无法用特性表关键词描述的序列conflictconflict同一序列在不同的研究中在位点或区域上有差异同一序列在不同的研究中在位点或区域上有差异unsureunsure序列不能确定的区域序列不能确定的区域old_sequenceold_sequence该序列对以前的版本做过修订该序列对以前的版本做过修订variationvariation包含稳定突变的序列包含稳定突变的序列modified_basemodified_base修饰过的核苷酸修饰过的核苷酸genegene已识别为基因或已命名的序列区域已识别为基因或已命名的序列区域misc_signalmisc_sig
73、nal无法用信号特性关键词描述的信号序列无法用信号特性关键词描述的信号序列promoterpromoter转录起始区转录起始区CAAT_signalCAAT_signal真核启动子上游的真核启动子上游的CAATCAAT盒,与盒,与RNARNA结合相关结合相关TATA_signalTATA_signal真核启动子的真核启动子的TATATATA盒盒-35_signal-35_signal原核启动子中的原核启动子中的-35-35框框-10_signal-10_signal原核启动子原核启动子PribowPribow盒盒GC_signalGC_signal真核启动子的真核启动子的GCGC盒盒RBSRB
74、S核糖体结合位点核糖体结合位点polyA_signalRNApolyA_signalRNA转录本的剪切识别位点转录本的剪切识别位点enhancerenhancer增强子增强子attenuatorattenuator与转录终止有关的序列与转录终止有关的序列terminatorterminator转录终止序列转录终止序列rep_originrep_origin双链双链DNADNA复制起始区复制起始区GeneBank数据库使用NCBIGBFF格式中部特性表关键词misc_RNAmisc_RNA无法用无法用RNARNA关键词描述的转录物或关键词描述的转录物或RNARNA产物产物prim_transcr
75、iptprim_transcript初始转录本初始转录本precursor_RNAprecursor_RNA前体前体RNARNAmRNAmRNA信使信使RNARNA5clip5clip前体转录本中被剪切掉的前体转录本中被剪切掉的55端序列端序列3clip3clip前体转录本中被剪切掉的前体转录本中被剪切掉的33端序列端序列5UTR55UTR5非翻译区非翻译区3UTR33UTR3非翻译区非翻译区exonexon外显子外显子CDSCDS蛋白质编码序列蛋白质编码序列sig_peptidesig_peptide编码信号肽的序列编码信号肽的序列transit_peptidetransit_peptide
76、转运蛋白编码序列转运蛋白编码序列mat_peptidemat_peptide编码成熟肽的序列编码成熟肽的序列intronintron内含子内含子polyA_siteRNApolyA_siteRNA转录本的多聚腺苷酸化位点转录本的多聚腺苷酸化位点rRNArRNA核糖体核糖体RNARNAtRNAtRNA转运转运RNARNAscRNAscRNA小细胞质小细胞质RNARNAsnRNAsnRNA小核小核RNARNAsnoRNAsnoRNA加工和修饰加工和修饰rRNArRNA的小核的小核RNARNAGeneBank数据库使用NCBIGBFF格式中部特性表关键词immunoglobulin_relatedi
77、mmunoglobulin_relatedC_regionC_region免疫相关蛋白上的稳定区免疫相关蛋白上的稳定区D_segmentD_segment码免疫球蛋白重链的可变区基因之一码免疫球蛋白重链的可变区基因之一J_segmentJ_segment编码免疫球蛋白轻链和重链的可变区基因之一编码免疫球蛋白轻链和重链的可变区基因之一N_regionN_region插入重排免疫球蛋白片段间的核苷酸插入重排免疫球蛋白片段间的核苷酸S_regionS_region免疫球蛋白重链的开关区免疫球蛋白重链的开关区V_regionV_region免疫球蛋白轻链和重链的可变区,和免疫球蛋白轻链和重链的可变区,
78、和T T细胞受体细胞受体 , 和和 链;编码可变链;编码可变的氨基末端部分;可由的氨基末端部分;可由V_segment,D_segment,N_regionV_segment,D_segment,N_region和和J_segmentJ_segment组成组成 V_segmentV_segment免疫球蛋白轻链和重链的可变区段,和免疫球蛋白轻链和重链的可变区段,和TT细胞受体细胞受体 , 和和 链;编码大链;编码大多数可变区(多数可变区(v_regionv_region) 和前导肽的最后几个氨基酸和前导肽的最后几个氨基酸repeat_regionrepeat_region基因组中所包含的重复序
79、列基因组中所包含的重复序列GeneBank数据库使用NCBIGBFF格式中部特性表关键词repeat_unitrepeat_unit单个的重复元件单个的重复元件LTRLTR长末端重复序列长末端重复序列SatelliteSatellite卫星重复序列卫星重复序列misc_bindingmisc_binding无法描述的核酸序列结合位点无法描述的核酸序列结合位点primer_bindprimer_bind复制、转录的引物结合位点复制、转录的引物结合位点protein_bindprotein_bind蛋白质结合区蛋白质结合区STSSTS测序标签位点测序标签位点misc_recombmisc_reco
80、mb无法用重组特性关键词描述的重组事件无法用重组特性关键词描述的重组事件iDNAiDNA通过重组所消除的通过重组所消除的DNADNAmisc_structuremisc_structure无法用结构关键词描述的核酸序列高级结构或构型无法用结构关键词描述的核酸序列高级结构或构型stem_loopstem_loop发夹结构发夹结构D-loopD-loop线粒体中线粒体中DNADNA中的取代环中的取代环 GeneBank数据库使用NCBIGBFF格式中部Location2 2、特性位置(、特性位置(LocationLocation):用来描述在序列中的什么区域能):用来描述在序列中的什么区域能够找到
81、相关的特性,位置特性可以包含够找到相关的特性,位置特性可以包含ComplementComplement、JoinJoin、OrderOrder等三个操作符(等三个操作符(OperatorOperator)。)。467467指明序列中的单个碱基指明序列中的单个碱基340.565340.565指明包括起始和中止碱基在内的一段连续序列指明包括起始和中止碱基在内的一段连续序列345.500345.500指明序列起始于起始碱基号之前的某个位置,但起指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知始碱基号之前的特性边界未知GeneBank数据库使用NCBIGBFF格式中部Locati
82、on1.888gi|995614|dbj|D49653|RATOBESERatmRNAforobese.gi|995614|dbj|D49653|RATOBESERatmRNAforobese. CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGA
83、TGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGAAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAG
84、TTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCCCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGTCCTCCATCTGCTGGCCTT
85、CTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTCCTGAATGCTGAGGTTTC以上这个以上这个FASTAFASTA文件中包含了
86、文件中包含了gigi号码、号码、GenBankGenBank检索号码、检索号码、LOCUSLOCUS名称、以及名称、以及GenBankGenBank记录中的记录中的DEFINATIONDEFINATION字段。字段。一种最简单的一种最简单的fastafasta序列形式可以表示为:序列形式可以表示为:D49653D49653 CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGC
87、CGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.AGTCGGTATCCG.GeneBank数据库使用NCBI序列文件格式例子(GenBank)n nLOCUSRATOBESE539bpss-mRNAR
88、OD23-SEP-1995LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995n nDEFINITIONRatmRNAforobese.DEFINITIONRatmRNAforobese.n nACCESSIOND49653ACCESSIOND49653n nKEYWORDS.KEYWORDS.n nSOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedSOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedn nadipo
89、secDNAtomRNA.adiposecDNAtomRNA.n nORGANISMRattusnorvegicusORGANISMRattusnorvegicusn nEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Eukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;n nVertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;n nS
90、ciurognathi;Myomorpha;Muridae;Murinae;Rattus.Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.n nREFERENCE1(bases1to539)REFERENCE1(bases1to539)n nAUTHORSMurakami,T.andShima,K.AUTHORSMurakami,T.andShima,K.n nTITLECloningofratobesecDNAanditsexpressioninobeseratsTITLECloningofratobesecDNAanditsexpressioni
91、nobeseratsn nJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)JOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)n nSTANDARDfullautomaticSTANDARDfullautomaticn nCOMMENTSubmitted(10-Mar-1995)toDDBJby:COMMENTSubmitted(10-Mar-1995)toDDBJby:n nTakashiMurakamiTakashiMurakamin nDepartmentofLaboratoryMed
92、icineDepartmentofLaboratoryMedicinen nSchoolofMedicineSchoolofMedicinen nUniversityofTokushimaUniversityofTokushiman nKuramotocho3-chomeKuramotocho3-chomen nTokushima770Tokushima770n nJapanJapann nPhone:+81-886-33-7184Phone:+81-886-33-7184n nFax:+81-886-31-9495.Fax:+81-886-31-9495.GeneBank数据库使用NCBI
93、序列文件格式例子(GenBank)n nNCBI gi: 995614NCBI gi: 995614n nFEATURES Location/QualifiersFEATURES Location/Qualifiersn n source 1.539 source 1.539n n /organism=Rattus norvegicus /organism=Rattus norvegicusn n /strain=OLETF, LETO and Zucker /strain=OLETF, LETO and Zuckern n /dev_stage=differentiated /dev_sta
94、ge=differentiatedn n /sequenced_mol=cDNA to mRNA /sequenced_mol=cDNA to mRNAn n /tissue_type=adipose /tissue_type=adiposen n CDS 30.533 CDS 30.533n n /partial /partialn n /note=NCBI gi: 995615 /note=NCBI gi: 995615n n /codon_start=1 /codon_start=1n n /product=obese /product=obesen n /translation=MCW
95、RPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND /translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDn n ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLEn n NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ NLRDLLHLLAFSKSCSL
96、PQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQn n LDLSPEC LDLSPECn nBASE COUNT 121 a 167 c 133 g 118 tBASE COUNT 121 a 167 c 133 g 118 tn nORIGINORIGINn n 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgtn n 61 ggctttgg
97、tc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgacan n 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcggn n 181 tatccgccag gcagagggtc a
98、ccggtttgg acttcattcc cgggcttcac cccattctga 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctgan n 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgccttn n 301 cccaaaacgt gctgcagata gctcatgacc tgga
99、gaacct gcgagacctc ctccatctgc 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgcn n 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagccn n 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggct
100、ctg agcaggctgc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgcn n 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttcn n/GeneBank数据库使用NCBI序列文件格式例子(GCG)n nLOCUSRATOBESE.G539BPSS-RNAENTERED09/23
101、/95LOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95n nDEFINITIONRatmRNAforobese.DEFINITIONRatmRNAforobese.n nACCESSION-ACCESSION-n nKEYWORDS-KEYWORDS-n nSOURCERattusnorvegicus;NorwayratSOURCERattusnorvegicus;Norwayratn nORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;ORGANISMEukaryot
102、ae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;n nSarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;n nMyomorpha;Muridae;Murinae;RattusMyomorpha;Muridae;Murinae;Rattusn nREFERENCE1REFERENCE1n nAUTHORSMurakami,T.&Shima,K.AUTHORSMurakam
103、i,T.&Shima,K.n nTITLECloningofratobesecDNAanditsexpressioninobeserats.TITLECloningofratobesecDNAanditsexpressioninobeserats.n nJOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)JOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)n nCOMMENTDatabaseReference:COMMENTDatabaseReference:n nDDBJRAT
104、OBESEDDBJRATOBESEn nAccession:D49653Accession:D49653n n-n nSubmitted(10-Mar-1995)toDDBJby:Submitted(10-Mar-1995)toDDBJby:n nTakashiMurakamiTakashiMurakamin nDepartmentofLaboratoryMedicineDepartmentofLaboratoryMedicinen nSchoolofMedicineSchoolofMedicinen nUniversityofTokushimaUniversityofTokushiman n
105、Kuramotocho3-chomeKuramotocho3-chomen nTokushima770Tokushima770n nJapanJapann nPhone:+81-886-33-7184Phone:+81-886-33-7184n nFax:+81-886-31-9495Fax:+81-886-31-9495GeneBank数据库使用NCBI序列文件格式例子(GCG)n nFEATURES From To/Span DescriptionFEATURES From To/Span Descriptionn n pept 30 533 obese pept 30 533 obese
106、n n ? 1 539 source; /organism=Rattus norvegicus; ? 1 539 source; /organism=Rattus norvegicus;n n /strain=OLETF, LETO and Zucker; /strain=OLETF, LETO and Zucker;n n /dev_stage=differentiated; /sequenced_mol=cDNA /dev_stage=differentiated; /sequenced_mol=cDNAn n to mRNA; /tissue_type=adipose to mRNA;
107、/tissue_type=adiposen nBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERn nORIGIN ?ORIGIN ?n n RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 . RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 .n n 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG
108、 ACCCCTGTGC CGGTTCCTGT 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGTn n 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACAn n 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAG
109、TCGG 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGGn n 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGAn n 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT 241 GTTTG
110、TCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTTn n 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGCn n 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC 361 TGGCCTTCTC CAAGAGCT
111、GC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCCn n 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGCn n 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT T
112、GGACCTTAG CCCTGAATGC TGAGGTTTCn n/GeneBank数据库使用NCBI序列文件格式例子(ASN.1)ASN.1是NCBI用来存储和维护所有数据的格式Seq-entry:=setlevel1,classnuc-prot,descrpubpubsubauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrSeq-entry:=setlevel1,classnuc-prot,descrpubpubsubauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrTa
113、kashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,TokushimaTakashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,Tokushima770,Japan(E-mail:-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-
114、886-31-9495),mediumemail,datestdyear1995,month3,day10,pubpub770,Japan(E-mail:-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495),mediumemail,datestdyear1995,month3,day10,pubpubmuid95251725,articletitlenameCloningofratobesecDNAanditsexpressioninobeserats.,authorsnamesstdnamenamelastmuid95251725,article
115、titlenameCloningofratobesecDNAanditsexpressioninobeserats.,authorsnamesstdnamenamelastMurakami,initialsT.,namenamelastShima,initialsK.,affilstrDepartmentofLaboratoryMedicine,SchoolofMedicine,Murakami,initialsT.,namenamelastShima,initialsK.,affilstrDepartmentofLaboratoryMedicine,SchoolofMedicine,Univ
116、ersityofTokushima,Japan.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaBiochemBiophysResCommun,issnUniversityofTokushima,Japan.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaBiochemBiophysResCommun,issn0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyea
117、r1995,month4,day26,volume209,issue0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyear1995,month4,day26,volume209,issue3,pages944-952,languageeng,idspubmed7733988,medline95251725,pmid7733988,update-datestdyear2000,month2,3,pages944-952,languageeng,idspubmed7733988,medline952
118、51725,pmid7733988,update-datestdyear2000,month2,day1,sourceorgtaxnameRattusnorvegicus,commonNorwayrat,dbdbtaxon,tagid10116,orgnamenamebinomialgenusday1,sourceorgtaxnameRattusnorvegicus,commonNorwayrat,dbdbtaxon,tagid10116,orgnamenamebinomialgenusRattus,speciesnorvegicus,modsubtypestrain,subnameOLETF
119、,LETOandZucker,lineageEukaryota;Metazoa;Chordata;Craniata;Rattus,speciesnorvegicus,modsubtypestrain,subnameOLETF,LETOandZucker,lineageEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,mgcode2,divROD,subtypeVertebrata;Eut
120、eleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,mgcode2,divROD,subtypesubtypetissue-type,nameadipose,subtypedev-stage,namedifferentiated,seq-setseqidddbjnameRATOBESE,accessionsubtypetissue-type,nameadipose,subtypedev-stage,namedifferentiated,seq-setseqidddbjnameRATOBE
121、SE,accessionD49653,version1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbanksourceRattusnorvegicus(strain:OLETF,D49653,version1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbanksourceRattusnorvegicus(strain:OLETF,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobe
122、se(ob),leptin,obesity,obproduct,secretoryprotein,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobese(ob),leptin,obesity,obproduct,secretoryprotein,molinfobiomolmRNA,create-datestdyear1995,month9,day22,instreprraw,molrna,length539,seq-datancbi2namolinfobiomolmRNA,create-datestdyear1995,month
123、9,day22,instreprraw,molrna,length539,seq-datancbi2na5A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A385A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A384500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E
124、92DCD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9BD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationint5E825D9DC75122BAE9DE24A792A7779284
125、F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationintfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995615,descrtitleleptin(obproduct)Rattusfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995615,descrtitleleptin(obproduct)Rattusnorvegicus,molinfobiomolpe
126、ptide,create-datestdyear1995,month9,day22,instreprraw,molaa,length167,seq-datancbieaanorvegicus,molinfobiomolpeptide,create-datestdyear1995,month9,day22,instreprraw,molaa,length167,seq-datancbieaaMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDI
127、SHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEALDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC,annotdataftabledataprotnameleptin(obproduct),locationwholegi995615,SLYSTEVVALSRLQGSLQDILQQLDLSPEC,a
128、nnotdataftabledataprotnameleptin(obproduct),locationwholegi995615,dataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfrom0,to20,idgi995615,dataprotnamesecreteddataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfrom0,to20,idgi995615,dataprotnamesecretedprotein,leptin,p
129、rocessedmature,locationintfrom21,to166,idgi995615,annotdataftabledatacdregionframeone,protein,leptin,processedmature,locationintfrom21,to166,idgi995615,annotdataftabledatacdregionframeone,codeid1,productwholegi995615,locationintfrom29,to532,idgi995614codeid1,productwholegi995615,locationintfrom29,to
130、532,idgi995614GeneBank数据库使用NCBI基因组数据库的注释基因组数据库的注释GeneBank数据库使用NCBI基因组注释工具n n迄今还没有一种普遍使用的基因组序列注释工具。迄今还没有一种普遍使用的基因组序列注释工具。n n基因组注释咨询小组:在美国成立基因组注释咨询小组:在美国成立, ,其成员来自其成员来自OakRidgeOakRidge、LawrenceBerkeleyLawrenceBerkeley、ArgonneArgonne三个国家实验室以及其他基三个国家实验室以及其他基因组测序实验室因组测序实验室n n目的:开发研制基因组注释工具。目的:开发研制基因组注释工具
131、。n n提出了开发名为提出了开发名为“ “GenomeChannel”GenomeChannel”的基因组注释工具的设的基因组注释工具的设想,该软件的模型可从想,该软件的模型可从OakRidgeOakRidge国家实验室的国家实验室的WebWeb节点节点() ()获取。获取。 GeneBank数据库使用NCBI基因组注释工具GenomeChannelGenomeChannel为所为所有测序完成和尚未完有测序完成和尚未完成的基因组提供了一成的基因组提供了一个染色体图形界面个染色体图形界面( (核核型浏览型浏览) ),从各测序实验室发送从各测序实验室发送的单个结合点用彩色的单个结合点用彩色编码区带
132、在染色体的编码区带在染色体的适当位置上显示出来适当位置上显示出来每个结合点直每个结合点直接与含有丰富接与含有丰富信息的图谱信息的图谱(information-(information-richmap)richmap)相连,相连,信息图谱包括信息图谱包括各种特征信息,各种特征信息,如如ORFsORFs、转录、转录因子、预测基因子、预测基因的因的BLASTBLAST结结果、建立结合果、建立结合点的凝胶标记点的凝胶标记和基因克隆及和基因克隆及DNADNA确认序列确认序列GeneBank数据库使用NCBI基因组注释工具n n前景:一旦前景:一旦GenomeChannelGenomeChannel投入使
133、用,科研人员投入使用,科研人员 将可以将可以为现有的基因组序列增加新的生物学特征注释或修改以前为现有的基因组序列增加新的生物学特征注释或修改以前的注释。的注释。n n该注释工具是用该注释工具是用JavaJava语言开发的,并不适合于所有的语言开发的,并不适合于所有的WebWeb浏览器浏览器 。 GeneBank数据库使用NCBI微生物基因组序列合作注释工具n nWITWIT软件是从生物化学软件是从生物化学/ /代谢通道透视图的角度来注释微生代谢通道透视图的角度来注释微生物基因组物基因组n n基本原理是所有生物体共享同一的代谢通道即同源基因编基本原理是所有生物体共享同一的代谢通道即同源基因编码出
134、来的蛋白质具有同一功能码出来的蛋白质具有同一功能n n生物体全基因组序列的所有基因的功能注释过程可以被认生物体全基因组序列的所有基因的功能注释过程可以被认为是生物体的为是生物体的“ “代谢重建代谢重建” ”n n代谢重建代谢重建(metabolicreconstructoion)(metabolicreconstructoion)的目的在于确定生物体的目的在于确定生物体的代谢通道以及确定哪个基因具有这种功能。的代谢通道以及确定哪个基因具有这种功能。 GeneBank数据库使用NCBIWhatIsThere(WIT)“WhatIsThere”(WIT),由Argonne国家实验室的RossOve
135、rbeek和密西根州大学的NielsLarsen合作研制,Web节点TIGR已经使用WIT注释各种基因组数据。WITWeb节点GeneBank数据库使用NCBIAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord序列提交序列提交GeneBank数据库使用NCBI在线提交序列(BankIt)n nBankItBankIt是是NCBINCBI提供的在线提交序列的工具提供的在线提交序列的工具n n由一系列表单,包括联络信息、发布要求、引用参考信息、由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信
136、息、以及序列本身的信息等。序列来源信息、以及序列本身的信息等。n n用户提交序列后,会从电子邮件收到自动生成的数据条目,用户提交序列后,会从电子邮件收到自动生成的数据条目,GenbankGenbank的新序列编号,以及完成注释后的完整的数据记的新序列编号,以及完成注释后的完整的数据记录。录。GeneBank数据库使用NCBI在线提交序列(BankIt) 用户还可以在用户还可以在BankItBankIt页面下修改已经发布序列的信息。页面下修改已经发布序列的信息。n nBankItBankIt适合于独立测序工作者提交少量序列,而不适合适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适
137、合提交很长的序列,大量序列的提交,也不适合提交很长的序列,ESTEST序列序列和和GSSGSS序列也不应用序列也不应用BankItBankIt提交。提交。GeneBank数据库使用NCBI在线提交序列步骤在线提交序列步骤1. 1.登陆登陆BankItBankIt页面页面 2. 2.填写表单内容。填写表单内容。3. 3.确认表单内容。确认表单内容。4. 4.等待电子邮件返回信息。等待电子邮件返回信息。GeneBank数据库使用NCBI填写表单信息(1)填写表单的内容包括四个方面一些注意事项和介绍GeneBank数据库使用NCBI填写表单信息(2)基本信息:提交的序列数目,联系人的信息,公开序列发
138、布日期等。GeneBank数据库使用NCBI填写表单信息(3)参考信息:序列作者,相关文献等信息GeneBank数据库使用NCBI填写表单信息(4)来源信息:序列来源,物种等描述GeneBank数据库使用NCBI填写表单信息(5)序列信息:序列类型,序列等GeneBank数据库使用NCBI填写表单信息(6)附加信息:评论,致谢等(可以不填写)填完后点击进入确认界面GeneBank数据库使用NCBI确认表单信息确认无误后提交到genbank如果发现有不对,返回表单页面修改。GeneBank数据库使用NCBI提交的序列GeneBank数据库使用NCBI序列提交工具(sequin)n n大量的序列提
139、交可以由大量的序列提交可以由SequinSequin程序完成。程序完成。n nSequinSequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证查函数来提高序列的质量保证n n用于提交来自系统进化、种群和突变研究的序列,可以加入比对的用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。数据。n nSequinSequin除了用于编辑和修改序列数据记录,还可用于序列的分析,除了用于编辑和修改序列数据记录,还可用于序列的分析,任何以任何以FASTAFASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以格式序列为输入数据的序列分析程序都可以整合到整合到SequinSequin程序下。程序下。n n不同操作系统下运行的不同操作系统下运行的SequinSequin程序:程序:n nSequinSequin的使用说明:的使用说明:GeneBank数据库使用NCBI此课件下载可自行编辑修改,供参考!此课件下载可自行编辑修改,供参考!感谢你的支持,我们会努力做得更好!感谢你的支持,我们会努力做得更好!