2. 第二章 生物信息数据库:2 序列注释格式1

上传人:nbwa****ajie 文档编号:51712841 上传时间:2018-08-16 格式:PPT 页数:109 大小:2.15MB
返回 下载 相关 举报
2. 第二章 生物信息数据库:2 序列注释格式1_第1页
第1页 / 共109页
2. 第二章 生物信息数据库:2 序列注释格式1_第2页
第2页 / 共109页
2. 第二章 生物信息数据库:2 序列注释格式1_第3页
第3页 / 共109页
2. 第二章 生物信息数据库:2 序列注释格式1_第4页
第4页 / 共109页
2. 第二章 生物信息数据库:2 序列注释格式1_第5页
第5页 / 共109页
点击查看更多>>
资源描述

《2. 第二章 生物信息数据库:2 序列注释格式1》由会员分享,可在线阅读,更多相关《2. 第二章 生物信息数据库:2 序列注释格式1(109页珍藏版)》请在金锄头文库上搜索。

1、NCBI分子数据库结构曹毅NCBIGenBank数据库结构n作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。nDDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。n分别介绍EMBL和GenBank的数据库结构NCBIGenBank数据库数据注释 (www.ncbi.nlm.nih.gov/genbank/ )nGenBank库包含所有已知的核酸序列和蛋白质序列, 以及与它们相关的文献著作和生物学注释。nNCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。n数据库序列文件:注释内容文章 索引文件:检索目录文摘NCBIGenBank数据库结构n完整的

2、GenBank数据库包括序列文件,索引文件以及其它有关文件。n索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。nGenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库n数据格式为FastA。 NCBIGenBank数据记录NCBIGenBank数据记录NCBIGenBank数据库结构nGenBank中最常用的是序列文件。n序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。n生物信息资源中心通过计算机网络提供该数据库文件。n注释条目:文章的格式NCBIGenBank数据库结构nGenBank序列文件由单个的序列条目组成。n序列条目由字段组成,每个

3、字段由关键字起始,后面为该字段的具体说明。n字段分若干次子字段,以次关键字或特性表说明符开始。n每个序列条目以双斜杠“/”作结束标记NCBIGenBank数据库结构n序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。n每个字段可占一行,也可以占若干行。n若一行中写不下时,继续行以空格开始 NCBIGenBank数据库n物种:GenBank 库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)n记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表

4、,及序列本身NCBIGenBank数据库n序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等n分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件NCBI注释内容n序列条目关键字:LOCUS (代码), DEFINITION (说明), ACCESSION(编号), NID符(核酸标识), KEYWORDS (关键词), SOURCE (数据来源), REFERENCE (文献), FEATURES (特性表), BASE COUNT (碱基组成) ORI

5、GIN (碱基排列顺序)。n先版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编 号.版本号”表示,并取代关键词NID NCBILOCUSnLOCUS (代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。序列长度类型种属来源以录入日期等n说明字段是有关这一序列的简单描述NCBIACCESSIONnACCESSION (编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。NCBIKEYWORDSnKEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物其它相关信息NCBISOURCEnSOURCE

6、 (数据来源)字段:说明该序列是从什么生物体、什么组织得到的n次关键字ORGANISM (种属):指出该生物体的分类学地位NCBIREFERENCEnREFERENCE(文献)字段:说明该序列中的相关文献,包括AUTHORS (作者), TITLE (题目)及 JOURNAL(杂志名)等, 以次关键词列出。nMEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。n一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。NCBIFEATURESnFEATURES (特性表):具有特定的格式,用来详细描述序列特性。n特性表中带有/db-xref/标志的字

7、符可以连接到其它数据库 ,如分类数据库(taxon 9606), 以及蛋白质序列数据库(PID :g181254)。n序列中各部分的位置都在表中标明,5非编码区,编码区 ,3非编码区,多聚腺苷酸重复区域等。n翻译所得信号肽以及最终蛋白质产物n碱基含量字段,给出序列中的碱组成NCBIORIGINnORIGIN行是序列的引导行n下面便是碱基序列n以双斜杠行“/”结束。 NCBIGenBank数据库数据库格式nFASTA格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; an

8、d Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGT

9、CATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT (该序列没有完全列出) NCBIGenBank数据库数据库格式(1)nFASTA格式:将一个DNA或者蛋白质序列表示

10、为一个带有一些标记的核苷酸或氨基酸字符串。n大于号()表示一个新文件的开始n结束用(/)nFASTA格式并没有什么特殊的要求。NCBIFASTA格式序列的提交NCBIGenBank数据库数据库格式(1)nFASTA格式特点:只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性nFASTA格式在许多分子生物学软件包中得到广泛应用。NCBIGenBank数据库数据库格式(2)nGenBank纯文本文件格式(GenBank flatfile, GBFF): nGenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?NCBI

11、GBFF文件格式nGBFF是GenBank数据库的基本信息单位,n是最为广泛使用的生物信息学序列格式之一。NCBI头部中部尾部GGE E N N B B A A N NKK 纯纯 文文 本本 文文 件件 格格 式式LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p(AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845

12、.1 GI:1293613 KEYWORDS . SOURCE bakers yeast.ORGANISM Saccharomyces cerevisiaeEukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales;Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028)AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.TITLE Cloning and sequence of REV

13、7, a gene whose function is required forDNA damage-induced mutagenesis in Saccharomyces cerevisiaeJOURNAL Yeast 10 (11), 1503-1509 (1994)MEDLINE 95176709 REFERENCE 2 (bases 1 to 5028)AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.TITLE Selection of axial growth sites in yeast requires Axl2p, a

14、novelplasma membrane glycoproteinJOURNAL Genes Dev. 10 (7), 777-793 (1996)MEDLINE 96194260 REFERENCE 3 (bases 1 to 5028)AUTHORS Roemer,T.TITLE Direct SubmissionJOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, NewHaven, CT, USA FEATURES Location/Qualifierssource 15028/organism=

15、“Saccharomyces cerevisiae“/db_xref=“taxon:4932“/chromosome=“IX“/map=“9“CDS gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAA GCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCA

16、 GTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGAC CCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACC TCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTG GAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTC

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号