生物信息学数据库的分类和注释要求

上传人:ap****ve 文档编号:119633603 上传时间:2020-01-21 格式:PPT 页数:126 大小:3.20MB
返回 下载 相关 举报
生物信息学数据库的分类和注释要求_第1页
第1页 / 共126页
生物信息学数据库的分类和注释要求_第2页
第2页 / 共126页
生物信息学数据库的分类和注释要求_第3页
第3页 / 共126页
生物信息学数据库的分类和注释要求_第4页
第4页 / 共126页
生物信息学数据库的分类和注释要求_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《生物信息学数据库的分类和注释要求》由会员分享,可在线阅读,更多相关《生物信息学数据库的分类和注释要求(126页珍藏版)》请在金锄头文库上搜索。

1、生物信息学数据库的分类和注释要求 生物信息学数据库 核酸序列数据库 蛋白质序列数据库 蛋白质结构数据库 基因组数据库生物信息学数据库的分类 生物信息学数据库 欧洲分子生物学实验室的EMBLhttp www embl heidelberg de 美国生物技术信息中心的GenBankhttp www ncbi nlm nih gov Genbank 日本国立遗传研究所的DDBJhttp www ddbj nig ac jp searches e html核酸序列数据库 GenBank数据库结构 作用 了解序列数据库的格式 有助于更好地提高数据库检索的效率和准确性 DDBJ数据库的内容和格式与Gen

2、Bank相同 此处不作详细介绍 分别介绍EMBL和GenBank的数据库结构 GenBank数据库数据注释 GenBank库包含所有已知的核酸序列和蛋白质序列 以及与它们相关的文献著作和生物学注释 NCBI可提供广泛的数据查询 序列相似性搜索以及其它分析服务 数据库序列文件 注释内容 文章索引文件 检索目录 文摘 GenBank数据库结构 完整的GenBank数据库包括序列文件 索引文件以及其它有关文件 索引文件是根据数据库中作者 参考文献等建立的 用于数据库查询 GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA GenBank数据库结构 GenBa

3、nk中最常用的是序列文件 序列文件的基本单位 是序列条目 包括核苷酸碱基排列顺序和注释两部分 生物信息资源中心通过计算机网络提供该数据库文件 注释条目 文章的格式 www ncbi nlm nih gov genbank Genbank Genbank查找页面 D31716 描述部分 CDsarerecurringunitsinpolypeptidechains sequenceandstructuremotifs theextentsofwhichcanbedeterminedbycomparativeanalysis Molecularevolutionusessuchdomainsasb

4、uildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions CDs编码序列 含终止密码子polyA signal多聚A信号 D31716 特性表 序列本身 关键字 CDsarerecurringunitsinpolypeptidechains D31716 序列本身 序列结束 4859bp D31716 GenBank数据记录 GenBank数据记录 GenBank数据库结构 GenBank序列文件由单个的序列条目组成 序列条目由字段组成 每个字

5、段由关键字起始 后面为该字段的具体说明 字段分若干次子字段 以次关键字或特性表说明符开始 每个序列条目以双斜杠 作结束标记 GenBank数据库结构 序列条目的格式非常重要 关键字从第一列开始 次关键字从第三列开始 特性表说明符从第五列开始 每个字段可占一行 也可以占若干行 若一行中写不下时 继续行以空格开始 GenBank数据库 物种 GenBank库里的数据按来源于大约100 000个物种 其中56 是人类的基因组序列 所有序列中的34 是人类的EST序列 记录 每条GenBank数据记录包含对序列的简要描述 它的科学命名 物种分类名称 参考文献 序列特征表 及序列本身 GenBank数据

6、库 序列特征表 包含对序列生物学特征注释如 编码区 转录单元 重复区域 突变位点或修饰位点等分类 所有数据记录被划分为如细菌类 病毒类 灵长类 啮齿类 以及EST数据 基因组测序数据 大规模基因组序列数据等16类 其中EST数据等又被分成若干文件 注释内容 序列条目关键字 LOCUS 代码 DEFINITION 说明 ACCESSION 编号 NID符 核酸标识 KEYWORDS 关键词 SOURCE 数据来源 REFERENCE 文献 FEATURES 特性表 BASECOUNT 碱基组成 ORIGIN 碱基排列顺序 新版的核酸序列数据库将引入新的关键词SV 序列版本号 用 编号 版本号 表

7、示 并取代关键词NID LOCUS LOCUS 代码 是该序列条目的标记 或者说标识符 蕴涵这个序列的功能 如HUMCYCLOX表示人的环氧化酶 序列长度类型种属来源录入日期等说明字段是有关这一序列的简单描述 ACCESSION ACCESSION 编号 具有唯一性和永久性 在文献中引用这个序列时 应该以此编号为准 KEYWORDS KEYWORDS 关键词 字段 由该序列的提交者提供 包括该序列的基因产物其它相关信息 SOURCE SOURCE 数据来源 字段 说明该序列是从什么生物体 什么组织得到的次关键字ORGANISM 种属 指出该生物体的分类学地位 REFERENCE REFEREN

8、CE 文献 字段 说明该序列中的相关文献 包括AUTHORS 作者 TITLE 题目 及JOURNAL 杂志名 等 以次关键词列出 MEDLINE的代码 该代码实际上是个超文本链接 点击它可以直接调用上述文献摘要 一个序列可有多篇文献 以不同序号表示 并给出该序列中哪一部分与文献有关 FEATURES FEATURES 特性表 具有特定的格式 用来详细描述序列特性 特性表中带有 db xref 标志的字符可以连接到其它数据库 如分类数据库 taxon9606 以及蛋白质序列数据库 PID g181254 序列中各部分的位置都在表中标明 5 非编码区 编码区 3 非编码区 多聚腺苷酸重复区域等

9、翻译所得信号肽以及最终蛋白质产物碱基含量字段 给出序列中的碱组成 ORIGIN ORIGIN行是序列的引导行下面便是碱基序列以双斜杠行 结束 GenBank数据库 数据库格式 FASTA格式 gi 1293613 gb U49845 1 SCU49845SaccharomycescerevisiaeTCP1 betagene partialcds andAxl2p AXL2 andRev7p REV7 genes completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGT

10、ATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTC

11、CTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT 该序列没有完全列出 GenBank数据库 数据库格式 1 FASTA格式 将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串 大于号 表示一个新文件的开始结束用 FASTA格式并没有什么特殊的要求 FASTA格式序列的提交 GenBank数据库 数据库格式 1 FASTA格式特点 只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信

12、息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用 GenBank数据库 数据库格式 2 GenBank纯文本文件格式 GenBankflatfile GBFF GenBank EMBL DDBJ每天都相互同步更新各自的数据库 它们是怎样交换数据的呢 GBFF文件格式 GBFF是GenBank数据库的基本信息单位 是最为广泛使用的生物信息学序列格式之一 LOCUSSCU498455028bpDNAPLN21 JUN 1999DEFINITIONSaccharomycescerevisiaeTCP1 betagene partialcds andAxl2p AXL2 andR

13、ev7p REV7 genes completecds ACCESSIONU49845VERSIONU49845 1GI 1293613KEYWORDS SOURCEbaker syeast ORGANISMSaccharomycescerevisiaeEukaryota Fungi Ascomycota Hemiascomycetes Saccharomycetales Saccharomycetaceae Saccharomyces REFERENCE1 bases1to5028 AUTHORSTorpey L E Gibbs P E Nelson J andLawrence C W TI

14、TLECloningandsequenceofREV7 agenewhosefunctionisrequiredforDNAdamage inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10 11 1503 1509 1994 MEDLINE95176709REFERENCE2 bases1to5028 AUTHORSRoemer T Madden K Chang J andSnyder M TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p anovelplasmamembra

15、neglycoproteinJOURNALGenesDev 10 7 777 793 1996 MEDLINE96194260REFERENCE3 bases1to5028 AUTHORSRoemer T TITLEDirectSubmissionJOURNALSubmitted 22 FEB 1996 TerryRoemer Biology YaleUniversity NewHaven CT USAFEATURESLocation Qualifierssource1 5028 organism Saccharomycescerevisiae db xref taxon 4932 chrom

16、osome IX map 9 CDS 1 206 codon start 3 product TCP1 beta protein id AAA98665 1 db xref GI 1293614 translation SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM gene687 3158 gene AXL2 CDS687 3158 gene AXL2 note plasmamembraneglycoprotein codon start 1 function requiredforaxialbuddingpatternofS cerevisiae product Axl2p protein id AAA98666 1 db xref GI 1293615 translation MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF 有部分序列未列出 VDFSNKSNVNVGQVKDIHGRIPEML BASECOUNT1510a1074c835g1609tOR

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号