生物信息学生物信息数据库完美版课件

资源描述

《生物信息学生物信息数据库完美版课件》由会员分享，可在线阅读，更多相关《生物信息学生物信息数据库完美版课件（178页珍藏版）》请在金锄头文库上搜索。

1、Bioinformatics,生物信息学,刘红,复习内容第一章要点,生物信息学(Bioinformatics）：生物信息学是一门交叉学科，它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据中包含的生物学意义。人类基因组计划(human genome project,HGP）规模模宏大的科学计划，其旨在测定组成人类染色体（指单倍体）中所包含的30亿个核苷酸序列的碱基组成，从而绘制下人类基因组图谱，并且辨识并呈现其上的所有基因及其序列，进而破译人类遗传信息。人类基因组计划是人类为了解自身的奥秘所迈出的重

2、要一步，是继曼哈顿计划和阿波罗登月计划之后，人类科学史上的又一个伟大工程。,Sanger 测序法又称双脱氧末端终止法。 Sanger法是根据核苷酸在某一固定的点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以A、T、C、G结束的四组不同长度的一系列核苷酸，然后在尿素变性的PAGE胶上电泳进行检测，从而获得可见的DNA碱基序列。 Sanger法测序的原理就是，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)使之终止。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止

3、，终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几个至千以上个，相差一个碱基一系列片断。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。,鸟枪法序列测定（Shotgun sequencing）是一种广泛使用的为长DNA测序的方法，比传统的定序法快速，但精确度较差。曾经使用于塞雷拉基因组（Celera Genomics）公司所主持的人类基因组计划。原理：将基因组打断为数百万个DNA片断，然后用一定的算法将片断的序列信息重新整合在一起，从而

4、得到整个基因组序列。为了提高这一方法的效率，1980年代，测序和片断信息整合达到了自动化。这一方法虽然已被用于序列长达6百万个碱基对的细菌基因组测序，但对于人类基因组中3千万个碱基对的序列测定，这一技术能否成功在当时还未有定论。,生物信息学数据库,内容提纲,生物信息计算机基础知识简介分子生物信息数据库生物信息数据存储格式生物信息的检索和提交,生物信息计算机基础知识简介,Linux 系统 Bioperl MySQL DBMS DBS DM,Linux 系统,Linux 系统免费使用和自由传播的类UNIX操作系统。 1991，芬兰赫尔辛基大学 Linus Torvalds 命名为Linux

5、特点： 1. 开放性 2. 多用户 3. 多任务多任务运行时效率高于Windows系统,Bioperl,正式开发于1995年，开源项目，基于Perl语言开发，由OBF（Open Bioinformatics Foundation)支持。专门用于生物信息学、基因组学以及其他生命科学领域的工具和函数模块集，超过1000个模块。 www.bioperl.org,数据库管理系统(database management system, DBMS) 对数据库进行管理的系统软件，提供DB的建立、查询、更新以及各种数据控制功能。数据库系统（database system, DBS) 采用数据库技术的计

6、算机系统。DBS是计算机软件/硬件、数据资源和数据库管理员共同组成的系统。数据模型（data model) 数据库结构和语义的一种抽象描述。由数据的结构、数据操作和完整性约束三部分组成。,生物信息学数据库产生的动力,生物分子数据的高速增长有效的存储计算机技术迅速发展数据存贮技术的成熟互联网生物信息分析是现代生物学研究的基础及时的获取高效的利用分子生物学数据,（1）时间性新的数据可以及时在互联网获取（2）注释对每个序列有一致的、详细的说明信息（3）支撑数据相关的研究背景，原始数据。文献支持（4）数据质量数据库管理者对数据质量进行核查（5）集成性三种基本数据（核

7、酸、蛋白、蛋白结构）的集成。有效提高研究者的研究效率,生物信息数据库应满足的主要需求,现代生物信息数据库的特征（*）,（1）数据更新速度快，数据量呈指数增长趋势（2）数据库使用频率快速增长，重要性日益被科研工作者所认识（3）数据库的复杂程度不断增加（4）数据库网络化互联网上访问；公共数据库之间相互链接；集成数据库系统。（5）面向应用。如提供在线分析工具。（7）先进的计算机硬件和软件的配置,http:/www.ncbi.nlm.nih.gov/genbank/genbankstats.html,GenBank 碱基数每年增长幅度约为100% ！,分子生物数据库的分类,一级数据库概

8、念：数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释包含：基因组数据库、核酸序列数据库、蛋白一级结构序列数据库、生物大分子三维空间结构数据库（主要为蛋白质）,二级数据库概念：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。包含：种类繁多：真核生物启动子序列库 EPD ；功能模体(motif)数据库 PROSITE,数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。,一级数据库,基因组数据库,基因组数据库的主体是模式生物基因组数据库，此外还包括染色体，基因突变，遗传疾病，分类学，比较基因组，基因表

9、达和调控，放射杂交，基因图谱等各种数据库。,NCBI 基因组数据库 Genome http:/www.ncbi.nlm.nih.gov/sites/entrez?db=genome,Map view http:/www.ncbi.nlm.nih.gov/projects/mapview/,生物基因组计划信息,基因组数据库(GDB),创建： 1990 Johns Hopkins大学创建目标：构建关于人类基因组的百科全书，除了构建基因组图谱之外，开发了描述序列水平的基因组内容的方法：包括序列变异和其它对功能和表型的描述内容：人类基因组区域 ( 包括基因、克

10、隆、 amplimers PCR 标记、断点 breakpoints、细胞遗传标记 cytogenetic markers、易碎位点 fragile sites、EST 序列、综合区域 syndromic regions、contigs 和重复序列)；人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig 图谱和综合图谱等)；人类基因组内的变异(包括突变和多态性，加上等位基因频率数据)。,http:/www.gdb.org 国内镜像是：,EMBL-EBI和Sanger研究所共同开发的一个系统。 Ensembl产生并维护关于各种模式生物基因组的自

11、动注释。人类基因组、小鼠基因组、大鼠基因组、黑猩猩基因组等。 Ensembl试图跟踪这些基因组的序列片段，并将序列片段组装成单个长序列，进而分析这些经过组装的DNA序列，搜索其中的基因，发现生物学家或医学工作者感兴趣的序列。 Ensembl所用的基因预测程序为GenScan。单核苷酸多态性（SNP）、重复序列与其它序列高度相似（或同源）的序列。 Ensembl 数据库还提供疾病、细胞等方面的信息，并且提供数据搜索、数据下载、统计分析等服务。,综合基因组数据库(Ensembl Genome）,Ensembl (http:/www.ensembl.org/),模式生物基因组的数据库,酵母

12、,大肠杆菌,果蝇,线虫,老鼠,AceDB 线虫基因数据库,是数据库也是灵活和通用数据库管理系统 Sanger中心已将其用于线虫和人类基因的浏览和检索库内资源包括：限制性图谱、基因结构信息、质粒图谱、参考文献等。,秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫细胞数目一定：成虫细胞数目只有959个，其中包括302个神经元；有6条染色体，1998，长9.7Mb,序列数据库,主要核酸序列数据库: GenBank、EMBL、 DDBJ 主要蛋白质序列数据库： Swissprot, PIR,核酸序列数据库,美国国家生物技术信息中心的GenBank h

13、ttp:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html 欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de 日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,1979年开始建设，1982年正式运行美国国家生物信息中心负责维护 Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7,GenBank数据库,GenBank数据库的数据来源有三种：直接来源于测序工作者提交的序列与其它数据机构协作交换的数据美国专利局提供的专利数据,1980

14、年开始建设，1982年正式运行欧洲主要的核酸序列收集单位欧洲生物信息中心（EBI),德国海德堡站点负责维护,EMBL数据库,EMBL数据库的数据来源有三种：直接来源于测序工作者提交的序列（Sanger测序中心）与其它数据机构协作交换的数据欧洲专利局提供的专利数据,日本1984年开始建立，并于1987年正式服务。亚洲唯一的核酸序列数据库生物信息学中心和日本国家遗传研究所的DNA数据库（CIB-DDBJ),共同组建。,DDBJ数据库,DDBJ数据库的数据来源有二种： 90%直接来源于日本研究者提交的序列与其它数据机构协作交换的数据,在短短的约18年间，数据量增长了近十万倍,公共序列

15、数据库（Public Sequence Database）,1988 年3个数据库达成协议，组成合作联合体。它们每天交换信息，并对数据库 DNA 序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据（EMBL 负责欧洲， GenBank 负责美洲， DDBJ负责亚洲等），将所有信息汇总在一起，共同享有并向世界开放，故这 3 个数据库又被称为公共序列数据库,GenBank,DDBJ,EMBL,蛋白质序列数据库,重要蛋白质序列数据库： SWISSPROT(欧洲) PIR(美国),蛋白质序列数据库,SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在

16、EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。 PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。,二种蛋白质数据库种类和特点,SWISSPROT 蛋白数据库,1986创建瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护在EMBL和GenBank数据库上均建立了镜像站点; 数据库包括了从EMBL翻译而来的蛋白质序列这些序列经过检验和注释；数据记录包括两部分：序列注释：结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰数据存在滞后性,http:/cn.expasy.org/sprot,PIR 蛋白数据库,PIR (Protein information resource) 1. 由美国NCBI翻译自Gen

展开阅读全文

生物信息学生物信息数据库完美版课件

最新文档