生物信息学生物信息数据库完美版课件

上传人:我*** 文档编号:144703842 上传时间:2020-09-13 格式:PPT 页数:178 大小:7.06MB
返回 下载 相关 举报
生物信息学生物信息数据库完美版课件_第1页
第1页 / 共178页
生物信息学生物信息数据库完美版课件_第2页
第2页 / 共178页
生物信息学生物信息数据库完美版课件_第3页
第3页 / 共178页
生物信息学生物信息数据库完美版课件_第4页
第4页 / 共178页
生物信息学生物信息数据库完美版课件_第5页
第5页 / 共178页
点击查看更多>>
资源描述

《生物信息学生物信息数据库完美版课件》由会员分享,可在线阅读,更多相关《生物信息学生物信息数据库完美版课件(178页珍藏版)》请在金锄头文库上搜索。

1、Bioinformatics,生物信息学,刘 红,复习内容第一章要点,生物信息学(Bioinformatics): 生物信息学是一门交叉学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应用数学、计算机科学和生物学的各种工具 ,来阐明和理解大量数据中包含的生物学意义。 人类基因组计划(human genome project,HGP) 规模模宏大的科学计划,其旨在测定组成人类染色体(指单倍体)中所包含的30亿个核苷酸序列的碱基组成,从而绘制下人类基因组图谱,并且辨识并呈现其上的所有基因及其序列,进而破译人类遗传信息。人类基因组计划是人类为了解自身的奥秘所迈出的重

2、要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。,Sanger 测序法又称 双脱氧末端终止法。 Sanger法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。 Sanger法测序的原理就是,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增,并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)使之终止。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止

3、,终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几个至千以上个,相差一个碱基一系列片断。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。,鸟枪法序列测定(Shotgun sequencing) 是一种广泛使用的为长DNA测序的方法,比传统的定序法快速,但精确度较差。曾经使用于塞雷拉基因组(Celera Genomics)公司所主持的人类基因组计划。 原理:将基因组打断为数百万个DNA片断,然后用一定的算法将片断的序列信息重新整合在一起,从而

4、得到整个基因组序列。为了提高这一方法的效率,1980年代,测序和片断信息整合达到了自动化。这一方法虽然已被用于序列长达6百万个碱基对的细菌基因组测序,但对于人类基因组中3千万个碱基对的序列测定,这一技术能否成功在当时还未有定论。,生物信息学数据库,内容提纲,生物信息计算机基础知识简介 分子生物信息数据库 生物信息数据存储格式 生物信息的检索和提交,生物信息计算机基础知识简介,Linux 系统 Bioperl MySQL DBMS DBS DM,Linux 系统,Linux 系统 免费使用和自由传播的类UNIX操作系统。 1991,芬兰赫尔辛基大学 Linus Torvalds 命名为Linux

5、 特点: 1. 开放性 2. 多用户 3. 多任务 多任务运行时效率高于Windows系统,Bioperl,正式开发于1995年,开源项目,基于Perl语言开发,由OBF(Open Bioinformatics Foundation)支持。 专门用于生物信息学、基因组学以及其他生命科学领域的工具和函数模块集,超过1000个模块。 www.bioperl.org,数据库管理系统(database management system, DBMS) 对数据库进行管理的系统软件,提供DB的建立、查询、更新以及各种数据控制功能。 数据库系统(database system, DBS) 采用数据库技术的计

6、算机系统。DBS是计算机软件/硬件、数据资源和数据库管理员共同组成的系统。 数据模型(data model) 数据库结构和语义的一种抽象描述。由数据的结构、数据操作和完整性约束三部分组成。,生物信息学数据库产生的动力,生物分子数据的高速增长 有效的存储 计算机技术迅速发展 数据存贮技术的成熟 互联网 生物信息分析是现代生物学研究的基础 及时的获取 高效的利用 分子生物学数据,(1)时间性 新的数据可以及时在互联网获取 (2)注释 对每个序列有一致的、详细的说明信息 (3)支撑数据 相关的研究背景,原始数据。文献支持 (4)数据质量 数据库管理者对数据质量进行核查 (5)集成性 三种基本数据(核

7、酸、蛋白、蛋白结构)的集成。 有效提高研究者的研究效率,生物信息数据库应满足的主要需求,现代生物信息数据库的特征(*),(1)数据更新速度快,数据量呈指数增长趋势 (2)数据库使用频率快速增长,重要性日益被科研工作者所认识 (3)数据库的复杂程度不断增加 (4)数据库网络化 互联网上访问;公共数据库之间相互链接;集成数据库系统。 (5)面向应用。如提供在线分析工具。 (7)先进的计算机硬件和软件的配置,http:/www.ncbi.nlm.nih.gov/genbank/genbankstats.html,GenBank 碱基数每年增长幅度约为100% !,分子生物数据库的分类,一级数据库 概

8、念:数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 包含: 基因组数据库、 核酸序列数据库、 蛋白一级结构序列数据库、 生物大分子三维空间结构数据库(主要为蛋白质),二级数据库 概念:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 包含:种类繁多:真核生物启动子序列库 EPD ;功能模体(motif)数据库 PROSITE,数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。,一级数据库,基因组数据库,基因组数据库的主体是模式生物基因组数据库,此外还包括染色体,基因突变,遗传疾病,分类学,比较基因组,基因表

9、达和调控,放射杂交,基因图谱等各种数据库。,NCBI 基因组数据库 Genome http:/www.ncbi.nlm.nih.gov/sites/entrez?db=genome,Map view http:/www.ncbi.nlm.nih.gov/projects/mapview/,生物基因组计划信息,基因组数据库(GDB),创建: 1990 Johns Hopkins大学创建 目标: 构建关于人类基因组的百科全书,除了构建基因组图谱之外, 开发了描述 序列水平的基因组内容的方法:包括序列变异和其 它对功能 和表型 的描述 内容: 人 类 基 因 组 区 域 ( 包 括 基 因 、 克

10、隆 、 amplimers PCR 标 记 、 断 点 breakpoints、细胞遗传标记 cytogenetic markers、易碎位点 fragile sites、EST 序列、 综合区域 syndromic regions、contigs 和重复序列);人类基因组图谱(包括细胞遗传 图谱、连接图谱、放射性杂交图谱、content contig 图谱和综合图谱等);人类基因 组内的变异(包括突变和多态性,加上等位基因频率数据)。,http:/www.gdb.org 国内镜像是:,EMBL-EBI和Sanger研究所共同开发的一个系统。 Ensembl产生并维护关于各种模式生物基因组的自

11、动注释。 人类基因组、小鼠基因组、大鼠基因组、黑猩猩基因组等。 Ensembl试图跟踪这些基因组的序列片段,并将序列片段组装成单个长序列, 进而分析这些经过组装的DNA序列,搜索其中的基因,发现生物学家或医学 工作者感兴趣的序列。 Ensembl所用的基因预测程序为GenScan。 单核苷酸多态性(SNP)、重复序列与其它序列高度相似(或同源)的序列。 Ensembl 数据库还提供疾病、细胞等方面的信息,并且提供数据搜索、数据下载、 统计分析等服务。,综合基因组数据库(Ensembl Genome),Ensembl (http:/www.ensembl.org/),模式生物基因组的数据库,酵母

12、,大肠杆菌,果蝇,线虫,老鼠,AceDB 线虫基因数据库,是数据库 也是灵活和通用数据库管理系统 Sanger中心已将其 用于线虫和人类基因的浏览和检索 库内资源包括: 限制性图谱、基因结构信息、质粒图谱、参考文献等。,秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫 细胞数目一定:成虫细胞数目只有959个, 其中包括302个神经元; 有6条染色体,1998,长9.7Mb,序列数据库,主要核酸序列数据库: GenBank、EMBL、 DDBJ 主要蛋白质序列数据库: Swissprot, PIR,核酸序列数据库,美国国家生物技术信息中心的GenBank h

13、ttp:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html 欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de 日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,1979年开始建设,1982年正式运行 美国国家生物信息中心负责维护 Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7,GenBank数据库,GenBank数据库的数据来源有三种: 直接来源于测序工作者提交的序列 与其它数据机构协作交换的数据 美国专利局提供的专利数据,1980

14、年开始建设,1982年正式运行 欧洲主要的核酸序列收集单位 欧洲生物信息中心(EBI),德国海德堡站点负责维护,EMBL数据库,EMBL数据库的数据来源有三种: 直接来源于测序工作者提交的序列(Sanger测序中心) 与其它数据机构协作交换的数据 欧洲专利局提供的专利数据,日本1984年开始建立,并于1987年正式服务。 亚洲唯一的核酸序列数据库 生物信息学中心和日本国家遗传研究所的DNA数据库(CIB-DDBJ),共同组建。,DDBJ数据库,DDBJ数据库的数据来源有二种: 90%直接来源于日本研究者提交的序列 与其它数据机构协作交换的数据,在短短的约18年间,数据量增长了近十万倍,公共序列

15、数据库(Public Sequence Database),1988 年3个数据库达成协议,组成合作联合体。它们每天交换信息,并对数据库 DNA 序列记录的统一标准达成一致。 每个机构负责收集来自不同地理分布的数据 (EMBL 负责欧洲, GenBank 负责美洲, DDBJ负责亚洲等) ,将所有信息汇总在一起,共同享有并向世界开放,故这 3 个数据库又被称为公共序列数据库,GenBank,DDBJ,EMBL,蛋白质序列数据库,重要蛋白质序列数据库: SWISSPROT(欧洲) PIR(美国),蛋白质序列数据库,SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在

16、EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。 PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。,二种蛋白质数据库种类和特点,SWISSPROT 蛋白数据库,1986创建 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护 在EMBL和GenBank数据库上均建立了镜像站点; 数据库包括了从EMBL翻译而来的蛋白质序列 这些序列经过 检验和注释; 数据记录包括两部分: 序列 注释: 结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰 数据存在滞后性,http:/cn.expasy.org/sprot,PIR 蛋白数据库,PIR (Protein information resource) 1. 由美国NCBI翻译自Gen

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号