生物信息学简明教程

上传人:飞*** 文档编号:51732065 上传时间:2018-08-16 格式:PDF 页数:58 大小:211.54KB
返回 下载 相关 举报
生物信息学简明教程_第1页
第1页 / 共58页
生物信息学简明教程_第2页
第2页 / 共58页
生物信息学简明教程_第3页
第3页 / 共58页
生物信息学简明教程_第4页
第4页 / 共58页
生物信息学简明教程_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《生物信息学简明教程》由会员分享,可在线阅读,更多相关《生物信息学简明教程(58页珍藏版)》请在金锄头文库上搜索。

1、生物信息学简明教程1 第一章概论.3第二章生物信息数据库与查询 52.1 基因和基因组数据库 . 5 1. Genbank 5 2. EMBL 核酸序列数据库 . 7 3. DDBJ数据库 7 4. GDB 7 2.2 蛋白质数据库 . 8 1. PIR和 PSD . 8 2. SWISS-PROT . 8 3. PROSITE 9 4. PDB . 9 5. SCOP. 9 6. COG 9 2.3 功能数据库 . 10 1. KEGG 10 2. DIP 10 3. ASDB 10 4. TRRD 11 5. TRANSFAC 11 2.4 其它数据库资源 . 11 1. DBCat 11

2、 2. PubMed . 12 第三章序列比对和数据库搜索 .123.1 序列两两比对 . 12 3.2 多序列比对 . 17 第四章核酸与蛋白质结构和功能的预测分析 174.1 针对核酸序列的预测方法 . 18 1. 重复序列分析 . 18 2. 数据库搜索 . 19 3. 编码区统计特性分析 . 19 4. 启动子分析 . 19 5. 内含子 /外显子剪接位点 . 19 6. 翻译起始位点 . 20 7. 翻译终止信号 . 20 8. 其它综合基因预测工具 . 20 9. tRNA 基因识别 20 4.2 针对蛋白质的预测方法 . 21 1. 从氨基酸组成辨识蛋白质. 21 2. 预测蛋白

3、质的物理性质 . 21 3. 蛋白质二级结构预测 . 22 2 4. 其它特殊局部结构 . 23 5. 蛋白质的三维结构 . 23 第五章分子进化 .245.1 分子进化钟与中性理论 . 24 5.2 进化树 . 26 5.3结构进化树 . 29 1刚体结构叠合比较 . 30 2多特征结构比较 . 30 3相关软件 . 30 第六章基因组序列信息分析.316.1 基因组序列分析工具 . 32 1. Wisconsin软件包( GCG) 32 2. ACEDB . 36 3其它工具 . 36 6.2人类和鼠类公共物理图谱数据库的使用. 36 1物理图谱的类型 . 36 2.大型公用数据库中的基因

4、组图谱 38 3鼠类图谱来源 . 46 6.3 全基因组比较 . 47 6.4 SNP的发现 48 第七章功能基因组相关信息分析487.1 大规模基因表达谱分析 . 48 1实验室信息管理系统 . 49 2基因表达公共数据库 . 50 3大规模基因表达谱数据分析方法. 52 7.2 基因组水平蛋白质功能综合预测. 55 3 第一章概论当前人类基因组研究已进入一个重要时期,2000 年将获得人类基因组的全部 序列,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面进入 信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。到1999 年 12 月 15 日发布的第 115 版为止,

5、 GenBank中的 DNA碱基数目已达 46 亿 5 千万, DNA 序 列数目达到535 万;其中 EST序列超过 339 万条; UniGene 的数目已达到7 万 个;已有 25 个模式生物的完整基因组被测序完成,另外的70 个模式生物基因组正 在测序当中;到2000 年 1 月 28 日为止,人类基因组已有16% 的序列完成测定,另 外 37.7%的序列已经初步完成;同时功能基因组和蛋白质组的大量数据已开始涌 现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成 果的决定性步骤。生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科 学以及计算机科学

6、等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常 丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配 和解释。基因组信息学的关键是“ 读懂 ” 基因组的核苷酸顺序,即全部基因在染色体 上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空 间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调 控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类 疾病的诊断、治疗内在规律。它的研究目标 是揭示 “ 基因组信息结构的复杂性及遗 传语言的根本规律 “ ,解释生命的遗传语言。生物信息学已成为整个生命科学发展 的重

7、要组成部分,成为生命科学研究的前沿。近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信 息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。 弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。目前在数据库中已经有越来越多的模式生物全基因组序列,第一个人类染色体 全序列 - 第 22 号染色体的测序工作已经在1999 年 12 月完成,整个人类基因组计 划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供了 大量的第一手材料,同时也为基因组研究取得突破性进展提供了可能。人类对基因 的认识,将从以往的对单个基因的了解,上升

8、到在整个基因组水平上考察基因的组 织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致 包括以下几个方面:1. 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物 信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物 信息的在线服务;生物信息可视化和专家系统。4 2. 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模并行计算发现 新基因和新SNPs 以及各种功能位点;基因组中非编码区的信息结构分析, 提出

9、理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的 信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的 演化、基因组空间结构与DNA 折叠的关系以及基因组信息与生物进化关系 等生物学的重大问题。 3. 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件 研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结 构的预测和模拟,以及蛋白质功能预测的研究。 4. 生物大分子结构模拟和药物设计。包括RNA( 核糖核酸 )的结构模拟和反义 RNA 的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复 合蛋白质以及连接肽的设计;生物活性分子的

10、电子结构计算和设计;纳米生 物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物 设计;基于 DNA 结构的药物设计等。 5. 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序 需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具; 改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方 法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较 方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂 系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与 应用密码学方法以及其他算法和分析技术,用于解释基因

11、组的信息,探索 DNA 序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信 息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物 设计的新方法与新技术。 6. 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息 检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁 育相关的数据库以及与大分子设计和药物设计相关的数据库。利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法,可 能产生相同或不同的结果。因此,必要弄清楚某种方法的基本原理,而不是仅把算 法当作一个 “ 黑箱” 。因为一种方法可能对特定实例很合适,而对另一个则完全不 对

12、。因此,本章采用原理和实用方法并重的原则进行介绍。因生物信息学覆盖面 广,限于篇幅,本章并未将生物信息学的全部内容详细加以讲述,仅针对与目前分 子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍,文中 涉及问题的更详细信息可参考相关网站。生物信息学是新兴发展中的学科,该领域 的研究日新月异,书中的描述可能滞后于生物信息学的最新发展为在所难免,作者 期望本章的介绍对读者的研究工作有所助益。5 第二章生物信息数据库与查询近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。 它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据 处理的服务。随着因特

13、网的普及,这些数据库大多可以通过网络来访问,或者通过 网络下载。一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据 库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级 数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是 对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据 库、EMBL 核酸库和 DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR 等;蛋白质 结构库有 PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和 需要而各具特色,如人类基因组图谱库GDB 、转录因子和结合位点

14、库TRANSFAC、蛋 白质结构家族分类库SCOP 等等。下面将顺序简要介绍一些著名和有特色的生物信息数据库。2.1 基因和基因组数据库1. Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献 著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的 数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测 序数据;以及与其它数据机构协作交换数据而来。Genbank 每天都会与欧洲分子生 物学实验室 (EMBL)的数据库,和日本的DNA 数据库 (DDBJ)交换数据,使这三个数据 库的数据同步。到1999 年 8

15、月,Genbank中收集的序列数量达到460 万条, 34 亿 个碱基,而且数据增长的速度还在不断加快。Genbank 的数据可以从NCBI 的 FTP 服务器上免费下载完整的库,或下载积累的新数据。NCBI 还提供广泛的数据查 询、序列相似性搜索以及其它分析服务,用户可以从NCBI 的主页上找到这些服 务。Genbank库里的数据按来源于约55,000 个物种,其中 56% 是人类的基因组序列 ( 所有序列中的 34% 是人类的 EST序列) 。每条 Genbank数据记录包含了对序列的简 要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。 序列特征表里包含对序列生物学

16、特征注释如:编码区、转录单元、重复区域、突变 位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵 长类、啮齿类,以及EST 数据、基因组测序数据、大规模基因组序列数据等16 类,其中 EST数据等又被各自分成若干个文件。6 (1)Genbank 数据检索NCBI的数据库检索查询系统是Entrez 。Entrez 是基于 Web界面的综合生物信 息数据库检索系统。利用Entrez 系统,用户不仅可以方便地检索Genbank的核酸 数据,还可以检索来自Genbank 和其它数据库的蛋白质序列数据、基因组图谱数 据、来自分子模型数据库(MMDB) 的蛋白质三维结构数据、种群序列数据集、以及由 PubMed 获得 Medline 的文献数据。Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。 用户可以利用Entrez界面上提供的限制条件(Limits)、索引 (Index) 、检索历史 (Hi

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号