生物信息学bioinformatics第讲生物信息学研究内容

资源描述

《生物信息学bioinformatics第讲生物信息学研究内容》由会员分享，可在线阅读，更多相关《生物信息学bioinformatics第讲生物信息学研究内容（56页珍藏版）》请在金锄头文库上搜索。

1、生物信息学 Bioinformatics 第2讲生物信息学研究内容,主讲教师：刘吉平 2004年3月,生物信息学,主要介绍的内容：什么是生物信息学？国内外生物信息学的研究历史和现状。生物信息学的研究内容和科学目标。分别解读生物分子的三大核心数据库：GenBank核酸序列数据库、SWISS-PORT 蛋白质序列数据库、 PDF生物大分子结构数据库。介绍国内外有关生物信息学的网站和网址。,生物信息学,在上找有关生物信息学的网站或网页,Biology,Protein,Phenotype,DNA (Genotype),基因结构,The 4 bases,c,N,N,C

2、,C,C,C,C,C,C,C,C,N,N,N,N,N,H,o,o,H,H,H,H,H,H,H,H,Adenine,Thymine,c,N,N,C,C,C,C,C,C,C,C,N,N,N,N,H,o,H,H,o,N,N,H,H,H,H,H,Guanine,Cytosine,A-T,G-C,Note: this is flat!,Uracil replaces T in RNA,Purine ring,Pyrimidine ring,三研究内容,生物信息学与计算生物学或生物计算有着密切的关系，但又不尽相同. 目前归入生物信息学研究领域的大致有以下七个方面：,Bioinfomatics七个方面研究

3、内容,建立和管理各种生物数据库生物信息数据库使用生物信息学中的数学模式和算法研究数据库接口和检索工具的研制 HGP的实施，对信息采集和处理提出的要求生物信息学最重要的任务，是从大量数据中提取新知识 DNA芯片和微阵列的发展,1 建立和管理各种生物数据库,各种生物数据库的建立和管理。如核酸序列数据库、蛋白质数据库、各种专业的数据库等。这是一切生物信息学工作的基础，通常要有计算机科学背景的专业人员与生物学家密切合作。,2、生物信息数据库使用,近些年来随着快速序列测定、基因重组、多维核磁共振等技术的应用，基因组与蛋白质的实验数据呈爆炸性趋势增长; 建立数据库再结合有关的分析软件使大规模数据

4、的贮存、处理和分析成为可能，并已发展成为包括基因组信息与蛋白质结构模拟在内的生物信息学研究的重要基础。,核酸序列数据库,Genbank，美国国家生物技术信息中心的数据库（ http:/ncbi.nhm.nlm.gov）。 EMBL，建立在欧洲分子生物实验室的数据库 (http:/www.embl-heidelberg.de)。 DDBJ，是DNA Data Bank of Japan的简称，又叫日本的DNA数据库银行（available at http:/www.nig.ac.jp )。,Genbank,美国国家生物技术信息中心的数据库原中山医科大学的网页有链接： http：/ 该数据库提供

5、Entrez检索工具、BLAST序列搜索、生物信息学学习等服务内容,其他重要数据库,真菌如酿酒酵母基因组数据库（SGD） http:/genome-www.stanford.edu/Saccharomyces/ 拟南芥数据库（AtDB）(http:/genome-www.stanford.edu/Arabidopsis/) 线虫综合数据库（ACEDB） ftp:/sanger.ac.uk(/pub/acedb) (自由下载,建立二次数据库) 在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man,OMIM) http:/www3.ncbi.nlm.ni

6、h.gov/omim/,其他重要生物数据库,鱼类的斑马鱼 http:/zfin.org/ 昆虫类的果蝇(Drosophila melanogaster, fruitfly) http:/www.fruitfly.org/ 脊椎动物如小鼠(Mus musculus) http:/www.ncbi.nih.gov/genome/guide/mouse/ 细菌如大肠杆菌(http:/www.genetics.wisc.edu/pub/sequence/) 原生动物如人类一种寄生性的原虫(Plasmodium falciparum):http:/PlasmoDB.org/,三维结构数据库,PDB（

7、Protein Data Bank , http:/ ）等。与蛋白质结构有关的数据库还有： SCOP（available at http:/ ）等。,80-99年Protein Data Bank http:/www.rcsb.org/pdb/index.html,Helix-turn-helix motif of protein binding to DNA 结合DNA的蛋白质螺旋结构基序,Motif数据库-PROSITE,PROSITE(http:/www.expasy.org/prosite/),蛋白质结构数据,生物信息数据库的主要服务,借助特定的算法模型提供同源性分析是目前各种生物信

8、息数据库的最重要内容之一。,分子生物学的中心法则,DNA,mRNA,结构,翻译,转录,复制,蛋白质/酶,cDNA,DNA,功能,反转录,相互作用,折叠,3、生物信息学中的数学模式和重要算法研究,迄今已有相当多的数学方法应用于生物信息学的研究。而且一种算法本身就是一门学问，例如：机器学习法人工神经网络分形理论密码学全息论高维分布的统计方法,生物信息学中的重要算法-聚类分析,生物信息学问题许多可归为聚类问题。聚类分析：聚类是宏观与微观生物学研究中最常用的一种数学方法，它的基本目的是将n个样本划分为m个类，从而使同类样本较为相似而不同类间样本差异较大。其中支撑矢量机算法可从网上学习：

9、 http:/www.kernel-machine.org/ 寻找转录因子的结合位点,生物信息学中的重要算法,遗传算法：遗传算法的提出，本身就是借鉴生物界中的适者生存、优胜劣汰的遗传机制所提出来的随机化搜索方法，其最主要的特点就是面向结构对象、不受求导和函数连续性的限定、具有内在的隐并行性和良好的全局寻优能力。,生物信息学中的重要算法 -遗传算法,过去20多年的发展，已使得遗传算法成为现代智能计算中的关键技术之一，并已应用于生物信息学的研究：基于蛋白质主链结构的侧链构象计算蛋白质折叠的算法模型与模拟图像匹配中的遗传算法结构图的同态研究,目前较流行的数学方法和算法（1）,神经网络（Neu

10、ral Networks） 1982年，神经网络首次被应用到生物学的研究中来，接着Stormo等人应用类似的算法在预测大肠杆菌体内的一些蛋白质翻译的起始部位取得了成功。 1988年，随着Qian and Sejnowski发表的一篇关于蛋白质二级结构预测的文章，神经网络的算法已成为蛋白质二级结构分析预测的主流算法。另外，神经网络在预测信号肽，研究遗传密码的结构和起源等方面也有较多应用。,目前较流行的数学方法和算法（2） Threading方法,Threading方法或称折叠类型的识别方法。基本思想是：预测的蛋白的折叠类型与某一已知结构的蛋白的折叠类型相同，这样蛋白质结构预测问题就转变为在已

11、知空间结构的蛋白质中，选取一种最有可能的折叠类型，从而大大减小预测蛋白质结构的难度。,4 数据库接口和检索工具的研制,数据库的内容来自万千生物学者的日积月累，最终又为生物学者们所用。但不能要求一般生物学工作者具有高深的计算机和网络知识，因此，必须发展查询数据库和向库里提供数据的方便接口。这是专业人员才能胜任的工作，通常在生物信息中心里进行。,5 HGP的实施，对信息采集和处理提出的要求,人类基因组计划(HGP)的实施，配合大规模的DNA自动测序，对信息的采集和处理提出了空前的要求。从各种图谱的分析，大量序列片段的拼接组装，寻找基因和预测结构与功能，到数据和研究结果的视像化，无不需要高效率的算法

12、和程序。因此，研究新算法、发展方便适用的程序，是生物信息学的日常任务。,与HGP相关研究的几个方面表现：,由于当前生物信息学发展的主要推动力来自HGP，所以生物信息学与HGP的关系就显得更为密切，其与HGP相关的研究主要表现在如下几个方面：,1）高度自动化的实验数据的获得、加工和整理,如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息，是生物学的一个重要课题。体现在各种自动化分子生物学仪器应用上，如DNA测序仪，PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息，并对其作简单分析，再将分析结果用于实验条件的控制，完成高度自动化的实验过程。,2）序列片段的拼接,目前DNA自

13、动测序仪每个反应只能测序500bp左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自动而高速地拼接序列的算法，不仅避免了亚克隆排序所需的大量繁琐的工作，还能使序列具有一定的冗余性（redundancy，即一定数量的重复）以保证序列中每个碱基的准确性。,3）基因区域的预测,在完成序列的拼接后，我们得到的是很长的DNA序列，甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因，下一步就是将基因区域从这些长序列中找出来。所谓基因区域的预测，一般是指预测DNA顺

14、序中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识，预测出可能的完整基因。,（4）基因或蛋白质功能预测,用实验手段证实一个预测的新基因后，下一步要做的就是寻找这个基因的功能。-即功能基因组学蛋白质功能预测分析，主要是分析目的蛋白质是否与具有功能信息的已知蛋白质相似。策略有二：同源序列分析功能区相关的保守序列特点分析。,（5）分子进化的研究,通过上述种种方法我们可以预测出一个新基因可能具有的功能。然而预测新基因只是生物信息学研究的一个方面，这门学科的

15、根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说，一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同，可以大大加深我们对生物进化的认识。这方面的研究已逐步形成一个称为比较基因组学（Comparative Genomics）的新学科。,Human genome shares 223 genes with bacteria-genes that do not exist in the worm, fly, or yeast. A reticulated tree, or net, which might more appropriately represent lifes history.,6 生物信息学最重要的任务，是从大量数据中提取新知识,生物信息学最重要的任务，是从海量数据中提取新知识。这首先是从DNA序列中识别编码蛋白质的基因，以及调控基因表达的各种信号。其次，从基因组编码序列翻译出的蛋白质序列的数目急剧增加，根本不可能用实验方法一一确定它们的结构和功能。从已经积累的数据和知识出发，预测蛋白质的结构和功能，成为常规的研究任务。,7 DNA芯片和微阵列的发展,DNA芯片和微阵列的发展，把一定组织或生物体内万千基因时空表达的研究提上日程研究基因表达过程中的聚群关系，从中提取调控网络

展开阅读全文

生物信息学bioinformatics第讲生物信息学研究内容

最新文档