生物信息学分子系统发育分析

上传人:101****457 文档编号:93686925 上传时间:2019-07-26 格式:PPT 页数:58 大小:1.24MB
返回 下载 相关 举报
生物信息学分子系统发育分析_第1页
第1页 / 共58页
生物信息学分子系统发育分析_第2页
第2页 / 共58页
生物信息学分子系统发育分析_第3页
第3页 / 共58页
生物信息学分子系统发育分析_第4页
第4页 / 共58页
生物信息学分子系统发育分析_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《生物信息学分子系统发育分析》由会员分享,可在线阅读,更多相关《生物信息学分子系统发育分析(58页珍藏版)》请在金锄头文库上搜索。

1、分子系统发育分析,毛理凯,2,本课目录,总括 多序列比对 构建系统树 系统发生软件,3,一、总括,4,系统发生学(phylogenetics),亦称系统学,种系发生学,种系发生系统学(phylogenetic systematics) 在希腊文中 phylon = tribe, race(种系) genesis = birth 研究生物群体(如:物种,种群)之间的进化关系,5,相关概念,phylogenetic taxonomy(系统发生分类学) 是系统学的一个分支 根据进化相关度对生物群体分类 phylogeny (=phylogenesis系统发生) 生物群体的产生和进化 分子系统学(mo

2、lecular phylogenetics) 将核酸,氨基酸序列作为进化特征,6,系统发生树(phylogenetic tree),也叫系统树,进化树(evolutionary tree),生命树(tree of life) 对物种之间的进化关系的一种描述,这些物种被认为有共同祖先,叶,节点,关系,时间,7,有根树和无根树,有根树(rooted tree) 有共同祖先 无根树(unrooted tree) 树空间(tree space) 从已知序列可以产生许多系统树 来自几何,8,无根树和有根树的关系(1),从一棵有根树总可以产生一棵无根树 而从无根树产生有根树需要额外的数据,9,无根树和有根

3、树的关系(2),一棵无根树可以产生多棵有根树,10,Willi Hennig (1913-1976),德国生物学家,被认为是系统发生学和分类学(cladistics; 也叫cladogram)的奠基人 据已知资料来看,他的观点并不是最早被阐述 属达尔文学派;类似的观点另一学派的Lamarck和Rosa也有阐述 可以认为是系统发生学的集大成者,11,历史上的系统树,海克尔(Ernst Haeckel)首次制成了当时所有已知生物的系统树 (1834-1919)著名的德国生物学家,哲学家,医生,教授,艺术家 创建了重演论(recapitulation theory) 命名了许多生物学术语(如:门,系

4、统发生,生态学,原生生物)和几千物种 出版了著名的Kunstformen der Natur (Artforms of Nature),12,可能是最早的系统树,C. Darwin,1837,13,特征选取的变迁,经典系统发生学 主要是比较大的物理或表型特征 如生物体的大小,颜色,牙齿个数,行为特征 缺点: 不易量化(连续), 难以选取合适特征 现代系统发生学 分子水平: 核酸或氨基酸序列 优点: 易量化(离散),易获取,适于自动化,更本质 例子: (现代人起源) 通过对线粒体DNA的研究,认为所有现代人都是一个非洲女性的后代(“夏娃”),14,系统发生学研究方法,目的 在树空间中寻找正确的系

5、统树 分析步骤 多(重)序列比对(multiple sequence alignment, MSA) 构建系统树 评价结果,15,三种构建系统树中使用的搜索算法,穷尽法 搜索整个空间(所有可能的树),然后根据评价标准选择一棵最优的树 分支约束方法 根据一定的约束条件将搜索空间限制在一定范围内 启发式或经验性方法(heuristic) 根据目前的搜索情况指导下一步的搜索方向 根据先验知识或一定的指导性规则压缩搜索空间,16,两类数据: 距离和离散特征,距离 描述序列之间的差别 (遗传距离) 一般用距离矩阵(distance matrix)表示 距离往往由序列比对产生(如错配的比例) 离散特征 二

6、态特征 (如: DNA序列上的某个位点是否剪切位点) 多态特征 (如: 某一位点可能的碱基有A,T,G,C),17,两大类构建系统树的算法,基于距离的构建方法 (distance-matrix methods) 邻近归并法 (或称邻接法,neighbor-joining) 非加权组平均法 (UPGMA) Fitch-Margoliash法 最小进化方法 基于离散特征的构建方法 最大简约法 (MP) 进化简约法 (EP) 最大似然法 (ML) 相容性方法,18,注意: 系统树的限制,有人认为生物的系统关系不一定是树状的 系统树不一定代表进化历史 有很多干扰分析的因素 噪音(noisy) 水平基因

7、转移(horizontal gene transfer;网状) 杂交,重组等 (网状) 用不同基因或蛋白产生的树往往不同 已经灭绝的物种只能作为叶节点,19,二、多序列比对,20,例子,多物种核糖体Rplp0蛋白比对,ClustalW生成(颜色表示氨基酸保守性),21,多序列比对方法,动态规划(dynamic programming) 慢,耗内存 改进: 使用“sum of pairs”目标函数 渐进法(progressive method;或称分级法hierarchical,建树法tree) 迭代法(iterative method) 基序法(motif finding;或称轮廓分析法pro

8、file analysis) 来自计算科学的算法 HMM, GA, SA 星形比对,树形比对,22,动态规划法,是两两比对所用动态规划方法的直接扩展 步骤 用两两比对的方法比对所有的序列对 建立n维矩阵(n为序列个数) 产生多序列比对 优点 理论上适用于任意多个序列 保证能得到较好结果 缺点 耗费大量时间,内存 实际上很少用于多于3个序列的比对,23,逐对加和法(sum of pairs, SP),步骤 进行所有两两比对,并给每个比对打分 将所有的得分相加 找到最优多序列比对,使得总得分(目标函数objective function)最高 例子 对于这个蛋白多序列(3个)比对,求总分 已知得分

9、(K,R)=3,间隔罚分为-12,K R,(-12)+(-12)+3=-21,24,Clustal,可能是使用最广的多序列比对软件 算法 用Needleman-Wunsch全局算法做所有两两比对 得到距离矩阵,从而产生引导树 (guide tree; 利用UPGMA,见后; 得到dnd文件) 渐进式比对 (先处理距离最近的2个序列,再加次最近的; 得到aln文件) 两个主要形式 ClustalW (命令行) ClustalX (图形用户界面GUI) 适用于Windows,Mac OS,Unix/Linux,25,Clustal的输入输出文件格式,输出 PHYLIP Clustal NBRF/P

10、IR GCG/MSF GDE NEXUS,输入 FASTA Clustal NBRF/PIR GCC/MSF GDE EMBL/Swissprot GCG9 RSF,26,ClustalW比对多序列(1) 主页,http:/www.ebi.ac.uk/clustalw/,这里将输入比对的多个序列,27,ClustalW (2) 获取FASTA格式的序列,拷贝这些部分,选择格式,拷贝这些部分,拷贝这些部分,或将这里改为Text,更易拷贝,28,ClustalW (3) 将多个序列输入,将多个序列粘贴到此,点此比对,29,ClustalW (4) 比对结果(1) 基本信息,引导树文件,多序列比对文

11、件,30,ClustalW (5) 比对结果(2) 比对图,31,ClustalW (6) 比对结果(3)引导树,32,MSA数据库,Pfam (profile HMM library) SMART CDD (HMM; NCBI DART; =Pfam+SMART) BLOCKS (HMM) PRINTS PROSITE PopSet DOMO (Gapped MSA) PRODOM (PSI-BLAST) MetaFAM INTERPRO iProClass,33,MSA软件(维基的列表),34,其他MSA软件,Opal (Bioinformatics 23(13);2007/7/1;免费)

12、 aligning alignments Murlet (Bioinformatics 23(13);2007/7/1;开源) for RNA SQUINT (Bioinformatics 23(12);2007/6/1) Probalign (Bioinformatics 22(22) PileUp (全局渐进) PIMA (局部渐进) BaliBase (比较MSA算法),AMAS CINEMA HMMT Match-Box Musca,35,MSA算法比较,全局(global)算法往往优于局部(local)算法 迭代(iterative)算法(如PRRP, SAGA)往往优于渐进式(pr

13、ogressive)算法(如Clustal) (a recent review) Recent Evolutions of Multiple Sequence Alignment Algorithms. Cdric Notredame. PLoS Computational Biology. 3(8). 2007,36,三、构建系统树,37,非加权分组平均法,UPGMA (Unweighted Pair Group Method with Arithmetic mean) 算法(基于距离) 使每个物种自成一类 执行下列循环 寻找最小距离的两个类,建立一个新的聚类 连接这两个类形成新节点 在距离

14、矩阵中删除这两个类相应的行和列,为新类加入新的行和列(非加权) 重复循环,直到仅剩一个类 思想跟连锁聚类方法、渐进法类似 是一种改进了的邻近归并法,38,最大简约法(1),Maximum Parsimony (MP) 思想:最好的树应该用最少的进化上的变化来解释数据 基于离散特征的方法 枝长来自该枝进化上变化的数目 有时会存在多棵最大简约树,39,最大简约法(2),计算量太大 考虑部分位点 信息位点 (informative sites) 若在某个位点上至少有两个等位基因,而每个等位基因至少存在于两条序列,该位点称为信息位点,序列 1 2 3 4 5 6 7 8 9 1 A A G A G T

15、 G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G * * *,位点,40,最大简约法(3) “长枝吸引”,Long Branch Attraction (LBA) 若两个物种的变异率较大,导致: 长枝 可能存在共同变异 结果:若这些变异多于那些能区别它们共同祖先的变异,MP将产生错误的树,41,评价结果,问题 整棵树和它的组成部分(分支)的置信度是多少? 这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少? 方法 自举检验 (bootstrap) 参数检验,42,全基因组的系统发生分析,基于多棵系统

16、发生树的方法 基于基因内容的方法 基于蛋白质折叠结构的方法 基于基因次序的方法 基于连接的直向同源蛋白的方法 基于代谢途径(pathway)的方法,43,四、系统发生软件,44,Joe Felsensteins list of Phylogeny Programs (最全的列表),http:/evolution.gs.washington.edu/phylip/software.html,45,JFs list (简介;包含309种软件),三种分类依据 软件所使用的方法 软件使用的系统 软件所分析的数据 其他列表 最近加入的软件 最近更新的软件 以前列出但已经不再发行的软件 等待加入的软件 不被列出的软件 其他系统发生软件的列表,46,JFs list (所有软件按方法分类),General-purpose packages 一般目的 11 Parsimony programs 简约法 37 Distance matrix methods 距离矩阵 65 Compu

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号