基因组序列分析实例

资源描述

《基因组序列分析实例》由会员分享，可在线阅读，更多相关《基因组序列分析实例（40页珍藏版）》请在金锄头文库上搜索。

1、蛋白组学课件,吴晓龙,讲述内容,BioEdit,一、BioEdit,BioEdit是一个生物序列编辑器，可在Windows 中运行，它的基本功能是提供蛋白质、核酸序列的编辑、排列、处理和分析。BioEdit并不打算成为一个强序列分析程序，但是打算成为一个序列分析的友好用户界面，并连接其他在局域网和万维网上的更多的序列分析程序。,BioEdit功能,BioEdit的主要目的是，为那些不愿意被迫详细了解一个程序的使用方法的生物学家，提供一个有用的工具。BioEdit是直观的、菜单式的并有大量的图示，提供用户一个外部分析程序的图形界面。主要功能是提供明显的、容易使用的菜单选项。,已知问题和局限性,B

2、ioEdit想要成为一个处理个别简单序列的多用途界面，带有适合于自动化多重排列选项的综合序列排列，最佳成对排列，并且着重于使手工排列更容。易随着时间的推移增加了一些附件的功能（质粒绘图、限制性内切酶图谱、 ABI和SCF 查阅、RNA比较分析和其他功能中的图式注解）。然而，常用的查找功能、特殊化分析，如蛋白质二级结构三级结构的预测、RNA结构的热动力学预测、排列性质的统计学分析序、列模式的概率或神经网络模型、排列和结构的预测，不包括在这个程序之内。,功能一、序列编辑和处理,打开序列,打开单序列打开多序列新建序列,BioEdit排列文档窗口,如果你不喜欢现在的样子不要当心，字体、大小、背景颜色

3、、残基颜色和标题窗口宽度都可以改变。鼠标箭头右下方的黄色条幅显示的是当前序列的绝对位置。这同样显示在控制栏的Position 标题。选择关闭黄色条幅就进入View-show sequence position by mouse arrow。,手工排序功能,在编辑窗口有三个可应用的基本模式： Select / Slide mode 选择/调整模式 Edit mode 编辑模式：插入和改写 Grab & Drag mode(抓取/拖动模式): 从屏幕上动态的抓取和拖动单个残基选项可在Sequence-Edit Mode 中找到,工具条 / 加速按钮,在编辑盒中编辑,为一个序列开启一个编辑窗口,双

4、击序列的标题,或选中序列并从 Sequence 菜单中选择 Edit Sequence。为了使改变生效必须按下Apply 或Apply and Close 按钮。取消将不会改变序列。在一个序列第一次编辑时，将会出现下面的窗口。,注意,如果一个序列是未知的，蛋白质色彩表通常是彩色的，就像一个已经经过类似性底纹处理的蛋白质序列。可以保留一个关于排列的每一行的屏幕信息的注解，但是不能计算类似性和同一性，不服从标准的处理，如翻译、互补、自动排列等。GenBank信息将只能用GenBank或BioEdit格式保存。GenBank信息包括功能部件领域是内部独立于用户定义的图示注解,Edit菜单,选择序

5、列: 单序列连续的多序列间隔的多序列Ctrl+点击移动序列：想移动一个序列(或一些序列) ，选中它(用鼠标左键点击它的标题使其变亮) ，把它拖放到你想要的位置。增加序列：,Cut 、 Copy、 Paste,Copy Edit 菜单选择Copy或Copy Sequence(s)Cut Edit 菜单选择Cut 或Cut Sequence(s),Sequence菜单,1.Basic Manipulations / Sequence Menu 基本处理、序列菜单 2.Masks 屏蔽：在BioEdit中Masks （屏蔽）在这一点上有一点薄弱，主要用于RNA比较分析功能。关于在BioE

6、dit中如果使用屏蔽看Masks。3.Gaps 注意: 和. 表示开启的缺口, -表示锁定的缺口.,4.New Sequence 新序列: 创造新序列,开启一个单一序列编辑器.5. Edit Sequence 编辑序列: 在单一序列编辑器中开启首次选择的序列(或双击序列名)。6. Select Positions 选择位置:开启一个对话框，允许在所有选中的序列中选择具体位置.7、Open at cursor position 在光标处打开：如果文档处于编辑状态，光标同时出现，这个选项将在单一序列编辑器中打开光标当前所在位置的序列。8、Rename 重命名：根据子菜单选项重命名序列

7、标题。,Pairwise alignment,二、质粒绘图,Plasmid drawing with BioEdit,BioEdit提供简单质粒绘图的工具，以及快速简易注释。使用BioEdit质粒绘图功能，序列可以通过自动的位置标记，自动修改成环形质粒。,一个合格质粒的组成要素,复制起始位点Ori，即控制复制起始的位点。原核生物DNA分子中只有一个复制起始点。而真核生物DNA分子有多个复制起始位点。抗生素抗性基因：可以便于加以检测，如Amp+ ，Kan+多克隆位点：MCS克隆携带外源基因片段P/E：启动子/增强子Terms：终止信号加poly（A）信号：可以起到稳定mRNA作用,如何阅读质粒图

8、谱,第一步：首先看Ori的位置，了解质粒的类型（原核/真核/穿梭质粒）Ori的箭头指复制方向，其他元件标注的箭头多指转录方向（正向）。第二步：再看筛选标记，如抗性，决定使用什么筛选标（1）Ampr：水解-内酰胺环，解除氨苄的毒性。（2）tetr ：可以阻止四环素进入细胞。（3）camr：生成氯霉素羟乙酰基衍生物，使之失去毒性。（4）neor（kanr）：氨基糖苷磷酸转移酶，使G418（卡那霉素衍生物）失活。（5）hygr：使潮霉素失活。第三步：看多克隆位点（MCS）。它具有多个限制酶的单一切点，便于外源基因的插入。如果在这些位点外有外源基因的插入，会导致某种标志基因的失活，而便于筛

9、选。决定能不能放目的基因以及如何放置目的基因。第四步：再看外源DNA插入片段大小。质粒一般只能容纳小于10Kb的外源DNA片段。一般来说，外源DNA片段越长，越难插入，越不稳定，转化效率越低。第五步：是否含有表达系统元件，即启动子核糖体结合位点克隆位点转录终止信号。这是用来区别克隆载体与表达载体。克隆载体中加入一些与表达调控有关的元件即成为表达载体。选用那种载体，还是要以实验目的为准绳。,三、进化树,Molecular Phylogenetic Tree,定义：在研究生物进化和系统分类中，常用一种类似树状分支的图形来概括各种生物之间的亲缘关系，这种树状分支图形叫系统发育树。分类：有根树（roo

10、ted tree）、无根树（unrooted tree）。有根树反映树上物种或基因的时间顺序，而无根树反映分类单元之间的距离不涉及谁是谁的祖先的问题。,DNA序列研究进化关系的两大步骤,1、给据研究对象与目的选择合适的基因或DNA 区域，目标DNA测序。近缘物种：选进化速率较快的区。mtDNA. 远源物种：选进化速率较慢的区。rRNA. 如果选择不合适的分子标记，往往会得出错误的结论2、DNA同源比对，采取一定的系统重建与方法，确定进化树。,建树步骤,对物种序列进行系统发育分析的四个主要的步骤： 1、比对 2、建立取代模型 3、建立进化树 4、进化树的评估距离矩阵（distancematr

11、ix）：是在计算得到的距离数据的基础上获得的，距离的计算总体上是要依据一定的遗传模型。进化树的重建质量依赖于距离估算的准确性。,建树的方法及甄选,系统发育分析的建树方法都需要设定一个进化模型。树的标准在一定程度上依赖比对和取代模型。重建系统树的方法有很多，不同的方法在不同的情况下应用所得的结果存在差异。因此，了解各种方法的优缺点并根据自己科研的需要选择合适的建树方法很重要。,目前建树的主要方法,邻接法（neighbor-joining method，NJ）：是基于最小进化原理经常被使用的一种算法，他不检查所有的拓扑结构，能同时给出拓扑结构和分支长度。计算机模拟表明它是最有效的基于距离数据重建系

12、统树的方法之一。优点：重建的树相对准确，假设少，计算速度快，只得到一棵树。缺点：将序列上的所有点同等对待，且所分析序列的进化距离不能太大。总结：NJ法适合用于进化距离不大，信息位点少的短序列。如近源物种序列分析。,最大简约法（maximum parsimony method，MP）：对某一个可能的树，首先对每个位点祖先序列的核苷酸组成做出推断，然后统计每个位点，用来阐明差异的核苷酸最小替换数目。优点：MP发对于分析某些特殊的分子数据（如插入、缺失）有用。分析的序列上没有回复突变或平行突变，且被检验的序列位点数很大时，MP 能获得正确的（真实）的系统树。缺点：MP法推导的树不是唯一的，在

13、序列分析上存在较多的回复突变或平行突变，而被检验的序列位点数有较少的时候，MP可能会出现错误。总结：MP法适用于序列残基差别小，具有近似突变率，包含信息位点比较多的长序列。通常用于近源物种序列分析。,最大似然法（maximum likelihood method，ML）：其原理是考虑到每个位点，出现残基的似然值，将每个位置所有可能出现的残基替换概率进行累加，产生特定位点的似然值。ML法对所有可能的系统发育树都计算似然函数，似然函数值最大的那棵树为最可能的发育树。优点：ML法推断系统树时，要先确定序列进化模型。进化模型选择合理的情况下，ML法是与进化事实吻合最好的建树方法。缺点：计算强度非常大，

14、极为耗时。总结：若有合适的分子模型可供选择，ML法建树获得的结果较好。,注意,建树方法很多，各有优缺点，要根据自己的研究需要联合使用不同的建树方法以获得最佳分析结果。序列相似程度很低时，NJ法会出现长枝吸引现象，有事严重干扰进化树的构建。如果序列高度相似，各种方法都会得到不错的结果，模型间的差别也不大。,NJ和ML都需要选择模型。蛋白质序列和DNA序列的模型选择是不同的，蛋白质一般选泊松修正（Poisson correction）,核酸一般选Kimura-2参数（Kimura 2-parameter）。对各种模型的理解不深入，最好不要使用其他复杂的模型。参数设置推荐使用缺省的参数。通常情况下，

15、只要选择了合适的方法和模型，构建出的树均是有意的。,系统树的评估,采用Bootstrap法建树过程中，均需要bootsrap进行树的检验。一般bootstrap值70,则认为进化树比较可靠.一般要用两种以上的不同方法建树，如果得到的进化树类似，且bootstrap值较高，则结果比较可靠。Bootstrap值大家一般喜欢设为100或1000.,结果解读,树的分支，和分支的长度是有意义的，这分枝的意义通过其长度来表示其遗传速率，突变率，进化率，等等，这些你都可以定义，如果默认的情况下：也就是每一突变单位，等于一个单位的进化距离，等于一个单位的树长。树的最主要的参考就是那个标尺，这个标尺也可以进行人文的标定：如个单位树长度两个突变率，.进化率，等等，根据自己试验对象而定，并且一定标注参考文献，否则，就是采用上面的默认情况。SBL，the sum of branch lengths.,

展开阅读全文