基于空位种子索引算法的高通量基因序列比对分析软件综述

资源描述

《基于空位种子索引算法的高通量基因序列比对分析软件综述》由会员分享，可在线阅读，更多相关《基于空位种子索引算法的高通量基因序列比对分析软件综述（22页珍藏版）》请在金锄头文库上搜索。

1、基于空位种子索引算法的高通量基因序列比对分析软件简介随着不同物种基因组测序的快速发展，产生了大量的DNA序列信息，这时就需要一种简便而快速的统计分析工具来对这些数据进行有效的分析，以提取其中包含的大量信息。基于空位种子索引算法的高通量基因序列比对分析软件就是基于这种需求开发的。基于空位种子索引算法的高通量基因序列比对分析软件软件的目的就是提供一个以进化的角度从DNA和蛋白序列中提取有用的信息的工具，并且，此软件可以免费下载使用。现在我们使用的是基于空位种子索引算法的高通量基因序列比对分析软件的版本。它主要集中于进化分析获得的综合的序列信息。使用它我们可以编辑序列数据、序列比对、构建系统发育树、

2、推测物种间的进化距离等。此软件的输出结果资源管理器允许用户浏览、编辑、打印输入所得到的结果而且所得到的结果具有不同形式的可视化效果。此外，该软件还能够得出不同序列间的距离矩阵，这是他不同与其他分析软件的地方。在计算矩阵方面有一些自己的特点：1. 推测序列或者物种间的进化距离2. 根据MCL(MaximumCompositeLikelioodmethod)的方法构建系统发育树3. 考虑到了不同碱基替换的不同的比率，考虑到了碱基转换和颠换的差别。4. 随时可以使用标注：所有的结果输入都可以使用标注，而且标注的内容可以被保存，复制。具体我们以分析20个物种的血红蛋白为例来具体说明此软件的具体使用情况

3、。第一章软件启动程序1.运行环境：在Windows95/98,NT,ME,2000,XP,vista等操作系统下均可使用。2.下载安装：可以直接登陆网站进行下载安装，进入程序。3.双击桌面快捷方式图标，进入主界面；或者从开始菜单，单击图标启动。第二章软件序列分析单击后，会出现如下界面：这里有三个选项，分别对应三种不同的情况：l Createanewalignment：是在你没有任何比对的时候使用，比如你只有一个fasta格式的序列就可以选择这个选项。l Openasavedalignmentsession：使用它可以打开一个我们已经比对好的序列文件；l Retieveasequencefr

4、omafile：这种情况同第一种情况相似，只是不用选择是DNA还是蛋白质序列比对，选择的也是fasta格式的文件，打开后的界面都是一样的。以第一种情况为例说明，点击如出现下界面：这里我们分析的是蛋白序列所以选择No。然后从data菜单选择输入数据文件如图：选择你保存的fasta格式序列后就会出现：一、菜单的使用l Data菜单l Creatanew：创建一个新的数据比对文件，也就是说当我们比对完一组后，想接着比对另一组，那么使用它就可以不用退出直接把数据文件导入；l Open：打开先前已经比对并保存好的文件，它包含两个子菜单：retivesequencefromfile和savedaligme

5、ntsession；l Close:关闭当前的比对数据文件；Savesession：保存当前比对结果，可以给比对的结果一个文件名；l Exportalignment：将当前的序列比对结果输出到指定文件，有两种输入格式可供选择：MGTA和FASTA.l DNAsequence：使用它来选择输入的数据DNA序列，这里需要说明的是如果你输入的数据是氨基酸序列的话，比对窗口只显示一个标签，若是DNA序列的话则显示两个标签，一个是DNA序列的，另一个是氨基酸序列的。如下图：l Proteinsequences：选择输入的氨基酸序列，选择后，所以的位点就被当作氨基酸残基位点来对待。l Translate/

6、untranslate：只有比对的序列是编码蛋白的DNA序列的时候才可用。它可以根据指定的遗传密码表将DNA序列翻译成特定的氨基酸序列。l Selectgeneticcodetable：使用它将编码蛋白的DNA翻译成特定的蛋白序列。l Reversecomplement：将选择的一整行的DNA序列变为与之互补配对碱基序列。l Exitalignmentexplorer：退出序列比对的资源管理窗口。l Edit菜单使用这个菜单可以对我们的比对序列进行想要的一些编辑工作具体为l Undo：撤销上一步操作；l Copy：复制；cut：剪切；Paste：粘贴；前面三个操作都可以只针对一个碱基或氨基酸残

7、基也可以是一段甚至是整个序列；l Delete：从比对表格中删除一段序列；l Deletegaps：去掉序列中的空缺；l Insertblanksequence：重新插入一空行；标签和序列都是空的；l Insertsequencefromfile：从已保存的文件中插入新的序列；l Selectsites：选择一列序列，与点击比对表上方的灰白空格作用类似；l Selectsequence：选择一行序列，与点击比对表格左侧的标签名作用类似；l Selectall：全选；l Allowbaseediting：只读保护，只有选择后才能对序列进行编辑操作，否则所以的序列为只读格式，不能进行任何编辑操作。

8、l Search菜单l 用来快捷查找序列中的标记未定或者目的碱基或残基。l Findmotif：选择后出现如下对话框：输入你想要查看的一小段序列。找到后会以黄色标出；l Findnext：在序列的下游查找目的序列片段；l Findpreious：在序列的上有查找目的序列片段；l Findmarkedsites：查找标记位点；l Highlightmotif：突出标记已经选择的位点。l Web菜单：这个菜单提供一个链接Genbank的入口，可以在网上直接做Blast搜索。当手上没有准备好要比对的序列时，可以直接去网上搜索。l Querygenebanks：开启NCBI的主页；l Doblasts

9、earch:开启NCBIBLAST主页；l Showbrowser：开启网页浏览器。l Sequencer菜单：此菜单下只有一个子菜单：editsequencerfile，用来打开一个打开文件对话框，此对话框可以打开一个sequencerdatafile，一旦打开，这个文件就在tracedatafileviewer/editor的对话框中展示出来。这个编辑窗口允许你查看和编辑automatdDNAsequencer产生的tracedata。它可以阅读和编辑ABI和Staden格式文件并且序列可以直接被导入到序列比对窗口或被上传到网页浏览器做blast搜索。l Display菜单：这个菜单相对简

10、单，主要用来调整工具栏。l Toolbars：工具栏菜单，它包含一些子菜单，选择后就会出现在比对的窗口中；l Usecolors：将不同的位点以不同的颜色显示；l Backgroundcolor：选择后位点的显示与位点一样的背景颜色；l Font：字体对话框，通过选择来调整窗口中的序列字符的大小。l 实例介绍alignment菜单l Mark/unmarksite:在比对的表格中标记或者不标记一个单一位点，一次每条序列只能被标记一个位点，不同序列间的位点你可以选择同一列的，也可以是错开的，要根据自己的目的进行选择。选择标记后的序列可以使用alignmarkedsites进行比对分析。l Ali

11、gnmarkedsites:比对标记的序列，在这里如果在两个或多个序列间标记了不在一列的位点重新比对后会出现空格。如图：l Unmarkedallsites：把所以标记的位点去标记；l Deletegap-onlysite：去掉序同是空格的一列；这在多序列比对前很有用。l Auto-fillgaps：使用空格补齐不同长度的序列。l AlignbyClustalW：此软件整合了clustalw程序，这也是它的方便之处，选择要比对的序列后点击会出现下面的对话框：这是一个序列比对参数设置对话框，需要注意的是：这个软件不会考虑到核酸序列中的编码位点，所以在比对的过程中可能会在编码区中插入空格，所以如果

12、分析DNA或者编码序列建议将他们翻译成蛋白序列后在比对。一对序列比对和多序列比对下的设置都是一样的如下：l Gapopeningpenalty：空格罚分设置，增加一个空格就罚相应的分值，增加这一分值会降低空格出现的频率。l Gapextensionpenalty：空格扩展罚分，就是根据空格的长度来罚分，增加这一分值会使空格变短，末端空格不计入罚分。第三章软件一般参数l DNA/proteinweightmatrix：选择不同的加权矩阵；l Residue-specificpenalties：特殊氨基酸罚分。在序列比对的过程中特异氨基酸可能增加或减少罚分值，比如：富含甘氨酸的区段比富含缬氨酸的

13、区段更可能有空格出现，因而他们的罚分不同。l Hydrophilicpenalties：如果有连续的5个或者更多的亲水性氨基酸的话，他们倾向于出现空格，这些区段很可能出现环状或卷曲，因此罚分不一样。l Gapseparationdistance：参数设置来尽可能降低空格之间离的太近的机会，小于指定数值的空格罚分要多余其他的，这不能避免出现相邻空格，只能降低他们出现的频率。l Usenegativematrix：使用负性矩阵，l Delaydivergentcutoff：若一条序列相似性低于设定的百分值将推迟比对。当一切参数都设定好了之后就点击OK就可以进行比对了，中间出现一个过度对话框。比对结

14、束后，可以将结果保存（data/savesession/），以供构建系统发育树使用。另外，如果不保存直接关闭，系统跳出一个确认对话框。下面这个是序列数据管理的管理界面，此外我们还可以通过主界面上的data/opendata路径打开，效果是一样的，注意这里打开的只能是刚才保存的后缀是.MEG的文件。当这个序列数据界面出来后，注意软件的主界面发生了一定的变化，多出了几个功能菜单：下面就着重介绍一下序列数据窗口的一些具体使用：这个窗口用来展示比对后的序列数据，这里提供了许多的功能菜单用来查看序列比对后的数据统计结果或者来选择想要的子序列。l Data菜单l Writedatatofile：导入序列打

15、开窗口；l Translate/untranslate:将蛋白编码序列翻译成蛋白序列，或者再转变成核酸序列；l Selectedgeneticcodetable：打开selectgeneticcode对话框，从这个对话框可以选择编辑或者添加遗传密码表；l Setup/selectgenesanddomains：打开sequencedataorganizer对话框，在这个对话框里可以定义和编辑基因和结构域。使用这个窗口可以查看，定义，和选择结构域和基因，并且标记单个的位点。具体使用这里不作详细介绍。Setup/selecttaxaandgroups:打开一个可以编辑分类和定义分类组的对话框：这个窗口分为两个子窗口，左边的是分类组，显示不同的分组情况，右边的是未分组窗口显示还没有归入任何一个组群的分类。中间和下边是一些操作键，通过他们我们可以建立新的组，如果你将所以的分类都归入到不同的组里，并且给予组名，你们在序列数据窗口中就会在物种名字后边显示他所属的组名。一、Display菜单l Showonlyselectedsequence：只显示你所选择的感兴趣的序列；l Useidenticalsymbol：将一列中绝大部分相同等碱基或氨基酸字符用点来代替；l Colorce

展开阅读全文

基于空位种子索引算法的高通量基因序列比对分析软件综述

最新文档