形象化基因组序列分析系统文档资料

上传人:大米 文档编号:586648853 上传时间:2024-09-05 格式:PPT 页数:52 大小:1.01MB
返回 下载 相关 举报
形象化基因组序列分析系统文档资料_第1页
第1页 / 共52页
形象化基因组序列分析系统文档资料_第2页
第2页 / 共52页
形象化基因组序列分析系统文档资料_第3页
第3页 / 共52页
形象化基因组序列分析系统文档资料_第4页
第4页 / 共52页
形象化基因组序列分析系统文档资料_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《形象化基因组序列分析系统文档资料》由会员分享,可在线阅读,更多相关《形象化基因组序列分析系统文档资料(52页珍藏版)》请在金锄头文库上搜索。

1、形象化基因组序列分析系统形象化基因组序列分析系统寻找复杂结构子序列模块的算法及系寻找复杂结构子序列模块的算法及系统研究统研究 学生:杜杰指导老师:韦朝春1、研究背景、研究背景随着生命科学研究的不断进步和深入,以及高通量快速度DNA测序技术的发展,各种基因组测序计划(人类基因组计划和各种模式生物测序计划)不断展开并相继完成,生物学研究已经进入后基因组时期。如何快速并且有效的从海量的生物序列数据中发掘和提取信息,解读探索和揭示生命的奥秘是我们面临的重大挑战。调控作为生命活动的重要机制,是我们了解生命过程很好而且极有意义的切入点。众多的调控作用中调控因子因直接指导基因的表达而成为我们从生物序列认知复

2、杂生命过程的重要一环。1.1 生物调控模块研究现状生物调控模块研究现状基因表达调控主要通过三类方式进行:核苷酸序列之间的相互作用,包括核酸分子内部核苷酸序列之间的相互作用的两个核酸分子之间核苷酸序列的相互作用;核酸分子的核苷酸序列与蛋白分子之间的相互作用;蛋白质分子之间的相互作用当前调控元件(模体)的发现已经进行了较多研究和算法开发,常用的策略为;(1) 穷尽搜索法:穷尽搜索法:穷尽搜索常采用的策略是列举出所有符合条件的模体,最后输出分值最高者。(2)基于统计模型的机器学习方法:)基于统计模型的机器学习方法:很多的机器学习算法己经运用到模体识别问题中,如动态规划(Dynamic Program

3、ming,DP)、期望最大化算法(Expectation Maximization,EM)、马尔可夫链-蒙特卡罗方法(Markov Chain Monte Carlo,MCMC)、模拟退化算法等。现阶段调控元件的研究主要还是相对独立的进行,着眼于单个模体的发现与解读,关于顺势调控模块(cis-regulatory module)等也进行了一些相关研究。基因预测的方法也在过去的几年中得到了极大的提高,尤其是基于统计模型的方法。这为基因中调控模块等复杂结构序列的研究提供了新的方法。1.2本文工作说明本文工作说明本课题上级课题为开发一个通用的具有自动寻找给定的复杂结构序列模块功能的系统。使用该系统,

4、用户可以用文件描述序列的结构,或者直观地用一个图形表示序列结构(例如一个基因结构示意图或者调控因子模块的示意图),该系统可以在给定注释后的集合上自动学习,并可以在指定的基因组序列上自动找到所有类似的结构。上级课题主要研究内容及任务分割:1. 一种通用的模型描述系统。该系统规定模型定义文件的格式,我们可以从定义文件自动生成一个序列结构模型。2. 该通用模型的自动学习。给定一个已注释的序列集合,该系统可以自动进行学习。3. 在基因组范围寻找由以上文件定义的复杂序列结构。4. 一个用户友好的图形系统。用户可以直观地用一个图形表示序列结构,对一个指定的学习集合以及基因组,系统可以自动完成前面三步。本文

5、工作主要是从复杂调控子序列研究的现状出发,在调控因子结合位点发现的前人工作基础上,开发一个友好的图形化系统,提供一个可视化的平台,简化调控模块研究的工作。利用该系统可以直观的对用户希望研究的目标模块进行互动的绘制,导入相应参数文件,最终生成待研究模块的完整参数文件,此参数文件可直接进行后续分析。 2、转录因子结合位点发现、转录因子结合位点发现转录因子结合位点(模体)研究方法分为实验方法和计算方法两类。2.1 实验方法实验方法实验中可以用凝胶迁移(electrophoretic mobility shift assays)或DNase足迹法(DNase footprinting)来确定转录因子结

6、合位点。这些方法不能够实现大规模、高通量的分析。以基因芯片为代表的高通量分子生物学技术在基因转录调控分析中发挥了重大作用。近年来,利用蛋白质免疫共沉淀技术(ChIP)可以得到大量与特定转录因子结合的DNA片段。第二代高通量测序技术检测这些DNA片段,就形成了ChIP-chip和ChIP-sfq技术。2.2 计算方法计算方法转录因子建模在进行数学方法的计算前必须将转录因子建模,以便在统一的框架下进行分析计算。尽管与同一种转录因子结合位点结合的结合位点会存在差异,但是,不管差异性程度有多高,相对于随机序列片段而言,对应同一种转录因子的结合位点仍然具有较高的保守性,正是这种保守性构成了用计算方法来识

7、别调控元件的理论基础。2.2.1串模型串模型串模型(String-based representation)是最早出现的序列模式表示方法,其中共有序列(consensus sequence)是转录因子结合位点最简单的表示方法。例如CAAT转录因子结合的核酸序列表示为5-GCCAATCT-3,热休克因子结合位点表示为5-CNNGAANNTCCNNG-3。基于共有序列的表示方法简明易懂,却不能够反映每个位置上不同碱基出现的概率。2.2.2矩阵模型矩阵模型虽然串模型直观的表示了模式序列的碱基组成情况,但是也在一定程度上掩盖了各个位置上碱基出现的差异性。转录因子同DNA的结合是一个与热动力学结合能相关

8、的随机事件,因此利用统计学方法对转录因子与DNA的相互作用进行建模更为合理。123456A1000003T100009G00120120C11201200图2-1 简单的矩阵模型123456A0.83300000.25T0.08300000.75G001010C0.08310100图2-2 图2-1对应的PSFM(PWM)2.2.3可视化模型可视化模型这类模型一般根据信息论知识,用形象、直观的的图形方式来表示结合位点的特征(如logo模型)。2.3调控元件模式的得分函数调控元件模式的得分函数(1)、Z分数(2)、卡方统计量:(3)、信息含量(4)、一致性得分(5)、log-likelihood

9、前两种方法是根据模式出现的统计重要性计算其得分的;后三种是基于模式的保守特性而设计的得分函数。因此,前两种得分函数常被应用于基于统计的调控元件识别方法中,而后三种是以序列比对为核心的算法常采用的得分函数。 2.4转录因子结合位点(模体)发现算法转录因子结合位点(模体)发现算法随着基因芯片等高通量数据的出现,计算方法在转录因子结合位点的分析中得到了广泛的应用。常用方法:动态规划(DP)、期望最大化算法(EM)、吉布斯采样(Gibbs sample)马尔可夫链-蒙特卡罗方法(MCMC)、模拟退化算法等。3、GRMF开发开发本工作完成的软件将服务于基因调控模块的研究,故将其称为GRMF(gene r

10、egulatory module finder)。GRMF的开发涉及到较多方面的内容,包括总体设计,以及细节的开发。总体设计需要全局的眼光,而细节开发实现则需要面临和解决许多大小问题以及进行大量代码编写,总体来说具有较大的挑战。3.1 开发环境开发环境考虑到潜在使用者的使用习惯,需要选择Linux平台下或者跨平台的编程语言,因此我们选择了JAVA语言作为为实现的语言。3.1.1 JAVA语言语言简单性简单性:复杂特性的省略和实用功能的增加使得开发变得简单而可靠,另一个方面是的系统非常小, 其基本解释和类支持部分只占40KB, 附加的基本标准库和线程支持也只需增加175KB,因此, 应用软件能在

11、相当小的系统之上独立工作。面向对象的技术面向对象的技术:面向对象技术具有继承性、封装性、多态性等众多特点,在保留这些优点的基础上, 又具有动态联编的特性, 更能发挥出面向对象的优势。JAVA取消了C+中的多继承机制,取而代之的是简单的借口概念,元类模型,反射机制和对象序列化特性,使得JAVA更加容易实现持久对象和GUI构建器。可移植性可移植性:这是最吸引人的地方。由于它采用先编译成中间码(字节码), 然后装载与校验, 再解释成不同的机器码来执行, 即“虚拟机”的思想。屏蔽了具体的平台环境, 特性要求,使得只要能支持虚拟机, 就可运行各种程序。多线程多线程:程序设计者可以分别用不同的线程完成特定

12、的行为, 而不需要采用全局的事件循环机制, 这样就很容易实现网络上实时的交互行为。选择JAVA作为开发语言主要是因为它与平台无关的特特性,并且需要时可以发将其布成为applet互联网应用程序,用户可以直接通过浏览器进行使用。3.1.2 eclipse开发环境开发环境Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。能大大加速开发过程。 3.1.3 JAVA可视化组件可视化组件AWT和和Swing抽象窗口工具包AWT (Abstract Window Toolkit) 是 API为Java 程序提供的建立图形用户界面GUI (Graphics User Interface)工具集

13、,AWT可用于Java的applet和applications中。java.awt包中提供了GUI设计所使用的类和接口,这即为基本的java程序的GUI设计工具。主要包括下述三个概念:组件(Component),容器(Container),布局管理器(LayoutManager)。AWT是最原始的 Java GUI 工具包。AWT 的主要优点是,它在 Java 技术的每个版本上都成为了一种标准配置,包括早期的 Web 浏览器中的 Java 实现;另外它也非常稳定。这意味着我们不需要单独安装这个工具包,在任何一个 Java 运行环境中都可以使用它,这一点正是我们所希望的特性。AWT设计的初衷是支

14、持开发小应用程序的简单用户界面。例如AWT缺少剪贴板、打印支持、键盘导航等特性,而且原来的AWT甚至不包括弹出式菜单或滚动窗格等基本元素。随着发展的需要,在AWT的基础上Swing出现。Swing是由100%纯Java实现的,Swing组件是用Java实现的轻量级( light-weight)组件,没有本地代码,不依赖操作系统的支持,这是它与AWT组件的最大区别。由于AWT组件通过与具体平台相关的对等类(Peer)实现,因此Swing比AWT组件具有更强的实用性。Swing在不同的平台上表现一致,并且有能力提供本地窗口系统不支持的其它特性。Swing使得程序在一个平台上运行时能够有不同的外观。

15、用户可以选择自己习惯的外观。下一代的GUI组件也已经出现比如SWT(Standard Widget Toolkit),与 AWT 和 Swing 不同,SWT并不是 Java 技术的标准配置。它们必须单独进行安装。3.2 GRMF开发开发 参照一般的软件开发流程,GRMF的开发主要经过了:需求分析-概要设计-详细设计-编码-测试等几个阶段。由于缺乏开发经验,上述每一个过程都经历了较多学的学习和尝试。最终GRMF以一个小型工具软件的形式出现,基本功能得以实现。3.2.1 参数文件格式参数文件格式最终参数文件参照工作组先前的文件定制,包括了四个部分:(1)文件头(File head)(2)状态(S

16、tates)(3)转移(Transition)(4)状态模型(Models for states)3.2.2 GRMF的需求分析的需求分析目标:GRMF现阶段的基本需求就是以形象化互动的方式进行复杂调控子序列的构建,完成后进行参数输入,最后根据构建好的模型输出参数文件。软件最终的运行方式拟定为PC上运用软件,而且尽量保证其可扩展性,例如,必要时可发布为web应用形式。用户特点 GRMF的可能用户为生物信息研究人员,该用户群一般对软件的界面要求不高,但是在对已筛选数据的详细深入的专门分析一个实用的软件能避免过多只是基于数字和代码的工作,而能更好的考虑其生物学意义;另一类潜在用户为从基因水平对病人

17、进行诊断的医生,他们需要对可能的致病的调控机理进行建模,快速判断其致病机理,以便进行针对性治疗。该类用户倾向于使用界面友好的软件。性能要求 GRMF还未与该项目上级项目的其他功能相整合,此时的功能较少,运行时计算量不大,性能表现暂无需过多考虑,只要尽量合理设计即可。灵活性 考虑到用户群的使用习惯,GRMF应该能够在Linux和Windows下运行使用。除此之外GRMF对硬件和接口等无特殊要求。概要设计GRMF控制模块绘图区数据模块图3-1 GRMF基本结构详细设计1、数据结构设计状态对象:状态是GRMF的重要对象,应该包含该段序列的信息以及在GRMF中保存识别标识及一些附加信息。序列信息即序列

18、模型;保存识别标识包括状态名,状态图形,图形颜色;附加信息包括状态的类型(起始、结束或者一般状态)以及状态的描述。对象的方法则可以在具体实现时按需要灵活添加,比如状态图形的绘制。状态转移对象:这是另一类重要对象,这类对象表示了状态的转移,应该包含的信息为转移的始末状态,转移概率,同样的状态转移对象也应该包含名称、描述、颜色信息和描绘方法。构架设计子菜单名菜单项功能FileNew 新建一空白文件。Open 打开现有文件。Save 将当前文件进行保存。Export 导出参数文件.grm或者模型图像.gif。Exit 退出程序。EditDelete 删除绘图区中选中的元件。Calculate 计算并

19、查看参数文件。ViewGrid 是否显示绘图区栅格。Show label 是否在图形上贴加相应标签。Style 选择软件界面风格。HelpHelp Content 帮助文件查看。About 显示GRMF信息。表表3-1 主菜单项及其功能主菜单项及其功能按钮名功能Selecte对绘图区元件进行选择和拖动,选中后可对其进行编辑。Start绘制起始状态元件,选中后可以在绘图区进行互动的绘制。起始状态唯一时,一旦绘制完成后该按钮将不可用。Transition绘制状态转移箭头,绘制以互动的方式进行,在出发状态上点击后拖动到接收状态上释放按钮即绘制完毕。State绘制一般状态。End绘制结束状态元件,选中

20、后可以在绘图区进行互动的绘制。结束状态唯一时,一旦绘制完成后该按钮将不可用。Delete删除选中的状态或者转移箭头。表表3-2 工具栏按钮及其功能工具栏按钮及其功能绘图区:这是GRMF的重要部分,这里将体现GRMF形象化、互动的特点。绘图区上不具有任何按钮,其上的功能将完全通过鼠标动作实现,在菜单和工具栏中已经提到了相应功能。绘图区可以显示栅格,方便元件的放置与对齐。对应对象面板元素功能StateFlag指示所选元件的类型,为State。Label指示所选状态的标签,为start,end或者一般state。Color对表示状态的图形的颜色进行指定,可弹出颜色选择器。Shape包含三种可选的形状

21、,圆形,矩形,圆角矩形。Name输入和显示状态的名称。Model进行状态模型的导入,弹出文件选择器。Description输入和显示对该状态的描述。Apply按钮对更改的内容进行确定,将其附加到状态数据中。Abord撤销先前未保存的修改。TransitionFlag指示所选的元件类型,为Transition。Color对箭头的颜色进行指定,可弹出颜色选择器。Tij Value对状态转移概率进行输入和显示。Description输入和显示对该转移的描述。Apply与State下功能相同。Abord与State下功能相同。表表3-3 参数面板元素及其功能参数面板元素及其功能3.2.3 代码编写与具

22、体实现代码编写与具体实现最重要,工作量最大,却无法展示的过程!3.2.4 测试和完善测试和完善基本运行情况测试即在预期的操作环境(Windows、Linux)下测试软件各个按钮的响应情况。在Windows和Linux下GRMF的各按钮表现正常。工作情况测试是通过将参数文件和预期文件进行比较而进行的,按照GeneScan构建的模型(图3-2),在GRMF中构建模型。导入相应参数,然后生成参数文件,与原始的参数文件进行比较,结果显示GRMF达到了预期要求。图 3-2 用于测试的GeneScan 状态模型4、结果与讨论、结果与讨论GRMF编译完成后发布成为jar形式包含字节码和源文件,并且生成了ht

23、ml API文档。考虑到windows的实用性,专门发布成了exe格式,可以不安装Java虚拟机而直接运行。图 4-1 GRMF工作界面图 4-2 在GRMF中互动的构建调控模块模型示意GRMF的缺点和改善预期的缺点和改善预期功能较为单一虽然GRMF需求并不复杂,但是作为软件应该尽量人性化,尽量简化操作,同时具有较完善的功能。由于GUI开发对于作者来说是全新的领域,要学习大量新知识,所以GRMF目前仅仅处在比较基础的完成阶段没有加入更多的高级功能。代码编写不够规范对于较大规模的代码编写来说,应该遵循一定的规范,使得其清晰易读以便于后续的修改维护。在GRMF编写过程中尽量保证了其可读性和规范统一

24、的变量命名以及较规范的结构,但是由于经验缘故很多地方方法是否应该分离于对象处理不够好,代码还是显得不够规范。界面设计不够合理、美观一个用户友好的软件,界面设计也应该简洁美观。由于Java在GUI布局上的局限性,加之缺乏足够时间专门用于界面设计,所以GRMF界面比较简陋,不过可操作性还算符合用户使用习惯。除了上述不足之处外,GRMF还存在一些其它问题,这些都是应当改进和提高的地方。对于细节功能的扩展在设计实现过程中已经埋下伏笔,比如箭头形状的预留,状态转移曲线角度的可改变性设计等,将来只要稍加改进即可成为细节完善的应用软件。此外,可将该项目的其余部分与之整合,而成为真正实用的调控模块发现系统。前景与展望前景与展望经过完善和功能改进的GRMF将会在生命科学研究和疾病诊断领域发挥巨大作用。随着生物序列测序技术的飞速进步,测序费用正在朝向一般人可以接受的价格水平靠近,大量的遗传病病人基因中致病的调控机理需要我们去解读;生物序列解读的算法也不断发展,另外电脑性能也在不断提升,利用智能化的电脑软件直接对基因组数据进行分析并解读它们的生物学意义的时代就要来临。 感谢韦老师的悉心指导,感谢感谢韦老师的悉心指导,感谢您的宽容与耐心。您的宽容与耐心。Question Time谢谢!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号