开题报告-基因组注释管理系统

上传人:QQ15****706 文档编号:98089036 上传时间:2019-09-08 格式:DOC 页数:6 大小:101.70KB
返回 下载 相关 举报
开题报告-基因组注释管理系统_第1页
第1页 / 共6页
开题报告-基因组注释管理系统_第2页
第2页 / 共6页
开题报告-基因组注释管理系统_第3页
第3页 / 共6页
开题报告-基因组注释管理系统_第4页
第4页 / 共6页
开题报告-基因组注释管理系统_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《开题报告-基因组注释管理系统》由会员分享,可在线阅读,更多相关《开题报告-基因组注释管理系统(6页珍藏版)》请在金锄头文库上搜索。

1、本科生毕业论文(设计)开题报告题 目:基因组注释管理系统姓 名:学 院:信息科技学院专 业:计算机科学与技术班 级:计科121学 号:1指导教师: 职称:副教授 2016 年 6 月 4 日南京农业大学教务处制本课题的意义、国内外研究概况、应用前景等(列出主要参考文献)随着二十世纪以来自然科学的迅猛发展,生物科学和计算机信息技术成为两个热点领域。生物信息学是利用计算机科学的技术手段来研究生物学数据的一门学科。由于测序技术的不断进步与测序成本的不断下降,越来越多的生物物种被测序。基因组测序数据量的暴增使得研究人员手工管理非常困难。因此,有必要设计开发自动化的注释管理工具。 1995年,Owen

2、White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步的分析它们的功能。如今大多数注释系统与之类似。基因组注释主要是基于相似序列具有相似功能的假设,利用计算机程序与已知功能的数据库如NR、SwissProt、KEGG、GO等进行序列比对,获得未知基因序列的功能信息。如今在已经解序的生物基因组中,仍存在大量未知功能的基因序列。确定未知基因的功能是后基因组时代面临的具有挑战性的任务之一。在基因组数据库方面,有大型的综合型基因组数据库如NCBI、Ensembl、DDBJ、UCSC等。也有比较小型的单一物种基因组数据库如Flybase、SilkDB、M

3、onarchBase、DBM-DB和ChiloDB等。他们的共同点是,管理基因集需要专业生物信息人员的参与,一般的生物研究人员很难管理。另外,这些数据库或者是大型综合型数据库,或者是某物种的专有数据库。根据文献检索结果,目前尚无可自动化注释,支持多物种的基因组数据库。 随着基因组序列数据的不断积累,基因组学、转录组学、蛋白质组学的通量在不断提升。生物数据信息越来越丰富,对于基因组注释的可靠性会不断提高,而范围也会不断扩大。自动化基因组注释管理系统可以帮助广大的生物研究人员在获得第一手实验数据后,及时更新基因组数据。多物种的支持也方便新测序物种的基因组数据可以快速及时提供在线服务,方便相关研究人

4、员及时获取数据。相信在不久的将来,我们会得到更多关于生物进化历程的信息,一个具有完整功能注释的生物基因组也会呈现在全人类面前。 参考文献: 1王行国.基因功能注释后基因组时代面临的挑战J.世界科技研究与发展,2007,01:9-12. 2解涛,梁卫平,丁达夫. 后基因组时代的基因组功能注释J.生物化学与生物物理进展,2000,02:166-170. 3李宝健.展望21世纪的生命科学J.生命科学,2000,01:37-40+43. 研究的目标、内容和拟解决的关键问题1、研究目标 用基因组序列及gff3注释文件的基本信息进行自动化基因序列提取、翻译和功能注释。在线实现基因的增删改功能,降低管理难度

5、。提供序列比对、注释信息搜索等功能。 2、研究内容 本系统是一个基因组注释系统,为生物研究人员服务,使研究人员可以方便对基因信息进行管理和使用。本系统的主要研究内容包括以下几个方面: (1)自动化构建基因组数据库系统。该系统使得研究人员只需要上传一个物种基因组序列文件和基因组注释文件即可自动化生成基因组数据库系统。研究人员不需要通过手工方式来得到所需的生物数据。 (2)自动化衍生CDS、protein序列。该系统通过使用者上传的一个物种的基因组序列文件和gff3注释文件,利用gffread工具来衍生出CDS和protein序列。 (3)基因信息的管理。通过正则表达式来获取每一个文件当中用户所需

6、要的字段,并插入到数据库中。用户可以对于基因信息进行增删改。 (4)基因组功能注释。通过生物信息序列比对工具Blast来将用户上传的物种的蛋白质序列和SwissProt数据库进行比对,为每一条基因产生功能注释。 (5)在线Blast比对。由于研究人员为了深入进行科学研究需要对未知物种基因组序列进行进一步的分析。为了得到未知物种序列的功能注释需要将未知物种序列和系统内特定物种的核酸或蛋白序列进行比对得到功能注释,该系统方便进行Blast在线比对得到未知物种的功能注释。 3、拟解决的关键问题 (1)对于传入gff3格式文件的排序整理。 (2)提取CDS序列,并将其翻译成相应的蛋白质序列。 (3)将

7、蛋白质序列和SwissProt数据库比对,进行功能注释。 (4)将序列ID和相应功能注释进行关联。 (5)建立数据库,将整理好的ID、序列、功能注释等信息进行呈现。 (6)实现对数据库中的内容进行增删改查等功能。 研究方法、技术路线、实验方案及可行性分析1、研究方法 注释原理基于相似序列具有相似功能的假设。例如得到一个数据库里没有的物种,通过把这个物种的基因序列和数据库中别的物种基因进行序列比对,如果序列相似,一般就认为这个未知物种序列也具有相似序列的相似功能。 2、技术路线及实验方案 操作系统使用Linux Ubuntu,数据库采用MySQL,编程语言为Python。除此之外,利用一些生物信

8、息工具,如gffread,Blast等来推进研究工作的进行。 (1)接收gff3格式注释结果的文件,按照其位置,进行统一排序整理。 (2)按照整理后的gff3格式文件,生成相应的protein、gene以及CDS序列。 (3)将序列和SwissProt数据库中的数据进行比对来得到功能注释。 (4)将结果进行整理,通过网页进行呈现。在系统开发完成后对系统进行调试。 3、可行性分析 (1)存储空间:虽然基因组及注释数据较大,但是目前的计算机存储空间和计算能力完全可以满足需要,此外当前云存储和云计算也提供了较大的扩展空间。 (2)数据数量:目前NCBI等综合数据库中提供了大量真实基因组及注释数据,完

9、全可以满足课题的需要。 特色或创新之处研究者上传某一物种的基因组和 gff3注释文件,便可得到该物种的 cds、蛋白、注释等信息,同时支持基因信息的增删改,支持多种搜索功能。本数据库使整个过程自动化,提高研究效率。研究计划及预期进展研究计划及预期进展 2015年12月-2016年1月20日:完成前期准备工作。 2016年1月20日-2月20日:参考一些基因组注释网站,确定系统需求。 2016年2月20日-2016年4月1日:完成序列比对、功能注释以及分类检索等模块。 2016年4月1日-2016年4月5日:完成界面设计及与后台交互工作。 2016年4月5日-2016年4月10日:对系统进行测试

10、。 2016年4月10日-2016年6月:项目总结及毕业论文编写。已具备的条件、尚缺少的条件和拟解决的途径(包括利用教学实验中心、科研实验室、实习基地、校外其它企事业单位等条件的计划与落实情况)1、已具备的条件: (1)拥有Linux+MySQL+Python的笔记本一台。 (2)本地已对SwissProt数据库格式化。 2、尚缺少的条件: (1)未知物种基因组注释gff3格式文件以及基因组序列文件。 (2)各个功能模块细节还未进行设计,需要深入学习Django相关知识。 3、拟解决的途径: (1)查阅相关书籍与文献。 (2)通过互联网查找个别物种的基因组序列文件以及gff3注释文件。 (3)通过书籍或网络视频学习Django技术。请求指导老师指导。 本科生毕业论文(设计)开题报告评定表指导教师意见该生以“基因组注释管理系统”为本科毕业论文选题,研究目标明确、系统功能设计基本合理、研究方法基本正确、计划安排基本合理。 审核通过! 指导教师签名: 2016 年 3 月 4 日备注教务处制表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 论文指导/设计

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号