40.DNA压缩及模式匹配研究平台作品申报书

上传人:斯** 文档编号:310009858 上传时间:2022-06-14 格式:DOC 页数:20 大小:310.50KB
返回 下载 相关 举报
40.DNA压缩及模式匹配研究平台作品申报书_第1页
第1页 / 共20页
40.DNA压缩及模式匹配研究平台作品申报书_第2页
第2页 / 共20页
40.DNA压缩及模式匹配研究平台作品申报书_第3页
第3页 / 共20页
40.DNA压缩及模式匹配研究平台作品申报书_第4页
第4页 / 共20页
40.DNA压缩及模式匹配研究平台作品申报书_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《40.DNA压缩及模式匹配研究平台作品申报书》由会员分享,可在线阅读,更多相关《40.DNA压缩及模式匹配研究平台作品申报书(20页珍藏版)》请在金锄头文库上搜索。

1、序号: 编码: 第十届“挑战杯”广东大学生课外学术科技作品竞赛作品申报书 作品名称: DNA压缩及模式匹配研究平台 学校全称: 华南农业大学 申报者姓名 (集体名称): 刘少鹏 类别:自然科学类学术论文 哲学社会科学类社会调查报告和学术论文 科技发明制作A类 科技发明制作B类 说 明1申报者应在认真阅读此说明各项内容后按要求详细填写。2申报者在填写申报作品情况时只需根据个人项目或集体项目填写A1或A2表,根据作品类别(自然科学类学术论文、哲学社会科学类社会调查报告和学术论文、科技发明制作)分别填写B1、B2或B3表。所有申报者可根据情况填写C表。3表内项目填写时一律用钢笔或打印,字迹要端正、清

2、楚,此申报书可复制。4序号、编码由第十届“挑战杯”广东大学生课外学术科技作品竞赛组委会填写。5学术论文、社会调查报告及所附的有关材料必须是中文(若是外文,请附中文本),请以4号楷体打印在A4纸上(文章版面尺寸14.522cm),附于申报书后,论文不超8000字,调查报告不超15000字。6作品申报书须按要求由各校竞赛组织协调机构统一寄送。7其他参赛事宜请向本校竞赛组织协调机构咨询。A1申报者情况(个人项目)说明:1必须由申报者本人按要求填写,申报者情况栏内必须填写个人作品的第一作者(承担申报作品60%以上的工作者);2本表中的学籍管理部门签章视为对申报者情况的确认。姓 名刘少鹏性别男出生年月1

3、984年9月申报者情况学校全称华南农业大学专 业计算机应用现学历硕士生年级二年级学制 3年入学时间2007年9月作品全称DNA压缩及模式匹配研究平台毕业论文题目基于多核技术的DNA序列模式匹配研究通讯地址华南农业大学研究生宿舍6栋904邮政编码510642单位电话13450363335常住地通讯地址广东省潮州市潮安县磷溪镇溪口四村邮政编码521000住宅电话07686705793合作者情况姓 名性别年龄学历所在单位资 格 认定学校学籍管理部门意见 是否为2009年7月1日前正式注册在校的全日制非成人教育、非在职的各类高等院校中国学生(含专科生、本科生和研究生)。是 否若是,其学号为:20072

4、42019(部门盖章) 年 月 日院系负责人或导师意见 本作品是否为课外学术科技或社会实践活动成果 是 否 负责人签名: 年 月 日B3申报作品情况(科技发明制作)说明:1必须由申报者本人填写;2本部分中的科研管理部门签章视为对申报者所填内容的确认;3本表必须附有研究报告,并提供图表、曲线、试验数据、原理结构图、外观图(照片),也可附鉴定证书和应用证书;4作品分类请按照作品发明点或创新点所在类别填报。作品全称DNA压缩及模式匹配研究平台作品分类( B )A机械与控制(包括机械、仪器仪表、自动化控 制、工程、交通、建筑等) B信息技术(包括计算机、电信、通讯、电子等) C数理(包括数学、物理、地

5、球与空间科学等) D生命科学(包括生物、农学、药学、医学、健 康、卫生、食品等) E能源化工(包括能源、材料、石油、化学、化 工、生态、环保等)作品设计、发明的目的和基本思路,创新点,技术关键和主要技术指标一、目的生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,其实质就是利用计算机科学和网络技术来解决生物学问题。二十世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,包括NCBI, EMBL, GDB等DNA数据库的数据量,每年以两到三倍的数量增加。存储DNA数据需要耗费巨大的空间。因此,如何对DNA数

6、据进行压缩,以减少存储空间将是生物学家和计算机专家面临的挑战。通常DNA序列长度可达到上千万个碱基对,并且具有特殊性,仅由A、C、G、T四个字母组成,这导致传统的数据压缩算法在DNA序列压缩效果不理想。于是,必须研究专门针对DNA序列数据的压缩算法:DNA压缩算法。在生物学家对DNA序列数据的使用中,序列比对是生物信息学中最基本、最重要的操作之一。从实现的理论和技术上讲,DNA序列比对的实质是一种特殊的模式匹配,而直接在压缩后的DNA数据上进行序列比对其实质则是一种特殊的压缩模式匹配,即DNA压缩模式匹配。为了更好地研究DNA压缩算法和DNA压缩模式匹配算法,需要建立一个相关的研究平台,即DN

7、A压缩及模式匹配研究平台。该平台主要用于管理和增加DNA压缩算法和DNA压缩模式匹配算法,存储DNA序列数据、DNA压缩数据,能实现各算法效果的比较试验,验证算法有效性,从而为生物信息学研究人员提供方便。二、基本思路采用Java面向对象编程技术,建立一个不依赖具体操作系统的DNA压缩和DNA压缩模式匹配研究的专用平台;并利用该平台,结合DNA序列数据的特点,研究DNA序列数据压缩现有算法和提出新的算法,以有效减少DNA数据所占用的存储空间;研究出专门针对DNA压缩数据的压缩模式匹配算法,以解决在不对DNA序列压缩数据解压缩或最小解压缩的情况下实现序列比对功能。该平台主要由DNA序列获取、DNA

8、序列压缩、DNA压缩模式匹配三大模块组成。在实现中遵循模块化的系统开发原则,使得平台构建符合高内聚、低耦合特点。三、创新点1、可扩展利用面向对象的Java技术而建立的专业的生物信息学研究平台,可持续地开展DNA压缩算法和DNA压缩模式匹配算法的研究。具体地说,平台的可扩展性体现在以下两方面:一是有意义明确的包,尤其是包matching和compress,分别管理匹配和压缩算法,平台使用人员能够自己开发新算法,并加入到其中。二是GUI界面都是用Swing组件写成的,每个面板的功能都是相当明确,其中负责压缩信息处理的CompressPanel和负责模式匹配的MatchingPanel就是很好的体现

9、,它们分别调用包matching和compress里面管理的算法,若平台使用人员需要研究自己开发的新算法,在相应的面板调用即可。举例说明,如果平台需要增加一个新的压缩算法,那么我们要把这个压缩算法设计为一个类,接着把它放到包compress中,再在树状选择压缩算法面板CompressPanel中,为用户增加一个新的选项,即可完成扩展。如果平台需要增加一个新的匹配算法,那么我们要把这个匹配算法设计为一个类,把它放到包matching中,再为用户在树状选择匹配算法面板MatchingPanel增加一个新的选项,即可完成扩展。2、减少DNA序列存储空间参考文本压缩算法思想,根据DNA序列数据特点,研

10、究专门用于压缩DNA序列数据的DNA压缩算法。DNA压缩算法可以高效地压缩DNA序列数据,极大地减少DNA序列数据所占用的存储空间。3、DNA序列比对研究利用压缩模式匹配的思想,根据DNA序列数据的特点,专门研究在对DNA序列压缩数据不解压缩或最小解压缩的情况下,直接在DNA压缩数据中实现DNA的模式匹配,能有效缩短匹配搜索时间,为DNA序列比对研究提供高效率的帮助。目前我们采用多线程技术,设计了基于BM匹配的MTd-BM及MTd-Hosrpool压缩模式匹配等算法,并已将它们集成到平台。4、直接使用压缩DNA数据研究不是把DNA序列数据压缩减小存储空间作为唯一目标,而是把直接有效地利用DNA

11、序列压缩数据作为更重要的目标。四、技术关键1、面向对象的Java技术使得该平台不依赖操作系统和具体机型,因此可运行在小型机、高级服务器、PC台式机、笔记本电脑和Unix、Solaris、Windows和Linux等环境。2、多线程技术在Java中,程序通过流控制来执行程序流,程序中单个顺序的流控制称为线程,多线程则指的是在单个程序中可以同时运行多个不同的线程,执行不同的任务。多线程意味着一个程序的多行语句可以看上去几乎在同一时间内同时运行。3、Swing技术Swing组件被称为轻量级组件,是由纯Java code开发的,它不需要那些关于各种平台的复杂的GUI功能,解决了Java因为窗口类而无法

12、跨平台的问题,并且不会占有太多的系统资源。Swing组件对比AWT组件具有更大强度的可移植性和灵活性。4、Log4j写日志技术Log4j是Apache的一个开放源代码项目,通过使用Log4j,可以对日志信息的级别、输送目的地和输出格式进行控制。具备详细的日志记录功能,才能更好地保证平台的正常运行。五、主要技术指标1、软件平台用户界面友好、可扩展性、可维护性以及健壮性。2、DNA序列数据压缩算法压缩比,该值越小,算法的压缩效果越明显。其计算方法为:DNA序列数据压缩前后的字符总数的百分比值。3、DNA序列压缩模式匹配算法算法运行效率(越快越好)、搜索比较字符操作次数(越少越好)。作品的科学性先进

13、性(必须说明与现有技术相比、该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)作品的科学先进性体现在下面四点:1、研究DNA压缩算法和DNA压缩模式匹配算法具有重要意义,该平台为生物信息学相关研究人员的工作提供便捷。开发新算法,再通过平台集成,验证,比较分析一系列处理,研究人员将从中获益。该作品的实质性技术特点和显著进步体现在自己开发的DNA压缩模式匹配算法,已集成在平台上。作者通过平台的使用,能够对开发的新算法与传统算法进行比较分析,并取得一定成果,已分别在中文核心期刊和国际会议发表学术论文两篇。(1) 刘少鹏, 林丕源, 张丽霞, 刘吉平基于多线程技术的d-

14、BM改进算法计算机应用研究, 2008, 25(11): 3299-3301 (中文核心期刊)(2) Lin Piyuan; Liu Shaopeng; Zhang Lixia. Compressed Pattern Matching in DNA Sequences using Multithreaded Technology. The 3rd International Conference on Bioinformatics and Biomedical Engineering (iCBBE 2009), June 11-13th, 2009, Beijing, China. (将被EI检索)2、采用java面向对象编程技术,具有良好的平台无关性及功能可扩展性。3、目前国内外针对DNA压缩算法和DNA压缩模式匹配算法的平台不多。4、参考文献如下,主要有DNA压缩算法和DNA压缩模式匹配算法等国内国外论文,请查阅。1 Don Adjeroh, Yong Zhang, Amar Mukherjee, Matt Powell, Tim Bell, “DNA Sequen

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号