基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计

上传人:wo7****35 文档编号:54428303 上传时间:2018-09-12 格式:DOC 页数:39 大小:503.50KB
返回 下载 相关 举报
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计_第1页
第1页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计_第2页
第2页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计_第3页
第3页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计_第4页
第4页 / 共39页
基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计_第5页
第5页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计》由会员分享,可在线阅读,更多相关《基于本体的武器装备定题爬虫的设计与实现——数据库与查询系统设计-毕业设计(39页珍藏版)》请在金锄头文库上搜索。

1、厦门大学本科毕业论文本科毕业论文本科毕业论文(科研训练、毕业设计)题题 目:基于本体的武器装备定题爬虫目:基于本体的武器装备定题爬虫 的设计与实现的设计与实现数据库与查询系统设计姓 名:学 院:软件学院系:软件工程专 业:软件工程年 级:学 号: 指导教师(校内): 职称:指导教师(校外): 职称:年 月厦门大学本科毕业论文I武器装备本体在定题爬虫中的应用数据库与查询系统设计 摘要 随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具。以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题。基于本体的查询是当前的研究热点,本体的语义表达能力有效的提高描述逻辑能力,表

2、达出一般形式的规则,因此给予本体语义的定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎具有重大价值。针对目前通用的基于关键词主题过滤策略的不足,提出了基于本体语义的主题过滤策略。本文对搜索引擎中网络爬虫的搜索策略进行简要分析,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.关键词 本体语义 定题爬虫 搜索引擎 厦门大学本科毕业论文IIWeapon Ontology base on focused crawler Design of Database and Search SystemAbstract With

3、the fast development of the internet, search engines become one of the necessary tools to get useful information. Researches on ontology-based queries are current research concerns. And the semantic expressive ability of ontology is helpful to the Description Logic, being able to express the regulat

4、ive rules. So focused crawler can fetch large quantities of domain resources from the Web in a short time. It is very helpful in both focused search engines. In order to overcome the deficiency of topic filtering strategy based on keywords widly used nowadays , it proposed a topic filtering stratege

5、 based on ontology semantic.Keywords ontology semantic focused crawler search engines厦门大学本科毕业论文III目录第一章 引言.8 第二章 概念和开发工具10 2.1 基于本体的定题爬虫概念介绍.10 2.1.1 本体概念10 2.1.2 网络爬虫介绍10 2.2 开发工具介绍.112.2.1 Eclipse3.2.1112.2.2 Tomcat5.5122.2.3 JSP122.2.4 Mysql 数据库.13 第三章 武器本体的建立14 3.1 武器本体介绍.14 3.2 武器本体构造的技术路线.14 3

6、.3 武器本体的设计原则.14 3.4 武器本体的生命周期模型.15 3.5 武器本体的开发.17 3.5.1 武器领域概念层次的确定17 3.5.2 武器本体模型创建17 第四章 系统的设计与实现18 4.1 介绍18 4.2 总体设计18 4.2.1 程序设计模式18 4.2.2 总体设计思想19 4.2.3 爬虫总体框架结构20 4.3 模块设计.22 4.3.1 页面处理模块22 4.3.1.1 模块功能说明.22 4.3.1.2 模块的处理流程.23 4.3.1.3 模块的输入与输出.23 4.3.1.4 算法的实现.24 4.3.2 主题过滤模块24 4.3.2.1 模块功能说明.

7、25 4.3.2.2 模块的处理流程.25 4.3.2.3 模块的输入与输出.26 4.3.2.4 算法的实现.27 4.3.3 链接算法模块27 4.3.3.1 模块功能说明.27厦门大学本科毕业论文IV4.3.3.2 模块的处理流程.28 4.3.3.3 模块的输入与输出.28 4.3.3.4 算法的实现.29 4.4 数据库设计29 4.4.1 表的创建29 4.4.2 数据库功能描述30 4.5 查询接口的设计31 第五章 搜索结果分析 .33 5.1 原始的搜索结果33 5.2 爬虫系统改进的搜索结果34 第六章 结论 .37 致谢.38 参考文献.39厦门大学本科毕业论文VCONT

8、ENTChapter 1Introduction 8 Chapter 2 Concepts and Development Toolkits.10 2.1 Concepts Introduction10 2.1.1 Ontology .10 2.1.2 Crawler .10 2.2 Development Toolkits Introduction.11 2.2.1 Eclipse3.2.111 2.2.2 Tomcat5.5.12 2.2.3 JSP.12 2.2.4 Mysql 13 Chapter 3 Build Ontology of Weapon.14 3.1 Weapon Ont

9、ology Introduction.14 3.2 Technology.14 3.3 Design Principle.14 3.4 Ontologe Lifecycle15 3.5 Build Weapon Ontology .17 3.5.1 Weapon Concepts17 3.5.2 Build Ontologe Model .17 Chaper 4 Design of Crawler System18 4.1 Introduction 18 4.2 Design18 4.2.1 Mode Design.18 4.2.2 Design Kernel.19 4.2.3 Frame D

10、esign.20 4.3 Module Design.22 4.3.1 Page Dispose Module 22 4.3.1.1 Description 22 4.3.1.2 Module Flow23 4.3.1.3 Input and Output23 4.3.1.4 Arithmetic 24 4.3.2 Keyword Filter Module24 4.3.2.1 Description 25 4.3.2.2 Module Flow25 4.3.2.3 Input and Output26 4.3.2.4 Arithmetic 27 4.3.3 Links Arithmetic

11、Module27 4.3.3.1 Description 27厦门大学本科毕业论文VI4.3.3.2 Module Flow28 4.3.3.3 Input and Output28 4.3.3.4 Arithmetic 29 4.4 Database Design29 4.4.1 Create Table.29 4.4.2 Function Description.30 4.5 Design of Interface of Query31 Chapter 5 Analyse Search Result33 5.1 Original Result33 5.2 Improve Result.34

12、 Chapter 6Summary37 Acknowlegement 38 Reference 39厦门大学本科毕业论文第 1 页 共 32 页第一章 引言目前的搜索引擎大多数是面向所有信息的,可以称之为综合性搜索引擎,它们普遍存在以下问题:(1)综合性搜索引擎试图满足各类用户的查询需求,所搜集的网页内容广而泛,随着信息的日益多元化,用户对信息的需求往往是针对特定主题的,在这种面向主题的搜索中,由于各个用户的需求都不尽相同,综合性搜索引擎在主题的选取方面无法满足所有用户的需要,如Yahoo的网页目录不可能枚举出所有主题。(2)即使是使用了PageRank这样的排序技术,但由于其对新出现的网页存

13、在有偏性,导致新出现的网页排序较后而不易被用户所发现。(3)即使搜索引擎采用增量搜集策略,也可能会有一大批网页因为更新或删除而无法搜到。针对上述问题,本文提出了基于本体的定题爬虫搜索引擎这一概念。网络爬虫是因特网上一个自动下载网页的程序。网络爬虫已被广泛应用于搜索引擎。随着用户个性化与专业化需求的增加,传统爬虫已不能满足这种需求,因而出现了定题爬虫。定题爬虫会根据特定的抓取目标,有选择地访问网络链接,并迅速获取网络上特定主题的大量信息,因而对专业搜索引擎或需获取某主题信息进行数据挖掘的应用具有极大的价值。为了实现特定领域信息的获取,需要某种主题。过滤策略,目前通用的做法是根据网页中的关键词判定

14、,由于存在一词多义及一义多词的现象,这种基于关键词的判定策略已被证实精确度不高,会遗漏许多相关页面或添加许多不相关的页面. 因此我们提出一种基于语义的主题相关性判定策略,利用ontology 对领域概念及概念间关系的明确定义来提高判定精度。基于本体的定题爬虫搜索引擎,就是一种运行在个人计算机上的搜索引擎,它能根据用户自由定制的主题领域实时在Internet上搜索与之相关的信息。实时性保证了每次搜集到的信息都是某个主题领域中最新的,解决了综合性搜索引擎中普遍存在的时效性不高和对新出现网页存在有偏性的问题。主题领域的可厦门大学本科毕业论文第 2 页 共 32 页定制性大大提高了搜索的灵活性,解决了

15、主题领域枚举难的问题。此类搜索引擎只可以运行于个人计算机上,其核心是一个实时的Web Crawler服务程序。它通过启发式搜索算法,根据用户定制的主题领域实时在Internet上展开搜索,并将搜索结果以特定格式存入对应的主题文件。相信此类搜索引擎将成为综合性搜索引擎的又一重要补充。基于本体的搜索引擎也是未来搜索引擎的一种发展趋势所在,其搜索质量的高效性为广大网民提供更为有效的搜索信息,节约了搜索过程中所耗用的人力、财力、物力等各种资源,提供了极大的方便。厦门大学本科毕业论文第 3 页 共 32 页第二章 概念和开发工具2.1 基于本体的定题爬虫概念介绍2.1.1 本体概念本体来自希腊词汇,on

16、to表示being, logos表示to reason,最初是哲学上的一个分支,用来表示事物的本质和组织。虽然这个术语在17世纪诞生,但是它和亚里斯多德在公元前四世纪所给出的定义(Metaphysics)同义,哲学家们用它来回答一些基本的问题如“什么是本质?”、“所有事物的一般特征是什么?”。本体在计算机领域研究的应用和人工智能(AI)、信息技术的发展密切相关。在AI领域,为了建立相关领域的通用知识库,需要考虑在一个领域中哪些知识是可以复用的或共享的,以及怎样获取和描述一个领域中的一般性知识等问题;在数据库管理系统领域,虽然数据库技术己经成熟,但是数据库的异构给数据的集成和共享带来很多困难;在软件工程领域,应用程序需要具体、统一的领域建模形式化基础而实现软件的复用。这三个领域的发展都需要解决对特定领域的概念进行通用的描述,这正是本体回答的问题。2.1.2 网络爬虫介绍网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号