高等教育动态资讯收集查询系统的设计与实现 ——毕业论文

上传人:wo7****35 文档编号:61182530 上传时间:2018-11-25 格式:DOCX 页数:51 大小:2.13MB
返回 下载 相关 举报
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文_第1页
第1页 / 共51页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文_第2页
第2页 / 共51页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文_第3页
第3页 / 共51页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文_第4页
第4页 / 共51页
高等教育动态资讯收集查询系统的设计与实现 ——毕业论文_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《高等教育动态资讯收集查询系统的设计与实现 ——毕业论文》由会员分享,可在线阅读,更多相关《高等教育动态资讯收集查询系统的设计与实现 ——毕业论文(51页珍藏版)》请在金锄头文库上搜索。

1、重庆理工大学毕业论文 高等教育动态资讯收集查询系统的设计与实现 编号 毕业设计(论文)题目 高等教育动态资讯收集 查询系统的设计与实现 二级学院 计算机科学与工程 专 业 计算机科学与技术 班 级 XXXXXXXXX 学生姓名 学号XXXXXXXX 指导教师 职称 XXX 时 间 XXXXXXXXX 目 录摘 要IAbstractII1 绪论11.1课题背景11.2国内外研究现状11.3 研究目的21.4论文的组织结构22.开发技术与原理简介42.1 搜索引擎发展概述42.1.1搜索引擎简介及发展目标42.1.2 搜索引擎分类42.2基本工作原理及技术分析52.2.1 网页抓取52.2.2 建

2、立索引82.2.3 检索查询处理103. 需求分析133.1功能需求133.1.1高等教育的垂直搜索引擎需求133.1.2功能模块需求分析133.2 性能需求163.3 技术可行性分析164. 系统设计174.1 系统流程图174.2软件结构与模块划分174.3 程序流程设计194.3.1客户端程序流程设计194.3.2 服务器端程序流程设计194.4 数据结构设计234.4.1数据库端234.4.2 服务器端245.2.3文件夹端244.5 界面实现244.5.1客户端界面:245.3.2服务器端维护界面255. 系统实现275.1界面实现275.1.1客户端界面:275.1.2服务器端维护

3、界面275.2 代码实现295.2.1网络爬虫实现代码295.2.2 索引建立实现代码305.2.3 查询模块实现代码306. 系统测试326.1测试环境的搭建过程326.2功能实现测试326.2.1网页数据爬取测试:326.2.2分词模块测试356.2.3索引数据库建立模块测试356.2.4 搜索模块测试367.总结37致 谢38参 考 文 献39文献综述40摘 要从传统搜索引擎中衍生出来的垂直搜索引擎,从刚开始的发展就备受人们和研究者的关注,它相对于传统的搜索引擎,针对性更强,目的性更明确,目标人群更显明,相关信息更精准。垂直搜索引擎是一种对于目标明确的一个行业或者专业的一方面,进行针对特

4、定目标人群的一种搜索引擎服务。在与其相关的专业方面进行信息的深度提取,并进行更加专业的分析。在自己查阅相关书籍和资料以后,本篇论文主要是用于开发一个关于高等教育方面的动态资讯的垂直搜索引擎。该系统采用网络爬虫,从相关的教育网站,例如中国教育网作为其实网站,进行与高等教育相关信息的提取,在这之中,可以采取深度优先的Shark-Search算法,或者是广度优先的PageRank算法。之后对提取的数据信息进行分析,然后建立索引,对它们做倒排索引等。该系统最终实现了对高等教育动态资讯的收集和存取。主要有网络爬虫、建立索引、关键字搜索等功能模块。本文首先介绍了关于该课题研究的背景以及重要性等方面,之后针

5、对与其有关的技术的原理进行了一定的解释,同时结合文章以及自己的设计,开发一个关于高等教育动态资讯的收集的系统。该搜索引擎主要涉及到网络爬虫,页面分析,建立索引等相关的知识和算法结构。关键词:高等教育 垂直搜索引擎 网络爬虫 倒排索引 信息抓取AbstractVertical search engine derived from the traditional search engine with the people and scholars have paid attention to it from the beginning.It compared with the traditiona

6、l search engine,more targeted,more targeted, the target population is more obvious, the relevant information is more accurate.Vertical search engine is a kind of industry or profession which is specific to the target with a search engine service for a specific target population.Depth extraction and

7、its related professional information, and professional analysis.After consulting related books and materials,this paper is mainly used to develop a vertical search engine on the dynamic information of higher education.The system uses web crawler to extract information related to higher education fro

8、m the relevant educational websites, such as the Chinese education network as a web site.In this, we can take the depth first Shark-Search algorithm, or the breadth first PageRank algorithm.After the analysis of the data extracted information, and then set up the index, doing inverted index, etc.The

9、 system finally realizes the collection and access of the dynamic information of higher education.There are web crawler, the establishment of index, keyword search and other functional modules.This paper firstly introduces the background of the research on the subject and its importance.Then explain

10、 the principles of the technology,at the same time, combined with the article and its own design, the development of a dynamic information on the collection of higher education system.The search engine mainly related to web crawler, page analysis, the establishment of index and other related knowled

11、ge and algorithm structure.Key words: Higher Education, Vertical search engine,web crawler,Inverted index,Information capture.II1 绪论1.1课题背景随着互联网的快速发展,互联网技术已经应用到普通百姓的生活的方方面面,其中搜索引擎的使用尤为广泛。在最近的15年时间段,是搜索引擎爆炸性快速发展的阶段。搜索引擎的发展从最早的分类目录的一代,经历文本检索,链接分析,到现在的以用户为中心的一代。而随着社会的发展,我们了解到一个国家的高等教育发展状况,也反映了它的国际竞争力,因

12、此关注和研究高等教育的动态资讯越来越受教育界的重视,并且高校老师和学生也越来越喜欢关注与自己切身相关的各种信息。因此,当再给每个用户相同的一个入口的时候,已经不能够满足他们的搜索要求了。并且,一般的搜索引擎想要保存以及更新所有的动态资讯是不可能的。对于上述情况,就必须需要一个能够挖掘更加准确,更有深度,主题信息保存更完整的高等教育垂直搜索引擎,用来满足学者,老师,高校同学等受众人群的使用。1.2国内外研究现状目前国内外有很多的垂直搜索引擎,但是还没有单独针对高等教育方面的垂直搜索引擎。像中国教育信息网、中国教育考试网等是一些提供了关于教育方面信息的门户网站,但是还并没有一个单独适用于高等教育方

13、面的搜索引擎。垂直搜索引擎爬取的信息来源应该是与该事项有关的行业网站。比如关于工作信息方面的垂直搜索引擎 ,它的数据信息来自于 , ,以及。垂直搜索引擎的所有的搜索动作都是属于一种结构化的搜索,该行为是在结构化数据以及元数据的基础上成立的。中国的垂直搜索引擎市场规模在年得到很大程度的扩大发展,根据易观国际的监测以及研究数据可以看出,在垂直搜索引擎的市场规模从上半年的21.5亿元发展到其年底的53.2亿元,其中垂直搜索引擎占据了很大的分量。现在国内外的垂直搜索引擎所囊括的行业五花八门,关系生活的方方面面,比如就有找工作方面,医疗方面,旅游方面,图书方面以及购物方面。在中国的垂直搜索引擎领域内

14、,排行前面的是赛迪IT罗盘,其网址是:/http:/,作为赛迪网推出的在中文领域内的首个关于IT方面的垂直搜索引擎,它具有不同凡响的意义。到2011年为止,它就已经收集了关于IT方面的网址有2万多条,而关于IT方面的网页的数据数以百万。但即使是这样,中国的垂直搜索引擎技术的发展与国外水平仍然有很大的差距,主要体现在对于数据的挖掘方面,接口开放方面以及对于信息的共享等层面。在国外发展比较好的几个垂直搜索引擎有关于法律信息方面的LIBClient-IRISWeb系统,针对科学信息开发的Seirus系统等。1.3 研究目的现在互联网的发展很迅速,有各种的消息渠道如微博,网页,朋友圈可以获取各种世界上正在发生或已经发生的事情。但是太多的信息轰炸,反而很快就覆盖了我们真正想要关心的事情,比如许多的高校学生,老师以及高等教育的研究者就很关注每天发生了哪些与自己也就是高等教育方面的事件,同时,也想要了解在以前是不是也发生过相似的事件。但是,社会发展日新月异,每天都有大量的事

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号