基于Lucene校园垂直搜索项目设计说明书

资源描述

《基于Lucene校园垂直搜索项目设计说明书》由会员分享，可在线阅读，更多相关《基于Lucene校园垂直搜索项目设计说明书（4页珍藏版）》请在金锄头文库上搜索。

1、基于Lucene校园垂直搜索项目设计说明书背景介绍现在互联网那么强大，几乎没有其不可达到的领域，尤其是搜索引擎扮演者非常重要角色，没有岀色的搜索引擎就用户不能检索到所需要的信息，没有良好的搜索布局就不会有更系统的网页数据，显然好的搜索引擎必须耍以更系统的数据源为前提。随着互联网的网页成爆炸式增长，通用搜索引擎的不足口益突出，垂直搜索就成为了新军力量突牛猛涨，深受用户的喜爱，大搜索门户也相继攻击相关垂直分搜索，雨后春笋般冒出，技术也逐渐成熟了。纵观很多出名的垂直搜索门户，几乎不见相关基于校园网的高校垂直搜索，也许此领域的利益可见期没有像其他商业性强的领域那么短，但这方而人人网做出了

2、客观的成就，其属于高校真实社交区网络，但是高校搜索做的不够深，并没有充分挖掘高校的潜力。曾经一个搜索资深专家统计过：70%左右的信息不能被通用搜索检索到；相信高校也是其中一个方面。随着网络的大力发展，高校的信息也随之庞大起来, 本项H的H的就是充分挖掘西安电子科技大学的信息，为了更好的为用户服务。需求说明本项H的初期规划是通过校内搜索直接分页展示所需正文信息，而不需要用户进入有关的链接网站或网页，减少用户记忆大量的网站名称或其他资源。用户可以通过这个搜索页而就可以搜到全而精确的信息，这就是我们的希望结果。我们H前正在编码实现未建索引的网络爬虫程序，网页抓取，网页解析， URL提取，数据

3、元数据库存储，并在搜索页面检索简单的信息，这是我们的初步Demo,必须在五月初出炉。之后就要结合Lucene的API对已抓取的网页建立索引，这部分还没有布好局，不能轻易断论。浏览过大概的流程，光索引词的确立，索引文件存贮，索引合并优化就挺难的，还有重要的分词算法，也是需要研究并实现，在检索模块,也需要不少精力，尤其是适合高校的相似度匹配和排序算法，等待我们去尝试。开发环境：基于Windows xp操作系统Tomcat Web服务器MYSQL数据库Visial Studio 2005采用C+/C语言开发设计思路首先纵观垂直搜索引擎的原理，主要由爬虫模块、索引模块、检索模块、用户接口等4个

4、部分组成，如图1所示。首先用爬虫模块从初始的URL种子开始抓取，把抓取下来的网页内容进行分析，确定所需要的信息后再抽取为结构化数据，接着就对结构化数据进行中文分词和建立索引并牛成索引库，最后制作网页供用户通过查询模块进行查询。用户接II检索模块用户接口用户接11索引模块索引库图1:搜索引擎总框图我们主要的任务是在爬虫模块，设计白己的网络爬山，所以这部分比较详细。网页爬虫模块：网络爬虫流程如图2所示。通用搜索-般都采用广度优先搜索，尽可能多的抓取网页，越多越好，正体现其“广”的典型特性；而对于垂直搜索，也采用广度优先，但限制搜索树的层次，有人统计一般控制在3层，因为Z后层数越增加血有用

5、的网页信息量迅速地递减，也就是弊大于利，于是舍去更深层的抓取信息，但这样做优势是简单比较有效抓取了大部分信息，同时避免了深度搜索的低效率，由于校园网的高速和信息网并非庞大，所以会设访问层数为4；URL的匹配，是采用正则表达式匹配，正则表达式更有效，表达式简短高校；数据存取，首先要对非结构化的网页信息进行结构化，本项H采用基于正则表达式和HTMPParser技术的模板提取法进行结构化信息提取，然后调用Lucene 的API牛成索引且存入数据库中，采用ODBC技术接口连接数据库。图2：网络爬虫流稈索引模块和检索模块：采用开源的Lucene作为整体搜索框架，还有强大的API,符合本项口的组

6、件就保留，不符的就需要更改完善或改善提高。其11 Lucene的分析技术对英文很有效，但对中文分析几乎没有什么利用价值，中文的复杂度，要考虑到语义环境，上下文结合，再者我们本项H的行业特点，特殊或者专用大量的教学和科研专业术语名词，需要一定的具有高校特征的分词词库和分词技术，这里也需要大量的工作和一定的策略。fT前中文分词法较好的是基于词典分此法，较出名的中文词库是中科院的标注的算是完整的一个词库，所以我们会采用此词库。用户接口模块:采用JSP实现页而设计，主要的技术是缓存方式和分页方式，还有重要的排序衡量评价策略，这都需要探索适合高校的模式。创新点本项H的新颖点如下：第一、初步

7、出发点是借助校园的速度优势，深度挖掘有关西电高校信息，再经过整合处理，希望为西电的师牛和很想了解西电的用户提供精确的搜索信息平台；第二、这点很重要，本项H可以说只是一个小的实践基地，其延伸的范围或应用领域还是很广的，从长远来看更有意义。假如要和腾讯的搜搜结合起来，还是有很大可能的，可以产牛高校直通车产站。腾讯产品用户本來一大部分的对象就是学牛，相信高校是占其中很大部分，而且具有一定的独立自主消费能力，能够创造更大的商业空间，等毕业进入社会之后，其商业潜力更巨大。通过扩展各大高校的校内搜索搜集充实的资料，尤其是各大高校的火爆论坛，内容丰富，更新快，能够真实反映学牛的真实特性，深度挖掘高校特性和学牛的行为特征和偏好，之后可以量身制定适合的广告策略，为撒网投向高校领域提供良好的基础，这为腾讯搜搜的个性化、社区化，甚至情景搜索提供有用的待挖掘数据和信息。

展开阅读全文

基于Lucene校园垂直搜索项目设计说明书

最新文档