基于Lucene校园垂直搜索项目设计说明书

上传人:gg****m 文档编号:233971999 上传时间:2022-01-03 格式:DOCX 页数:4 大小:71.29KB
返回 下载 相关 举报
基于Lucene校园垂直搜索项目设计说明书_第1页
第1页 / 共4页
基于Lucene校园垂直搜索项目设计说明书_第2页
第2页 / 共4页
基于Lucene校园垂直搜索项目设计说明书_第3页
第3页 / 共4页
基于Lucene校园垂直搜索项目设计说明书_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于Lucene校园垂直搜索项目设计说明书》由会员分享,可在线阅读,更多相关《基于Lucene校园垂直搜索项目设计说明书(4页珍藏版)》请在金锄头文库上搜索。

1、基于Lucene校园垂直搜索项目设计说明书背景介绍现在互联网那么强大,几乎没有其不可达到的领域,尤其是搜索引擎扮演者 非常重要角色,没有岀色的搜索引擎就用户不能检索到所需要的信息,没有良好 的搜索布局就不会有更系统的网页数据,显然好的搜索引擎必须耍以更系统的数 据源为前提。随着互联网的网页成爆炸式增长,通用搜索引擎的不足口益突出,垂直搜索 就成为了新军力量突牛猛涨,深受用户的喜爱,大搜索门户也相继攻击相关垂直 分搜索,雨后春笋般冒出,技术也逐渐成熟了。纵观很多出名的垂直搜索门户, 几乎不见相关基于校园网的高校垂直搜索,也许此领域的利益可见期没有像其他 商业性强的领域那么短,但这方而人人网做出了

2、客观的成就,其属于高校真实社 交区网络,但是高校搜索做的不够深,并没有充分挖掘高校的潜力。曾经一个搜索资深专家统计过:70%左右的信息不能被通用搜索检索到;相 信高校也是其中一个方面。随着网络的大力发展,高校的信息也随之庞大起来, 本项H的H的就是充分挖掘西安电子科技大学的信息,为了更好的为用户服务。需求说明本项H的初期规划是通过校内搜索直接分页展示所需正文信息,而不需要用 户进入有关的链接网站或网页,减少用户记忆大量的网站名称或其他资源。用户 可以通过这个搜索页而就可以搜到全而精确的信息,这就是我们的希望结果。我们H前正在编码实现未建索引的网络爬虫程序,网页抓取,网页解析, URL提取,数据

3、元数据库存储,并在搜索页面检索简单的信息,这是我们的初 步Demo,必须在五月初出炉。之后就要结合Lucene的API对已抓取的网页建立索引,这部分还没有布好 局,不能轻易断论。浏览过大概的流程,光索引词的确立,索引文件存贮,索引 合并优化就挺难的,还有重要的分词算法,也是需要研究并实现,在检索模块,也需要不少精力,尤其是适合高校的相似度匹配和排序算法,等待我们去尝试。开发环境:基于Windows xp操作系统Tomcat Web服务器MYSQL数据库Visial Studio 2005采用C+/C语言开发设计思路首先纵观垂直搜索引擎的原理,主要由爬虫模块、索引模块、检索模块、用 户接口等4个

4、部分组成,如图1所示。首先用爬虫模块从初始的URL种子开始 抓取,把抓取下来的网页内容进行分析,确定所需要的信息后再抽取为结构化数 据,接着就对结构化数据进行中文分词和建立索引并牛成索引库,最后制作网页 供用户通过查询模块进行查询。用户接II检索模块用户接口用户接11索引模块索引库图1:搜索引擎总框图我们主要的任务是在爬虫模块,设计白己的网络爬山,所以这部分比较详细。网页爬虫模块:网络爬虫流程如图2所示。通用搜索-般都采用广度优先搜索,尽可能多的抓取网页,越多越好,正体 现其“广”的典型特性;而对于垂直搜索,也采用广度优先,但限制搜索树的层 次,有人统计一般控制在3层,因为Z后层数越增加血有用

5、的网页信息量迅速地 递减,也就是弊大于利,于是舍去更深层的抓取信息,但这样做优势是简单比较 有效抓取了大部分信息,同时避免了深度搜索的低效率,由于校园网的高速和信 息网并非庞大,所以会设访问层数为4;URL的匹配,是采用正则表达式匹配,正则表达式更有效,表达式简短高 校;数据存取,首先要对非结构化的网页信息进行结构化,本项H采用基于正则 表达式和HTMPParser技术的模板提取法进行结构化信息提取,然后调用Lucene 的API牛成索引且存入数据库中,采用ODBC技术接口连接数据库。图2:网络爬虫流稈索引模块和检索模块:采用开源的Lucene作为整体搜索框架,还有强大的API,符合本项口的组

6、 件就保留,不符的就需要更改完善或改善提高。其11 Lucene的分析技术对英文 很有效,但对中文分析几乎没有什么利用价值,中文的复杂度,要考虑到语义环 境,上下文结合,再者我们本项H的行业特点,特殊或者专用大量的教学和科研 专业术语名词,需要一定的具有高校特征的分词词库和分词技术,这里也需要大 量的工作和一定的策略。fT前中文分词法较好的是基于词典分此法,较出名的中 文词库是中科院的标注的算是完整的一个词库,所以我们会采用此词库。用户接口模块:采用JSP实现页而设计,主要的技术是缓存方式和分页方式,还有重要的排 序衡量评价策略,这都需要探索适合高校的模式。创新点本项H的新颖点如下:第一、初步

7、出发点是借助校园的速度优势,深度挖掘有关西电高校信息,再 经过整合处理,希望为西电的师牛和很想了解西电的用户提供精确的搜索信息平 台;第二、这点很重要,本项H可以说只是一个小的实践基地,其延伸的范围或 应用领域还是很广的,从长远来看更有意义。假如要和腾讯的搜搜结合起来,还 是有很大可能的,可以产牛高校直通车产站。腾讯产品用户本來一大部分的对象 就是学牛,相信高校是占其中很大部分,而且具有一定的独立自主消费能力,能 够创造更大的商业空间,等毕业进入社会之后,其商业潜力更巨大。通过扩展各 大高校的校内搜索搜集充实的资料,尤其是各大高校的火爆论坛,内容丰富,更 新快,能够真实反映学牛的真实特性,深度挖掘高校特性和学牛的行为特征和偏 好,之后可以量身制定适合的广告策略,为撒网投向高校领域提供良好的基础, 这为腾讯搜搜的个性化、社区化,甚至情景搜索提供有用的待挖掘数据和信息。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号