基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-

上传人:ldj****22 文档编号:33140048 上传时间:2018-02-14 格式:DOC 页数:8 大小:29.50KB
返回 下载 相关 举报
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第1页
第1页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第2页
第2页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第3页
第3页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第4页
第4页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-》由会员分享,可在线阅读,更多相关《基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究-(8页珍藏版)》请在金锄头文库上搜索。

1、基于 Nutch 与元搜索引擎技术的高校网络舆情监测系统研究*引言 高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以最快的速度收集网

2、络上相关信息,跟踪事态发展, 及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。 高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息发布审核的方式无法有效实现对网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂直搜索引擎方式所获取的与高校相

3、关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。 1 系统体系结构 高校网络舆情监测系统主要包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图 1 所示。 图 1 高校网络舆情检测系统体系结构 由于高校对校园网络具有较大的控制权

4、限,一部分信息数据可利用各种信息发布系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于 Nutch 搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜联盟索引擎进行数据采集,所获取的数据质量不高,为此系统采用元搜索引擎技术来获取互联网信息,既提高了信息采集的针对性又扩大了采集范围。此外,对于某些特定的互联网网站,可以采取以上两种方式相结合的监测方式,同时采用网络爬虫与元搜索引擎技术,来提高系统的监测精度。网络舆情分析与预警模块采用关键词特征库匹配方式和机器学习算法自动进行网络舆情监测,实现

5、对舆情信息及时准确的发现,并与短信预警等系统接口实现对接,实现舆情信息的实时发送。 系统主要功能模块 Nutch 搜索引擎与校园网信息检索 Nutch 是一个开源的 Java 实现的 Web 搜索引擎,其在 Lucene 基础上添加了网页数据抓取功能,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等。Lucene 是一个高性能、可伸缩的信息搜索库,可为 Nutch 提供了文本索引和搜索的 API,也可为应用程序添加索引和搜索功能,通过 Lucene 的数据库接口直接从数据库中取出数据,用API 建立索引并提供搜索接口。利用 Nutch 搜索

6、引擎作为校园网舆情信息采集工具,不但可以缩短开发周期,提高开发效率,而且通过其内部的接口和插件机制可以实现对校园网数据的高质量采集。网络爬虫模块用来实现对校园网内网页文件的信息采集;Lucene 接口实现与各种异构数据库的连接;利用 Nutch 的插件机制,采用 POI 插件和PDFBox 插件来实现对 Word、Excel、PDF 等文档的读取。通过上述三种方式可以实现对校园网内多种异构数据源的信息采集。 2.元搜索引擎与互联网信息采集 元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎没有自己的爬虫系统和索引系统,数据全部来自于不同的成员搜索引擎,元搜索引擎将用户的搜索请求转发给多个

7、成员搜索引擎,对成员搜索引擎的查询结果进行筛选与去重操作后返回给用户。将元搜索引擎应用于系统可有效提高互联网范围内舆情信息采集的广度、精度和速度。各独立搜索引擎查询接口的格式和编码并不相同,首先要将元搜索引擎中的检索条件转换为各独立成员搜索引擎能够接受的格式,并通过各自的查询接口提交,然后对获得的 HTML 源文件格式的检索结果进行分析、处理,如百度搜索引擎返回结果中所包含的 em、href 标签,通过对上述标签信息的解析与提取,可以获得与之相对应的链接地址、网页标题以及部分说明文字,将上述信息处理为结构化数据后存放到相应的数据库中。再通过对不同独立成员搜索引擎所获取的舆情信息的链接地址和网页

8、标题等信息的对比和有效性检测来实现结果的筛选和去重,然后将最终结果提交给 Nutch 的文档分析与分词模块,建立索引。2.文档分析与中文分词 信息检索的基础是文档分析,而文档分析在很大程度上依赖于分词模块对语言的处理。文档分析是信息采集完成后的首要任务,Nutch 中的文本分析模块能够完成对各异构文件中结构化标记语言的处理,得到纯文本文件。Nutch 自带的 CJK 分词模块在中文分词的效率和准确度上不能满足实际需要。为此,在对比了 JE 分词、Paoding 分词和 ICTCLAS 分词等多款中文分词模块后,Paoding 分词由于其开源性和良好的分词效果被本系统采用,并通过Nutch 的插

9、件机制集成到系统当中。其原理是 Nutch 中的抽象类 Analyzer 类实现了配置和插入中文分词模块的接口,该抽象类中定义了一个公有的抽象方法 tokenStream(Stringfieldname,Reader reader)返回的类型是TokenStream。Paoding 分词的分词类返回类型也是TokenStream,故只需将参数 fieldName 和 reader 作为Paoding 分词的输入参数并将其结果返回给 Analyzer 类即可。2.信息索引与检索 系统为校园网和互联网内的多个异构数据源分别建立了各自的索引文件,为有效整合索引文件,并将其作为统一的索引库提供给舆情分

10、析与预警模块,需要对索引文件进行优化。索引优化其实是将多个索引文件合并成单个文件的过程,目的是减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch 中的 IndexWrite 类提供了 optimize 方法实现该优化操作。索引优化完成后,利用Nutch 中的 MultiSearcher 类可实现对优化后索引的统一检索功能,检索结果会以一种指定的顺序合并起来。针对高校网络舆情信息的特点,综合考虑信息相关度,时效性和访问量等因素后,系统采用了自定义的排序机制,Lucene 的文本相关度公式作为信息检索的主要排序依据,辅助以信息发布时间和访问次数作为重要的排序因子,系统通过Luce

11、ne 的激励因子 boost 值来改变文档得分,从而调整文档的出现顺序。 2.信息预警 系统采用关键词特征库匹配与机器学习算法相结合的方式对舆情信息进行预警。在对特征库内的关键词进行组合后,对舆情信息索引库进行检索,获取与之相关的信息,再通过与数据库中历史记录的比对得到最新发现的舆情信息。对新发现的舆情信息通过聚类算法对信息进行分类,从而获得舆情信息的分析结果;系统提供了良好的人机交互接口与信息展示界面,预警信息通过短信接口发送给网络舆情监测人员,做到舆情信息的及时发现、快速预警。 应对机制研究 高校网络舆情除了要依靠技术手段进行防范与监测外,还要构建合理的网络舆情应急响应组织的架构。网络舆情

12、突发性强、传播速度快,因此高校必须整合各部门资源,成立专门的网络舆情应急响应小组,其组织结构图如图 2 所示,由校领导直接担任组长,以党委宣传部为核心,校办、学工部和网络中心为重要组成成员,其他部门密切配合,建立起一支高效的网络舆情应急响应队伍。网络舆情事件一旦发生,应立即启动应急预案,预案应包括信息收集、分析应对、部门联动和引导反馈四个环节。各部门由网络舆情应急响应小组统一领导,预案中的各环节可同时启动,要实现技术手段与思想教育工作并重,防止事态扩大,力争快速及时的化解舆情危机。图网络舆情应急响应小组组织结构图 结束语 通过对高校网络舆情监测系统的研究,实现了基于Nutch 与元搜索引擎技术

13、的高校网络舆情监测系统,解决了多数据源、异构信息检索的难点;引入元搜索引擎技术,完成与源搜索引擎的对接,达到了较高的查全率;采用关键词、敏感词特征库匹配与机器学习算法相结合的方式对采集信息进行分析处理,提高了系统的准确率,最终实现了高校网络舆情信息的早发现,早预警,从而弥补了高校网络舆情监测技术手段上的不足;通过对网络舆情的自动采集、分析与预警替代了人工操作,提高了工作效率,并且能够对舆情信息进行快速、准确的发现。目前该系统依靠关键词匹配的方式进行舆情信息发现,并用聚类算法对发现的舆情信息进行分类,该方法对已知关键词的舆情信息能够取得较好的效果,但对未知关键词的信息还无法实现有效监测,今后将进一步加强对这方面的研究。通过高校网络舆情监测系统的部署和应对机制的构建,高校能够从整体上实现对网络舆情隐患的及早发现、快速响应、应急控制、主动疏导和反馈调整,促进了高校的稳定与和谐发展。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 社科论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号