基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc

上传人:人*** 文档编号:545272149 上传时间:2023-06-16 格式:DOC 页数:8 大小:40KB
返回 下载 相关 举报
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc_第1页
第1页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc_第2页
第2页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc_第3页
第3页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc_第4页
第4页 / 共8页
基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc》由会员分享,可在线阅读,更多相关《基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究- .doc(8页珍藏版)》请在金锄头文库上搜索。

1、基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*引言 高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校校也逐渐重视了网络舆情突突发事件的应对机制研究。同时,随着公安部对网络络信息安全工作的逐步加强强,高校利用自身技术优势势,自主构建舆情监测系统统并建立一套完善的应对机机制正逐渐成为高校网络信信息安全工

2、作的重点。因此此,在新形势下,遭遇突发发事件,高校如何能以最快快的速度收集网络上相关信信息,跟踪事态发展, 及及时向有关部门通报,防范范网络不良舆情的快速扩散散和演化,并建立相应的响响应机制,实现对网络舆情情的有效管理与控制,使健健康的网络舆情成为维护高高校稳定,推动社会文明发发展的动力,已经成为当前前亟需解决的重要课题。 高校的网络舆情信息主主要来自两部分,一是内部部独立的校园网络,二是外外部开放的互联网络。随着着高校校园信息化建设的深深入发展,校园网中网站、论坛、博客等平台上信息息资源数量呈指数级增长,仅依靠人工检索和信息发发布审核的方式无法有效实实现对网络舆情信息的监测测,急需利用技术手

3、段实现现对海量网络信息的挖掘与与分析,快速汇总成舆情信信息;互联网上信息量十分分巨大,通过垂直搜索引擎擎方式所获取的与高校相关关的信息往往存在查全率不不高的缺陷。高校网络舆情情的监测,既要考虑信息采采集的深度和广度,又要提提高系统的精度与准度;同同时对于发现的舆情信息,要能够做到快速定位,有有效控制。本系统针对上述述高校网络舆情监测工作的的不足,并结合网络舆情传传播特点,提出了构建高校校网络舆情监测系统的整体体方案,并探讨高校面对网网络舆情在监测、分析、引引导和反馈等环节的处理方方法,从而形成完善的应对对机制。 1 系统体系系结构 高校网络舆情监监测系统主要包括三个功能能模块,分别是:校园网舆

4、舆情信息采集模块、互联网网舆情信息采集模块、网络络舆情分析与预警模块,体体系结构如图1所示。 图1 高校网络舆情检测测系统体系结构 由于高高校对校园网络具有较大的的控制权限,一部分信息数数据可利用各种信息发布系系统的管理平台与数据库的的访问权限来获取;另一部部分可利用网络爬虫从网页页数据中获取,系统基于NNutch搜索引擎技术对对校园网内数据进行信息采采集,采集的深度与广度都都达到了较好的效果。对于于互联网上的海量网络信息息,如果采用垂直搜本文由由论文联盟http:/收集整理索引擎进行数据据采集,所获取的数据质量量不高,为此系统采用元搜搜索引擎技术来获取互联网网信息,既提高了信息采集集的针对性

5、又扩大了采集范范围。此外,对于某些特定定的互联网网站,可以采取取以上两种方式相结合的监监测方式,同时采用网络爬爬虫与元搜索引擎技术,来来提高系统的监测精度。网络舆情分析与预警模块采采用关键词特征库匹配方式式和机器学习算法自动进行行网络舆情监测,实现对舆舆情信息及时准确的发现,并与短信预警等系统接口口实现对接,实现舆情信息息的实时发送。 系统主主要功能模块 Nutcch搜索引擎与校园网信息息检索 Nutch是一一个开源的Java实现的的Web搜索引擎,其在LLucene基础上添加了了网页数据抓取功能,提供供了构建搜索引擎所需的基基本工具模块,包括网络爬爬虫、文本分析、分词工具具、建立索引、搜索功

6、能和和结果过滤等。Lucenne是一个高性能、可伸缩缩的信息搜索库,可为Nuutch提供了文本索引和和搜索的API,也可为应应用程序添加索引和搜索功功能,通过Lucene的的数据库接口直接从数据库库中取出数据,用API 建立索引并提供搜索接口口。利用Nutch搜索引引擎作为校园网舆情信息采采集工具,不但可以缩短开开发周期,提高开发效率,而且通过其内部的接口和和插件机制可以实现对校园园网数据的高质量采集。网网络爬虫模块用来实现对校校园网内网页文件的信息采采集;Lucene接口实实现与各种异构数据库的连连接;利用Nutch的插插件机制,采用POI插件件和PDFBox插件来实实现对Word、Exce

7、el、PDF等文档的读取取。通过上述三种方式可以以实现对校园网内多种异构构数据源的信息采集。 2.元搜索引擎与互联网信信息采集 元搜索引擎是是建立在独立搜索引擎之上上的搜索引擎。元搜索引擎擎没有自己的爬虫系统和索索引系统,数据全部来自于于不同的成员搜索引擎,元元搜索引擎将用户的搜索请请求转发给多个成员搜索引引擎,对成员搜索引擎的查查询结果进行筛选与去重操操作后返回给用户。将元搜搜索引擎应用于系统可有效效提高互联网范围内舆情信信息采集的广度、精度和速速度。各独立搜索引擎查询询接口的格式和编码并不相相同,首先要将元搜索引擎擎中的检索条件转换为各独独立成员搜索引擎能够接受受的格式,并通过各自的查查询

8、接口提交,然后对获得得的HTML源文件格式的的检索结果进行分析、处理理,如百度搜索引擎返回结结果中所包含的em、hrref标签,通过对上述标标签信息的解析与提取,可可以获得与之相对应的链接接地址、网页标题以及部分分说明文字,将上述信息处处理为结构化数据后存放到到相应的数据库中。再通过过对不同独立成员搜索引擎擎所获取的舆情信息的链接接地址和网页标题等信息的的对比和有效性检测来实现现结果的筛选和去重,然后后将最终结果提交给Nuttch的文档分析与分词模模块,建立索引。 2.文档分析与中文分词 信息检索的基础是文档分析析,而文档分析在很大程度度上依赖于分词模块对语言言的处理。文档分析是信息息采集完成

9、后的首要任务,Nutch中的文本分析析模块能够完成对各异构文文件中结构化标记语言的处处理,得到纯文本文件。NNutch自带的CJK分分词模块在中文分词的效率率和准确度上不能满足实际际需要。为此,在对比了JJE分词、Paodingg分词和ICTCLAS分分词等多款中文分词模块后后,Paoding分词由由于其开源性和良好的分词词效果被本系统采用,并通通过Nutch的插件机制制集成到系统当中。其原理理是Nutch中的抽象类类Analyzer类实现现了配置和插入中文分词模模块的接口,该抽象类中定定义了一个公有的抽象方法法tokenStreamm(Stringfieeldname,Readder rea

10、der)返返回的类型是TokenSStream。Paodiing分词的分词类返回类类型也是TokenStrream,故只需将参数ffieldName和reeader作为Paodiing分词的输入参数并将将其结果返回给Analyyzer类即可。 2.信息索引与检索 系统统为校园网和互联网内的多多个异构数据源分别建立了了各自的索引文件,为有效效整合索引文件,并将其作作为统一的索引库提供给舆舆情分析与预警模块,需要要对索引文件进行优化。索索引优化其实是将多个索引引文件合并成单个文件的过过程,目的是减少索引文件件的数量,并且能在搜索时时减少读取索引文件的时间间。Nutch中的InddexWrite类提

11、供了了optimize方法实实现该优化操作。索引优化化完成后,利用Nutchh中的MultiSearrcher类可实现对优化化后索引的统一检索功能,检索结果会以一种指定的的顺序合并起来。针对高校校网络舆情信息的特点,综综合考虑信息相关度,时效效性和访问量等因素后,系系统采用了自定义的排序机机制,Lucene的文本本相关度公式作为信息检索索的主要排序依据,辅助以以信息发布时间和访问次数数作为重要的排序因子,系系统通过Lucene的激激励因子boost值来改改变文档得分,从而调整文文档的出现顺序。 2.信息预警 系统采用关关键词特征库匹配与机器学学习算法相结合的方式对舆舆情信息进行预警。在对特特征

12、库内的关键词进行组合合后,对舆情信息索引库进进行检索,获取与之相关的的信息,再通过与数据库中中历史记录的比对得到最新新发现的舆情信息。对新发发现的舆情信息通过聚类算算法对信息进行分类,从而而获得舆情信息的分析结果果;系统提供了良好的人机机交互接口与信息展示界面面,预警信息通过短信接口口发送给网络舆情监测人员员,做到舆情信息的及时发发现、快速预警。 应对对机制研究 高校网络舆舆情除了要依靠技术手段进进行防范与监测外,还要构构建合理的网络舆情应急响响应组织的架构。网络舆情情突发性强、传播速度快,因此高校必须整合各部门门资源,成立专门的网络舆舆情应急响应小组,其组织织结构图如图2所示,由校校领导直接

13、担任组长,以党党委宣传部为核心,校办、学工部和网络中心为重要要组成成员,其他部门密切切配合,建立起一支高效的的网络舆情应急响应队伍。网络舆情事件一旦发生,应立即启动应急预案,预预案应包括信息收集、分析析应对、部门联动和引导反反馈四个环节。各部门由网网络舆情应急响应小组统一一领导,预案中的各环节可可同时启动,要实现技术手手段与思想教育工作并重,防止事态扩大,力争快速速及时的化解舆情危机。图网络舆情应急响应小组组组织结构图 结束语 通过对高校网络舆情监测系系统的研究,实现了基于NNutch与元搜索引擎技技术的高校网络舆情监测系系统,解决了多数据源、异异构信息检索的难点;引入入元搜索引擎技术,完成与

14、与源搜索引擎的对接,达到到了较高的查全率;采用关关键词、敏感词特征库匹配配与机器学习算法相结合的的方式对采集信息进行分析析处理,提高了系统的准确确率,最终实现了高校网络络舆情信息的早发现,早预预警,从而弥补了高校网络络舆情监测技术手段上的不不足;通过对网络舆情的自自动采集、分析与预警替代代了人工操作,提高了工作作效率,并且能够对舆情信信息进行快速、准确的发现现。目前该系统依靠关键词词匹配的方式进行舆情信息息发现,并用聚类算法对发发现的舆情信息进行分类,该方法对已知关键词的舆舆情信息能够取得较好的效效果,但对未知关键词的信信息还无法实现有效监测,今后将进一步加强对这方方面的研究。通过高校网络络舆情监测系统的部署和应应对机制的构建,高校能够够从整体上实现对网络舆情情隐患的及早发现、快速响响应、应急控制、主动疏导导和反馈调整,促进了高校校的稳定与和谐发展。1 / 8

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作范文 > 思想汇报

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号