可行性报告-公众舆论安全监测系统的研制及应用

资源描述

《可行性报告-公众舆论安全监测系统的研制及应用》由会员分享，可在线阅读，更多相关《可行性报告-公众舆论安全监测系统的研制及应用（13页珍藏版）》请在金锄头文库上搜索。

1、互联网公众舆论平安检测系统的研制与应用可行性报告1. 立项的背景和意义根据最新的统计数据，我国网民数量已经超过4.2亿，居世界第一位。如此数量庞大的网民群体，加之以自由言论的网络气氛和形态丰富多样的网络媒体形式，造成了互联网 XX 量的舆论话题。互联网上的话题和传统媒体上的话题有很多区别，最大的不同就是传统媒体上的报道往往是单向性的信息发布，而互联网上的话题往往具有突发性、直接性、丰富性、互动性、偏差性的特点。对于政府来说，这些数据中蕴含着大量的信息。正确合理利用这些信息，可以有效地了解民情民意，从而快速及时处理一些突发性公共危机事件，改良我们的管理和效劳，促进社会的和谐、稳定和开展。互

2、联网上的讨论和文章很多。对于政府来说，一方面，网民会在互联网上发表自己对政策以及政府部门的观点、意见和看法。这些观点信息能反映出那些好的、受人们拥护的政策，也包含许多针对性的批评如：对于医疗事故的曝光和医院效劳的批评，对尚待改良问题的建立性的意见如：对如何优化公共交通的建议、对医疗社会保障的制度的建议、对中小学教育改革的建议等等。另一方面，我国正处于经济开展的黄金期和社会矛盾的多发期和凸显期。一些看似平常的小事往往会酿成群体性事件。群体性事件，尤其是经过互联网的传播和放大，往往造成剧烈的冲突对抗、严重的破坏性后果和恶劣的社会影响。如今网络上已经出现了一些矛盾很锋利的公众舆论话题。这

3、些话题很容易被强烈地放大，网络舆论从而成为了左右公众观点的很大的力量。因此对这些富含信息的话题和文章，特别是那些可能影响社会稳定和谐的敏感话题，政府需要第一时间了解信息，发现问题，尽快地解决问题。这对提高政府管理和效劳水平意义重大，对于社会的稳定和开展意义重大，对于社会的开展和进步意义重大。另外，对于互联网上的恶意扭曲，扩大和传播不良信息的行文也能在第一时间进展打击，从而维护社会稳定和谐。2. 国内外研究开发现状和开展趋势传统的网络舆情监控系统通常分为网络异常监测和常规趋势预测两方面。实际上，网络异常监测对于政府部门更为重要。因此，我们主要关心的是网络异常监测方面。针对网络异常监测，一般采用数

4、据流高频项检测技术。该技术首先对所采集的关键词语料集进展必要的分词，然后对提取的关键词进展统计、聚类和人工分类，最后得到舆情关键词。在此根底上，针对所选的舆情关键词进展频度曲线绘制，针对关键词频度曲线进展必要的突变分析和关联分析。突发检测 Burst Detection 算法是针对关键词频度曲线的突变性分析的有效方法。目前国内对于文本数据的突发性检测研究尚处在初级阶段。国际上对文本词频的突发性建模burstiness多用Dirichlet pound Multinomial(DCM)模型。最新的方法是采用Dirichlet poundMultinomial Latent Dirichlet

5、 Allocation(DCMLDA) 模型将话题检测和词频突发性检测结合在一起进展建模。这种基于词频的方法在话题发现方面多采用聚类算法。这种方法的缺点是：往往对网民评论的情感因素关注缺乏，而且通常是停留在热点话题发现的程度，没有进一步根据倾向性进展区分。最新的方法将自然语言理解技术中的文本倾向性分析技术引入舆情监控系统之中。该方法首先通过自然语言处理的分词技术得到热点话题和与热点话题有修饰关系的词语，然后基于词语倾向性词典对热点话题的修饰局部进展特征提取，最后使用机器学习的方法区分公众舆论对热点话题的情感倾向。已有的文本倾向性分类研究主要有以下三类方法，这些方法在解决一些特定问题上已经取得

6、了不错的效果。第一种是基于机器学习的传统方法，将统计分类技术应用于文本倾向性分类。 Pang Bo等人提取了包括词汇、词性、多元组等特征，用多种分类器设计方法进展了比照实验。第二种是基于语义的方法，先提取文本中代表情绪倾向的词汇，再对其进展统计计算，根据特定公式得出倾向性得分，这可以参考 Turney 的工作。他以点互信息PMI 判断词汇倾向性并对所在文本进展了倾向性判别。第三种是结合了前两种的方法，以文本中倾向性的词汇为根底，量化得到特征向量训练分类器。在朱杰的工作中，他用基于评价对象和情感特征的文本向量模型，通过TSF-IDF 加权方法，得到的文本情感倾向分类方法取得了不错的结果。相对于前

7、两种方法，这种方法出现较晚，但由于综合了两者的长处，效果要好一些。综上所述，从算法角度看，目前的研究算法在短文本的分类，倾向性分析方面，在垃圾文章的过滤等方面还远远不够。另外，从系统的设计和实现角度看，目前已有的互联网舆情监控系统在功能上还远远不能满足实际应用的需求，这些系统还缺少下面这些功能：无法对微博，新闻评论进展分析；还没有自动过滤垃圾文章、自动分析文章的倾向性、自动对文章分类的功能；还不能针对政府部门的需要进展针对性的分拣和报告。这些正是开展该课题的动机。4. 工程目标和研发内容4.1 工程目标通过本课题的实施，将构建一个具备先进采集和分析功能的互联网舆情系统。系统集成了微博和新闻评论

8、的采集功能，系统具备垃圾文章过滤、不同话题文章的分类功能的先进数据分析能力；系统还可以自动生成报告和发送预警信息。另外，通过本课题的实施，将实现4.2 研发内容本课题的任务是对互联网公众论坛研制舆论平安监测系统。具体说，本课题的研究和开发任务包括如下几个方面：（一）数据收集。数据收集是一个根本任务，主要包括微博和新闻评论的收集。工程申请人所在单位已经具备了一般的博客和论坛的数据收集子系统。目前还缺少微博和新闻评论的收集。因此，这局部的工作集中在微博和新闻评论的收集子系统的研发，以及在用户行业相关的论坛、博客和新闻站点进展自动的数据收集和整理。（二）数据分析。数据分析是该课题的最重要和核心的

9、局部，包括垃圾文章过滤、不同话题文章的分类和文章的倾向性分析三个子任务。（1）对话题不相关的文章进展过滤主要指对于诸如广告、自动回复等等无用的文章进展过滤。（2）对不同类型的热点话题进展分类是把文章按照不同的政府局部进展分拣，如：把文章按照医疗卫生、公安等局部进展分拣。（3）文章的倾向性分析是指该文章是积极的、支持的、正面的，还是消极的、反对的、负面的。申请人单位已经具有了文章的倾向性分析算法。因此，这局部工作不作为该工程的研究内容。（4）报告自动生成。主要是指根据公安等系统的工作方式和要求，制作和生成需要的报告。（5）四）信息发送。目前申请人所在单位已经具备了通过手机短信

10、和电子的方式进展及时的信息发送。在该课题中，还方案和公安部门的内网相联，从而可以将一般的信息和报告及时在公安部门的内网发布，让普通的公安人员阅读。（6）平台设计和实现。为完成该应用系统，需要进展平台的设计和实现4.2.1 数据的收集（1）微博的采集由于微博数量众多，并且不少微博系统需要你有了微博的 ID 以后才可以查看到别人的微博信息，为简化采集流程，本系统的微博采集的主要思路是我们会注册一些ID 去关注 FOLLOW 那些作为采集目标的微博，这样登录这些ID 以后就会看到所关注的微博的更新。然后利用系统已有的网页构造化信息采集模块从这些ID 采集所有关注的微博的内容。在关注微博数量不

11、是特别多的情况才需要注册更下，用一个ID就足够了。当关注的微博数量超过微博系统所允许的关注目标数以后,多的ID。采集的架构设计如图 1所示。图1微博采集架构图示(2)新闻评论的采集系统现已有新闻采集模块，需要参加评论的采集功能。考虑到新闻的时效性和系统的性能及反响速度，系统将只对指定的时间内例如最近一个月内的新闻采集其评论的更新。新闻的采集和评论的采集两个模块在数据上保持联系，但在运行上保持独立，如图2所示。新闻采集模块会采集新的新闻，而评论采集系统那么会选择系统里面采集到的指定时间段内的新闻去采集其评论，并在数据层面将评论和其所针对的新闻关联起来。每次评论的采集根据评论的发表时间和上次

12、采集的运行时间只采集新增加的评论内容。图2新闻采集架构图示4.2.2 数据的分析数据分析是该课题的最重要和核心的局部。下面对于其中涉及的三个子问题描述可能采取的技术路线。我们把垃圾文章的过滤看成是一个分类问题，即对于一篇文章，判断其是垃圾文章或者非垃圾文章。当然，不同热点话题文章的分拣很自然地可以被看作是一个分类问题。因此，对于垃圾文章过滤和不同热点话题文章的分类我们可以采用统一的两类分类器设计方法。例如，针对垃圾文章过滤可以把所有的数据分为两类，一类是有用数据，另一类是垃圾数据。而针对不同话题医疗，教育，公安等的分类，我们可以简单地将教育和公安等话题分为非医疗类文章。在分类器设计局部

13、我们主要考虑两种分类方法：1Adaboost方法，2先聚类再分类的方法。首先我们提取关键词向量作为文本的特征。具体做法是：先采用分词工具提取全样本集训练和测试的关键词，然后去掉无意义的词语语气词，连接词等得到一个关键词表，该词表共有 N个关键词。每一篇文章的特征是一个维数与关键词表中词语个数一样的向量。我们考虑的两种方法都是用这种特征向量。Adaboost方法需要一个标注的训练集，以下以垃圾文件过滤为例进展说明。在训练集中，垃圾文件被标注为1,非垃圾文件标注为-1。第i篇文章可以用特征向量表示为：d fi凶;1；为;2；;为小针对每一维有一个弱分类器：.1if Xi；ktkhki else

14、其中，tk是一个阈值，该阈值保证弱分类器的正确率在50%以上。给出训练样本：f(d1,y1), f(d2,y2),，f 9MoM、其中di是文章的特征向量，yi是每篇文章的标签。Adaboost的具体算法是：初始化：设正负样本分别有A个和B个。B1wi假设yi 1 ,初始化其权重为A B ,A1wi假ayi 1,初始化其权重为A B。对每一个di,归-化wi ojwihj(di) yj对di的每一维，训练一个弱分类器，计算器错误率为：i。1 t从j,j 1,-,M中选出最小的一个，记为 t，计算 t 。如果t 0.5,那么终止循环，否那么增大错误样本权重为: hj (di) yJWi(t 1

15、) Wi(t) t o最终输出的分类器为:TH sign( log( t)ht(d) t 1在Adaboost方法中，如果训练集太小，不能保证分类器的性能。如果训练集太大，对训练集中的每一个数据进展标注的代价是非常昂贵的。我们考虑的另一个思路是先聚类再分类。对于垃圾文章过滤来说，虽然很多文章都属于垃圾文章，但是这些文章也自然的聚成一些简单的类别。通过先聚类再分类的方法，有可能使用更为简单的分类器设计方法就可以得到较好的效果。这是因为类别分界面可能更简单了，另外，如果只有少量的样本这种方法也可以得到不错的效果。以下针对不同话题分类的问题进展说明。假设我们一共有 K个话题，那么我们需要设置一个适宜的类别数用于聚类，该数目应1大于 Ko使用这个类别数对全样本集进展聚类。对过分割的聚类结果进展人工指导的合并，同时去除那些自成一类的野值点。根据得到的标签数据，进展分类器设计。4.

展开阅读全文