文档详情

基于大数据的网络舆情分析方法研究

I***
实名认证
店铺
DOCX
447.80KB
约9页
文档ID:225063689
基于大数据的网络舆情分析方法研究_第1页
1/9

基于大数据的网络舆情分析方法研究 刘斌摘要:网络舆情是网络上人们对某个问题或现象而发表言论的一种方式可以通过对分析网络舆情提供给政府和企业的决策者以帮助但随着网络信息的爆炸式增长,传统的数据处理方式已经难以胜任网络舆情分析的工作,需要通过如Hadoop这样的大数据平台进行处理和分析Mahout作为Hadoop中高维度、海量、复杂数据的处理算法集可以有效地处理网络舆情的海量数据因此,该文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情分析方法关键词:大数据;舆情分析;Hadoop:G350 :A:1009-3044(2020)30-0025-021背景网络舆情是人们在网络上对社会现象、问题、热点话题和观点等情绪反应通过对网络與情的分析,我们可以预测未来将要发生什么据此决策者的正确决策将对政府和企业提供有力的帮助随着网络信息的爆炸式增长,需要使用Hadoop这种大数据处理平台[1-3]来代替传统的舆情分析处理方法Hadoop平台架构如图1所示Hadoop作为通用的大数据处理平台包含众多组件,其中最为重要的如表1所示这些组件可以高效处理大数据中的需要解决的几乎所有问题。

多数情况下,网络與情数据是由海量的文本消息组成,传统的算法难以处理如此高维度和海量的数据集Mahout(图2所示)[4]是作为基于Hadoop的挖掘大规模和复杂数据的算法集,可以被用于进行网络舆情数据挖掘数据集中的文本特征的提取也是與情分析的重要部分TF-Gini[5]文本特征提取算法在处理短消息等小文本上具有很好的表现因此本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行文本挖掘网络與情数据分析方法2 系统架构根据传统的网络舆情分析系统(如图3所示)结合大数据处理的方法,本文设计的数据网络舆情分析系统分为三个阶段,分别为系统准备阶段、系统处理阶段和系统分析阶段(如图表2所示)系统整体结构如图4所示1)对已有的舆论数据集进行分类和聚类分析得到该主题的关键词词典;(2)根据关键词词典在微博、、、twitter和facebook等社交媒体抓取消息;(3)将所有得到的消息分类保存到文档集中 处理阶段 (1)对html和其他格式消息转化为文本格式;(2)使用TF-Gini算法选取词语特征保存到文本库中;(3)使用Hadoop Mahout的文本挖掘算法处理文本库中的数据,将挖掘的结果保存在文本特征库中。

这是系统最重要的部分 分析阶段 (1)从文本特征库中生成可视化分析结果;(2)根据可视化分析结果生出舆情分析报告;(3)根据舆情分析报告,决策者可以对未来做出决策 ]本文的大数据网络與情分析系统主要使用TF-Gini的文本特征提取算法和Hadoop Mahout文本挖掘算法其余部分使用如NLTK、Wordnet、HowNet等开源软件实现3 系统核心算法本文大数据的與情分析系统的核心算法主要是TF-Gini的文本特征提取算法,Hadoop Mahout聚类、分类和模式识别算法3.1 文本特征提取算法本文使用TF-Gini算法来来提取文本特征信息,实现大数据网络舆情分析系统TF-Gini是经典的分类特征权重计算方法TFIDF的改进算法用以解决TF-IDF不适合短文本分类的问题TF-IDF计算公式如下:3.2 Mahout聚类算法3.2.1 K-Means聚类算法作为广泛使用的聚类算法K-Means算法[6]的思想是:随机选择K个对象,表示集群中心其余的对象根据其与每个群集中心的距离,划分为最小的距离群集中心,而后重新计算每个群中心以此重复,直到聚类函数收敛聚类收敛标准函数有两种形式:4结束语网络舆情分析在网络社会中发挥着重要作用。

人们通过互联网表达自己观点随着互联网大数据时代的到来,传统的舆情分析方法已经不再适用需要使用大数据方法来进行舆情分析本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情数据的文本挖掘方法该方法可以解决海量网络舆情数据处理问题但该方法并不适用于非文本数据,这也是未来研究的方向参考文献:[1] 黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1):94-99.[2] TaoT.Research on method of internet public opinion analysis based on big data[J].Journal of Modern Information,2014,4,34(3):3-6.[3] Broniatowski D A,Paul M J,Dredze M.Twitter:big data opportunities[J].Science,2014,345(6193):148.[4] Owen S,Anil R,Dunning T,et al.Mahout in Action[M]Manning Publications,2011[5] 任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13.[6] WuX,KumarV,QuinlanJ R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2007,14(1):1-37.[7] Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering: Analysis and an algorithm[C]//Advances in Neural Information Processing Systems 14,2001:849-856.[8] 赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.[9] McCallumA,NigamK.A Comparison of Event Models for Naive Bayes Text Classification[C].Proceedings in Workshop on Learning for Text Categorization, AAAI98,1998:41-48.[10] Agrawal R,Imielinski T,Swami A N.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data,1993,22:207-216.[11] Mahout之聚类Canopy分析[EB/OL].(2011-10-24)[2020-03-16].https://[12] 赵晨婷,马春娥.探索推荐引擎内部的秘密(第3部分):深入推荐引擎相关算法-聚类[EB/OL].(2011-03-24)[2020-04-13].https://【通联编辑:谢媛媛】 -全文完-。

下载提示
相似文档
正为您匹配相似的精品文档