网络舆情检测技术【优质内容】

资源描述

《网络舆情检测技术【优质内容】》由会员分享，可在线阅读，更多相关《网络舆情检测技术【优质内容】（43页珍藏版）》请在金锄头文库上搜索。

1、第五章,网络舆情监测技术,1,高级培训,导言,网络舆情监测技术非常复杂，涉及许多计算机与网络等方面的专业知识，对于新闻与传播的从业者和研究者而言，掌握网络舆情监测相关的基本技术原理，把握技术的基本发展方向以及它们对于网络舆情监测的影响，是十分必要的,2,高级培训,CONTENTS,3,高级培训,4,高级培训,5,高级培训,一、数据采集基本技术,一）网络爬虫网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。（1）批量型爬虫（batchcrawler）。批量型爬虫有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程。批量型爬虫是

2、目前数据采集系统中最简单的爬虫系统。（2）增量型爬虫（incrementalcrawler）。增量型爬虫会保持持续不断的抓取，对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。（3）垂直型爬虫（focusedcrawler）。垂直型爬虫只关注特定主题或特定行业的网页，其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫,6,高级培训,网络爬虫的特性,1）高性能：爬虫系统在单位时间内下载的网页数量越多性能越高。（2）可扩展性：爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。（3）健壮性：

3、包括两方面，一是爬虫系统可以处理抓取中遇到的各种非正常情况，二是爬虫系统自身有一套健壮的容错机制。（4）友好性：包括两方面，一是保护网站的部分私密性，二是减少被抓取网站的网络负载,7,高级培训,一、数据采集基本技术,二）网页去重在当今的互联网环境中，有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数据采集系统的压力，而且会影响后续数据分析结果的质量，所以网页去重的问题尤为突出，已经成为提高数据质量的关键技术之一。在实际的数据采集系统中，往往是在爬虫阶段进行网页去重操作,8,高级培训,一、数据采集基本技术,三）分布式技术面对海量的数据抓取任务，只有采取分布式架构才有可能在较

4、短的时间周期内完成一轮抓取工作。常见的分布式架构有两种：主从式分布爬虫和对等式分布爬虫。主从式分布爬虫（master-slave）是分布式技术中最传统的也是最常见的一种形式，它指不同的服务器承担着不同的角色，其中有一台专门的master服务器来维护待抓取的URL（universal resource locator,统一资源定位符）队列，它负责每次将URL分发到不同的slave服务器，而slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外，还要负责调解各个slave服务器的负载情况，以免某些slave服务器过于清闲或者劳累。在对等式分布爬虫

5、（peer to peer）体系中，服务器之间不存在分工差异，每台服务器都承担着一样的功能，各自负责一部分URL的抓取工作。由于没有URL服务器存在，如何分工就成了主要问题,9,高级培训,二、数据采集原理,10,高级培训,二、数据采集原理,网络爬虫的基本工作流程如下：（1）首先选取一部分精心挑选的种子URL。（2）将这些URL放入待抓取URL队列。（3）从待抓取的URL队列中取出待抓取的URL，解析DNS，并且得到主机的IP，将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。（4）分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL

6、放入待抓取URL队列，从而进入下一个循环,11,高级培训,三、数据采集常用方法,一）网页搜索策略广度优先搜索策略最佳优先搜索策略深度优先搜索策略,12,高级培训,三、数据采集常用方法,二）网页更新策略历史参考策略用户体验度策略聚类抽样策略,13,高级培训,14,高级培训,一、数据分析基本技术,一）全文检索技术全文检索技术是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说，全文检索需要具备建立索引和提供查询的基本功能。此外，现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等。在功能上，全文检索系统核心具有建立索引、处理查询返回结果

7、集、增加索引、优化索引结构等功能，外围则由各种不同应用具有的功能组成。在结构上，全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等，加上各种外围应用系统等共同构成了全文检索系统,15,高级培训,一、数据分析基本技术,二）文本挖掘技术文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,它已经成为数据挖掘中一个日益流行而重要的研究领域。与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,文本挖掘所研究的文本数据库由来自各种数据源的大量文档组成,包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、数字图书

8、馆、技术标准、产品样本、电子邮件消息、web页面等,16,高级培训,文本挖掘技术在网络舆情信息分析中的应用,对网络舆情进行描述对网络舆情的关联性进行分析对网络舆情信息的真实性进行判断分析，对传播主体的意图及态度倾向进行推论对网络舆情的产生原因进行分析预测和推论网络舆情信息的产生和变化趋势,17,高级培训,二、数据分析原理,一）全文检索技术原理目前全文搜索引擎通常使用倒排索引技术。倒排索引（inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构,1

9、8,高级培训,二、数据分析原理,二）文本挖掘技术原理（1）文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。（2）文本挖掘:在完成文本预处理后，可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。（3）模式评估与表示为最后一个环节，是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求，就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进，然后再进行新一轮的发现,19,高级培训,三、数据分析常用文本挖掘算法,一）文档聚类首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚

10、类可以将一个文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类。聚类方法通常有：层次聚类法、平面划分法、简单贝叶斯聚类法、分级聚类法、基于概念的文本聚类等,20,高级培训,三、数据分析常用文本挖掘算法,二）文档分类分类和聚类的区别在于：分类是基于已有的分类体系表的，而聚类则没有分类表，只是基于文档之间的相似度。由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况，所以在信息系统中使用分类的方法，能够让用户手工遍历一个等级分类体系来找到自己需要的信息，达到发现知识的目的，这在用户刚开始接触一个领域想了解其中的情况，或者用户不能够准确地表达

11、自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴，但是许多目录式搜索引擎都采用人工分类的方法，不仅工作量巨大，而且准确度不高，大大限制了其作用的发挥,21,高级培训,三、数据分析常用文本挖掘算法,三）自动文摘互联网上的文本信息、机构内部的文档及数据库的内容都在以呈指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，方便用户决定是否要阅读文档的原文，这样能够节省大量

12、的浏览时间,22,高级培训,自动文摘的特点,1）自动文摘应能将原文的主题思想或中心内容自动提取出来。（2）文摘应具有概况性、客观性、可理解性和可读性。（3）可适用于任意领域,23,高级培训,24,高级培训,一、数据可视化技术介绍,数据可视化（data visualization）是研究数据和信息视觉呈现的学科。它解决的问题一方面是如何将冰冷枯燥的数据和信息用有趣直观的方式呈现给受众，另一方面也是视觉分析的方法，帮助人们理解大量的复杂的数据背后隐藏的故事和洞察。它是将计算机科学领域的理性逻辑思维与艺术设计领域的视觉传达思维相结合的一种方式。图形是直观呈现数据的直接方法。然而，将大量数据在同

13、一个图表中画出来并不容易。早期的测绘、天气数据都需要长时间的手工绘制。随着计算机绘图功能的开发，手工绘画已经完全被自动绘图程序取代，其问题的核心转移为要以怎样的方式呈现数据，以便数据中的信息能自然地体现出来,25,高级培训,二、数据可视化原理,可视化不是一个单独的算法，而是一个流程。一般来讲，可视化流程以数据流向为主线，整个过程可以看成数据流经一系列处理模块并得到转换的过程。用户通过可视化交互和其他模块互动，通过反馈提高可视化的效果。作为探索数据的工具，可视化有它的输入和输出。可视化的对象或者说研究的问题并非数据本身，而是数据背后的社会自然现在和过程。换个角度来看，可视化的最终结果并不是人们

14、所看到的一系列像素，而是用户通过可视化从数据中得到的知识和灵感,26,高级培训,几种可视化模型,一）可视化流水线可视化流水线模型，描述了从数据空间到可视空间的映射，包含串行数据处理的各个阶段：数据分析、数据过滤、数据映射和数据渲染。（二）信息可视化参考流程其起点为输入的数据，终点是获取的知识。从数据到知识有两个途径：对数据进行交互可视化，以帮助用户感知数据中蕴含的规律；或按照给定的先验假设进行数据挖掘，从数据中直接提炼出数据模型。用户既可以对可视化结果进行交互修正，也可以调节参数来修正模型,27,高级培训,三、数据可视化常用工具,一）Tableau （二）R语言（三）Processin

15、g （四）D3,28,高级培训,Tableau,1）学习成本很低，可以快速上手。（2）未掌握统计原理的人，也能借助它完成非常有价值的分析。（3）文科同学也能够快速完成过去IT和数据分析高手才能完成的工作。（4）数据可视化独具特色，嵌入了地图和钻取。（5）海量数据处理非常快。（6）可以实现Dashboard和动态数据更新。（7）所见即所得。（8）完成基本统计预测和趋势预测。（9）Web服务器应用商业智能。（10）数据源丰富。（11）输出方便,29,高级培训,30,高级培训,31,高级培训,一、大数据的由来,与其他信息技术流行语（如云计算、NoSQL等）一样，“大数据”（bigdata）这个词的起

16、源并不是十分清楚的。一般认为，最早提出“大数据”这一说法的是美国麦肯锡全球研究院（MGI）于2011年5月发表的一篇研究报告大数据：未来创新、竞争、生产力的指向标。这篇报告预示了大数据时代的到来：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用预示着新一波生产率增长和消费者盈余浪潮的到来。” 维克托迈尔舍恩伯格在大数据时代一书中所列举的大量例证都是为了说明一个道理：在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值,32,高级培训,33,高级培训,二、大数据的特征,Volume（大量）：数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 Velocity（高速）：处理速度快。 Variety（多样）：数据类型繁多。比如，网络日志、视频、图片、地理位置信息等。 Value（价值）：价值密度低，商业价值高,34,高级培训,三、大数据对舆情的价值和影响,大数据时代，对信息的加工是基础。据互联网专家介绍，大数据体量巨大，非结构化数据的超大规模和增长分别占总数据量的8090，比结构化数据增

展开阅读全文

网络舆情检测技术【优质内容】

最新文档