《大数据》配套P PT之九：第8章互联网大数据处理

资源描述

《《大数据》配套P PT之九：第8章互联网大数据处理》由会员分享，可在线阅读，更多相关《《大数据》配套P PT之九：第8章互联网大数据处理（49页珍藏版）》请在金锄头文库上搜索。

1、全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用大数据刘鹏主编张燕张重生张志立副主编BIG DATA刘鹏教授，清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项，发表论文80余篇，出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的云计算被全国高校普遍采用，被引用量在国内计算机图书类排名居前。创办了知名的中国云计算（）和中国大数据（）网站。曾率队夺得2002 PennySort国际计算机排序比赛冠军，两次夺得全国高校科技比赛最高奖，并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习

2、成才标兵”（排名第一）、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。第八章互联网大数据处理8.1 互联网信息抓取8.2 文本分词8.3 倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用of4138.5 历史信息检索习题8.1互联网信息抓取第八章互联网大数据处理8.1.1概述of414互联网信息自动抓取，最常见且有效的方式是使用网络爬虫。爬虫可以被分为两类：一类叫作“通用爬虫”；另一类叫作“聚焦爬虫”。目前成熟的网络爬虫有很多，其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、

3、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。8.1互联网信息抓取第八章互联网大数据处理8.1.1概述of415目前成熟的网络爬虫有很多，其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫（爬虫搜索引擎）。百度蜘蛛对某网站的抓取频率8.1互联网信息抓取第八章互联网大数据处理8.1.2Nutch爬虫of416Nutch爬虫的部署与使用Nutch版本的选择NO.1Nutch工作环境NO.2NO.3Nutch的安装与配置NO.4Nutch的简单使用8.1互联网信息抓取第八章互联网大数据处理o

4、f417Nutch1.x是基于Hadoop集成环境的，Nucth的数据是存储在 HDFS上的。Nutch2.x是基于Apach Gora的，Nutch可以访问HBase、Cassandra、MySQL等，所以，在编译Nutch之前，需要先安装HBase，另外Nutch的编译需要ant命令，所以，在编译Nutch之前还要安装Ant。Nutch版本的选择8.1.2Nutch爬虫8.1互联网信息抓取第八章互联网大数据处理of418Nutch工作环境：（1）Nutch仅支持在Linux系统下使用，本书使用的是Ubuntu 14.04.3 LTS，若要在Windows下使用Nutch，需要安装模

5、拟Linux操作系统的软件Cygwin。（2）JDK：本书使用的是jdk-8u51-linux-x64.tar.gz。（3）HBase：可从网上下载最新版。（4）Ant：本书使用的是apache-ant-1.9.6-bin.tar.gz。（5）Nutch-2.2.1：可在Nutch官方网站下载最新版本的Nutch。（6）Tomcat：本书使用的是apache-tomcat-8.0.24.tar.gz。8.1.2Nutch爬虫8.1互联网信息抓取第八章互联网大数据处理of419JDK的安装与配置下载并解压HBaseAnt的安装与配置Nutch的安装与配置将Nutch和Solr集成在一起Nutc

6、h的安装与配置应该包括下面5个部分：8.1.2Nutch爬虫8.1互联网信息抓取第八章互联网大数据处理of4110一站式抓取进入apache-nutch- 2.2.1/runtime/local目录查看一站式抓取命令。分布式抓取可以分为2步：Nutch数据文件夹组成和生成抓取列表。Nutch的简单使用8.1.2Nutch爬虫8.1互联网信息抓取第八章互联网大数据处理8.1.3案例：招聘网站信息抓取of4111考虑如下场景：现在需要通过调查全国所有公司的规模和分布情况，来评估每个省份的经济实力。我们要做的第一步就是数据的收集工作。可以通过编写爬虫程序，自动进行数据收集工作

7、，特别是从招聘网站上的公司介绍页面获取数据。Nutch查询界面8.1互联网信息抓取第八章互联网大数据处理of41121.采用聚焦爬虫2.生成“种子”3.依次打开每一个URL ，得到页面HTML4.对HTML进行解析，提取需要的信息5.使用多线程使用Python实现简单的聚焦爬虫来完成这项任务8.1.3案例：招聘网站信息抓取8.1互联网信息抓取第八章互联网大数据处理8.1.4案例：舆情信息汇聚of4113通常情况下，网络舆情监控系统由采集层（舆情采集模块）、分析层和呈现层（分析浏览模块）实现。可通过网络信息自动抓取等技术手段，便捷、高效地获取与自己相关的网络舆情，不仅信息保真，而且覆盖

8、全面。通过网络舆情监控系统最终形成专题简报、专题追踪、舆情简报等，为全面掌握网络舆情动态，正确引导舆情动向，提供了可靠、有力的数据分析依据。舆情监控系统架构8.1互联网信息抓取第八章互联网大数据处理of4114抓取河南大学新闻网新闻主题河南大学新闻网页关键信息提取河南大学新闻网页关键字检索8.1.4案例：舆情信息汇聚第八章互联网大数据处理8.1 互联网信息抓取8.2 文本分词8.3 倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用of41158.5 历史信息检索习题8.2文本分词第八章互联网大数据处理8.2.1概述of4116文本分词是将字符串

9、文本划分为有意义的单位的过程，如词语、句子或主题。中文分词也叫作切分，是将中文文本分割成若干个独立、有意义的基本单位的过程。定义分词算法基本的工作原理是根据输入的字符串文本进行分词处理、过滤处理，输出分词后的结果，包括英文单词、中文单词及数字串等一系列切分好的字符串。分词原理图8.2文本分词第八章互联网大数据处理of4117123基于字符串匹配的分词方法它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配，若某字符串存在于词典中，则认为该字符串匹配成功。基于统计的分词方法由于词是特定的字组合方式，那么在上下文中，相邻的单字共同出现的频率越高，则在

10、该种字组合方式下就越有可能是构成了一个词。基于理解的分词方法该方法通过语义信息和语句信息来解决歧义分词问题，并且在分词的同时进行语义和句法分析。现有的中文分词算法可以分为以下3类：8.2.1概述8.2文本分词第八章互联网大数据处理of4118分词方法基于字符串基于理解基于统计歧义识别差强强新词识别差强强词库需要不需要不需要语料库不需要不需要需要规则库不需要需要不需要算法复杂性容易很难一般技术成熟度成熟不成熟成熟实施难度容易很难一般分词准确度一般准确较准分词速度快慢一般各种分词方法的优劣对比表8.2.1概述8.2文本分词第八章互联网大数据处理8.2.2MMSEG分词工具of4119取最大匹

11、配的Chunk取平均词长最大的Chunk取词长标准差最小的Chunk取单字词自由语素度之和最大的ChunkMMSEG分词算法中有两个重要的概念：Chunk和规则（Rule）。其中，一个Chunk就是一段字符串文本的一种分割方式，包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解，我们可以将规则看做过滤器。MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则。8.2文本分词第八章互联网大数据处理of4120属性含义长度（Length）Chunk中各个词的长度之和平均长度（Average Length）长度/词数标准差的

12、平方（Variance）标准差的平方自由语素度（Degree of Morphemic Freedom）各单字词词频的对数之和Chunk中各属性及其含义8.2.2MMSEG分词工具8.2文本分词第八章互联网大数据处理8.2.3斯坦福NLTK分词工具of4121有些文本的形成和变化过程与时间是紧密相关的，因此，如何将动态变化的文本中时间相关的模式与规律进行可视化展示，是文本可视化的重要内容。引入时间轴是一类主要方法，常见的技术以河流图居多。河流图按照其展示的内容可以划分为主题河流图、文本河流图及事件河流图等。第八章互联网大数据处理8.1 互联网信息抓取8.2 文本分词8.3 倒排索引8.4

13、网页排序算法全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用of41228.5 历史信息检索习题8.3倒排索引第八章互联网大数据处理8.3.1倒排索引原理of4123出现次数文档1文档2文档3文档4词语 141词语 234词语 331词语 439如果使用一个矩阵来描述词语和文档之间的关系，不难得出如下“矩阵”。其中，每一列代表一个文档，每一行代表一个词语，每一个单元格代表“此文档中出现此词语的次数”。矩阵中的第一列说明“在文档1中，词语1出现了4次、词语2和词语3 均出现了3次，并且文档1中不再有其他词语出现”。同理，矩阵中的第一行则说明“词语1在文档1中出现在4次，在文档

14、4中出现1次，在其他文档中不出现”。其他行列同理。词语和文档的关系8.3倒排索引第八章互联网大数据处理of4124倒排索引可以使用这样一个Map来实现：每一个词语都是Map中的一个键（Key），这个键对应的Value是一个集合，里面保存着包含这个词语的文档的编号。存储形式为： Map value 。同理，如果要在倒排索引中加入更多信息，可以在Value中增加记录项目。倒排索引的数据结构8.3.1倒排索引原理倒排索引使用的数据结构可以在倒排索引的Value项里增加信息8.3倒排索引第八章互联网大数据处理of4125倒排索引的建立实例假设现在有两篇文档，每篇文档的内容如下：

15、文档内容文档1The quick brown fox jumped over the lazy dog.文档2Quick brown foxes leap over lazy dogs in summer.其建立实例的步骤如下：2.去除无关词语1.文章本分词3.词语归一化4.建立词语-文档矩阵5.建立到排索引8.3.1倒排索引原理8.3倒排索引第八章互联网大数据处理of4126倒排索引的更新策略01先进行“文档暂存”，待文档暂存区达到一定数量后，对所有文档重新建立索引。完全重建策略02新文档会立即被解析，解析结果会进行“索引暂存”，待索引暂存区达到一定数量后，再将新旧索引合并。再合并

16、策略04其思想是混合地使用上述几种策略，取长补短，以达到最好的性能。混合策略03新文档立刻被解析，解析结果立刻被加入旧索引中。原地更新策略8.3.1倒排索引原理8.3倒排索引第八章互联网大数据处理8.3.2倒排索引实现of41272遍历读取文件所有的文件都存放在文件夹中，首先要把这些文件读取出来，才能进行后续处理。3对单个文件进行处理包括文本分词、去除无关词语、词语归一化和建立单个文件的信息统计表。5查询处理转变“词语-出现次数”统计表为“词语-文件-出现次数”倒排表。1任务概述要求对文件建立倒排索引，使之能够被方便地查询。4将单个文件信息和总体的倒排表进行合并通过Key查找到对应的Value即可。第八章互联网大数据处理8.1 互联网信息抓取8.2 文本分词8.3 倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用of41288.5 历史信息检索习题8.4网页排序算法第八章互联网大数据处理8.4.1 概述of41291234基于

展开阅读全文