网络信息内容获取技术概述

资源描述

《网络信息内容获取技术概述》由会员分享，可在线阅读，更多相关《网络信息内容获取技术概述（164页珍藏版）》请在金锄头文库上搜索。

1、信息内容安全,任延珍武汉大学计算机学院空天信息安全与可信计算教育部重点实验室,上节回顾（3）,信息获取,信息分析,表示理解识别,信息管控,分级过滤阻断审计取证还原,被动主动,第二章网络信息内容获取技术,本讲提要,一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术,1.1 互联网信息类型,网络信息发布形式,现代信息传播方法,网络信息量,截至2011年12月底，中国网站数量为230万，中国网页数量为866亿个，平均每个网站的网页数是5588个，平均每个网页的字节数是28.6KB,网络信息类型,网络媒体形态广播式媒体新

2、闻网站、论坛、博客交互式媒体搜索引擎、多媒体点播、网上交友、网上招聘、电子商务（网络购物）,网络信息类型,网络媒体信息：互联网网站公开发布的信息。网络用户通常可以基于通用网络浏览器获得互联网公开发布的信息。网络通信信息：除了使用浏览器之外的专业客户端软件，实现与特定点的通信或进行点对点通信时所交互的信息。,网络信息类型,发布信息类型文本信息：比例最大图像信息音频信息视频信息,网络信息类型,媒体发布方式直接匿名浏览：公开发布信息需要身份认证的网络信息发布,网络信息类型,网页形态静态网页动态网页：含“？”或输入参数的URL,网络信息类型,信息交互协议网页浏览：HTTP 文件

3、传输：ftp 电子邮件：foxmail,outlook 聊天工具: qq,微信，MSN 多媒体交互工具：skype，rtsp，rtp,网络通信信息,专业客户端软件电子邮件：foxmail,outlook 聊天工具: qq,微信，MSN 多媒体交互信息：skype,1.1 网络信息内容获取模型,一、网络信息内容获取模型,图2-1 网络环境下的信息内容获取模型,2.1 网络信息内容获取模型,信息检索（Information Search, IS）是信息的需求者主动地在网上搜寻所需要的信息。,1951年，Calvin Mooers首次提出了“信息检索（Information Retrieval,

4、 IR）”概念1，并给出了信息检索的主要任务：即协助信息的潜在用户将信息需求转换成一张文献来源信息列表，而这些文献包含对用户有用的信息。目前通常使用搜索引擎技术完成信息检索功能。,2.1 网络信息内容获取模型,信息推荐（Information recommendation）又称为信息推送（Information Push），是指网络信息服务系统从网上的信息源或信息提供商获取信息，并通过固定的频道向用户发送信息的新型信息传播系统。,2.1 网络信息内容获取模型,信息交互是一种双向的信息交流，在信息交互的过程中，信息获取的个体可以通过所交流的信息满足认知上和情感上的信息需求。,2.1 网络信息

5、内容获取模型,信息浏览方式相当于传统情况下的阅读、观看、倾听等获取信息的行为。,1.2 网络媒体信息获取原理,网络媒体信息获取原理,网络信息获取范围：理论上可以覆盖整个国际互联网,网络媒体信息获取理想流程,网上采集算法,网上采集算法，又称为网络爬虫（Web Crawler）、网络蜘蛛（Web Spider）或Web信息采集器，是一个自动下载网页的计算机程序或自动化脚本，是搜索引擎的重要组成部分。,1.3 网络媒体信息获取的分类全网信息获取定点信息获取,1.全网信息获取,搜索引擎，大型内容服务提供商 google 百度 Yahoo 单次全网信息获取一般需要数周乃至数月时间网站提供Sitma

6、p，提高搜索效率获取显示（排名 PageRank）,2.定点信息获取,全网信息检索存储空间要求大，难以保障信息获取的时效性定点获取：重点关注的特定网络区域深入搜索定期轮询搜索,3.基于主题的信息获取和元搜索,元搜索引擎又称多搜索引擎,它可以同时查找多个单搜索引擎的www站点。按其搜索机制可分为并列式和串行式。并行式元搜索引擎指将查询要求同时发向各个独立的搜索引擎,然后将结果按特定的顺序提供给用户。串行式元搜索引擎1是将查询要求先发给某个独立的搜索引擎,待其返回结果再将请求发给另一个搜索引擎并行式元搜索引擎运行模式好,搜索时间短。,国内元搜索引擎,搜魅网（someta）：马

7、虎聚搜：佐意综合搜索（chinazss）比比猫（bbmao） .,3.基于主题的信息获取和元搜索,高级检索功能：提高检索的质量使用布尔逻辑符检索最后更新页面（时间检索）域名过滤（Domain Filter）成人过滤（Adult Filter）语言选择（Language Selection）：结果展示（Results Display）：排序,网络媒体信息获取的技术难点,网络媒体信息:形态各异、信息类型多样。针对完全异构的网络媒体信息，对信息提取的全面性和时效性提出了更高的要求。拒绝服务：部分网络媒体选择屏蔽过于频繁的、来自相同客户端的信息获取操作。降低访问频率更换客户端

8、信息,网络通信信息获取方案,网络通信：电子邮件、即时通信软件、金融客户端、视频点播信息获取过程网络通信信息镜像网络交互数据重组通信协议数据恢复网络通信信息存储,1.3 网络通信信息获取原理,网络通信信息获取方案,网络通信信息获取流程,本讲提要,一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术,二、搜索引擎技术,据调查统计显示：全球以中文为母语的人口占总人口的22%以上； 2011年底中国网民人数已经超过5亿人；中文网页数量已经占到了全球网页数量的15%以上。搜索引擎已成为中国网民使用最为频繁的互联网应用。,庞大的中文用户群、丰富的

9、中文网页资源和中文信息处理特有的难度，以及搜索引擎作为互联网基础工具的重要地位，极大地推动了中文搜索引擎的研究和开发,二、搜索引擎技术,中文搜索引擎的发展最早见于“748工程”中的汉字情报检索清华大学的中国学术期刊（光盘版） 2001年，百度搜索从2003年开始，中文网络信息服务的四大门户网站（新浪、搜狐、网易和腾讯）陆续推出了自己的搜索引擎服务,二、搜索引擎技术,中文搜索引擎的关键技术: 网页内容分析网页索引查询解析相关性计算,二、搜索引擎技术,一个通用搜索引擎包括网上采集、索引、查询、排级和提交等算法，相关概念参见表2-1,本讲提要,一、网络信息内容获取模型二、搜索引擎技术

10、2.2.1 网上采集算法 2.2.2 排级算法 2.2.3 讨论搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术,2.2.1 网上采集算法,网上采集算法，又称为网络爬虫（Web Crawler）、网络蜘蛛（Web Spider）或Web信息采集器，是一个自动下载网页的计算机程序或自动化脚本，是搜索引擎的重要组成部分。,2.2.1 网上采集算法,工作原理,2.2.1 网上采集算法,按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）聚焦网络爬虫（Focused Web Crawler）增量式网络

11、爬虫（Incremental Web Crawler）深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现,网络媒体信息获取原理,1.初始URL集合 2.信息获取 3.信息解析 4.信息叛重,2.2.1 网上采集算法,爬虫算法,1.初始URL集合,跟随网页内嵌链接逐级递归便利互联网络,2.信息获取,根据来自网络地址集合或URL队列中的每条网络地址信息，确定获取内容所采用的信息发布协议。基于特定协议的网络交互机制，向信息发布网站请求所需内容。,HTTP 文本信息获取范例,随着信息媒体形态的增加，信息交互协议的增加，实现信息获取的操作复杂度和网络交互

12、重构难度呈指数级增长,2.信息解析,根据不同通信协议的具体定义，从网络响应信息相应位置提取发布信息的主体内容信息关键字段信息来源信息标题信息失效时间信息最近修改时间,3.信息解析（HTTP/HTML）,4.信息判重,主要基于网络媒体信息URL与内容摘要两大元素，实现信息采集/存储的与否判断。 URL判重：在信息采集操作启动之前进行是否已经采集是否已经过期内容摘要判重：采集信息存储时进行 MD5,从爬虫的角度对互联网进行划分,爬虫URL抓取策略,深度优先遍历策略宽度优先遍历策略反向链接数策略 Partial PageRank策略 OPIC策略大站优先策略,深度优先遍历策略,

13、指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接遍历的路径：A-F-G E-H-I B C D,宽度优先遍历策略,指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。遍历路径：A-B-C-D-E-F G H I,反向链接数策略,反向链接数：一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。在真实的网络环境中，由于广告链接、作弊链接的存在，反

14、向链接数不能完全等同的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。,Partial PageRank策略,对于于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面,OPIC策略,该算法实际上也是对页面进行一个重要性打分。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。,大站优先策略,对于待抓取URL队列中

15、的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。,2.2.1 网上采集算法,推荐参考文档：数学之美，吴军，第9章图论与网络爬虫 http:/ 二、搜索引擎技术 2.2.1 网上采集算法 2.2.2 排级算法 2.2.3 搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术,2.2.2 排级算法,网页排级是对搜索结果的分析，使那些更具“重要性”的网页在搜索结果中的排名获得提升，从而提高搜索结果的相关性和质量网页排级-网页的“重要性”-网页普及度评分,2.2.2 排级算法,两种应用最广、最成功的排级算法,HITS,2.2.2 排级算法：PageR

16、ank,2.2.2 排级算法：PageRank,原理：民主表决核心思想：在互联网上，如果一个网页被很多其它网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。,2.2.2 排级算法：PageRank,图的基本概念,度(degree)：指和该顶点相关联的边数。在有向图中，度又分为入度和出度。入度 (in-degree) ：以某顶点为弧头，终止于该顶点的弧的数目称为该顶点的入度出度 (out-degree) ：以某顶点为弧头，起始于该顶点的弧的数目称为该顶点的出度在某顶点的入度和出度的和称为该顶点的度例如：（a）中Vo的入度为1，出度为2，度为3,2.2.2 排级算法：PageRank,2.2.2 排级算法：PageRank,2.2.2 排级算法：PageRank,入度（in-degree）,出度（

展开阅读全文

网络信息内容获取技术概述

最新文档