《去伪存真去粗取精页面质量评估及其在网络信息检索中的》由会员分享,可在线阅读,更多相关《去伪存真去粗取精页面质量评估及其在网络信息检索中的(48页珍藏版)》请在金锄头文库上搜索。
1、去伪存真 去粗取精页面质量评估及其在网络信息检索中的应用页面质量评估及其在网络信息检索中的应用马少平马少平 刘奕群刘奕群清华大学计算机科学与技术系清华大学计算机科学与技术系智能技术与系统国家重点实验室智能技术与系统国家重点实验室20062006年年7 7月,山东,济南月,山东,济南去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望问题背景World Wide Web的出现与发展38年13年4年1994年个人浏览器诞生,
2、到1998年用户超过5000万人问题背景Web蕴含着多少信息?How Much Info 工程由Intel, Microsoft, HP, EMC等公司赞助,UC Berkeley大学完成2002年世界上共产生了5Exabyte的数据,其中92%的信息存储于电子介质相当于人类历史上所有说过的话语所包含的信息量的总和大部分存储于Web中,构成了Web中超过150Billion的网络页面问题背景Web的发展带来了什么?信息数量的急剧膨胀知识的获取空前简单与繁荣Information is no longer a scarce resource - attention is. (注意力,而不是信息,
3、才是这个时代所稀缺的资源 ) (纽约时报,2005年10月16日)在信息化时代,知识实际上已经不是资源,智慧才是资源。(清华大学经管学院魏杰教授)从Web中有效的获取知识正在成为人们生活与工作的必须技能高科技企业员工1/3的时间用于查找资料由于无法找到有效信息而浪费的产值占企业收入1/5问题背景2005年搜索引擎市场的激烈竞争Google市值的变化举世关注Baidu上市造就数以百计的百万富翁MSN推出新版搜索,MSRA建立搜索研究中心Yahoo中国重组主要门户网站Sohu, Sina, Netease, 腾讯纷纷推出搜索引擎产品最早的网络搜索引擎索引系统诞生:Stanford大学, 1995p
4、ictures by Admit Singhal, Google Inc. SIGIR05 keynote speech google.stanford.edu:google前身 Google服务器机群:1999Google数据中心: 2005问题背景问题背景:搜索引擎用户的需求当前面临的存储与运算需求 每天处理超过2亿用户查询近80亿页面索引Data by Admit Singhal, Google Inc. SIGIR05 keynote speech 问题背景:搜索引擎的索引能力搜索引擎索引规模的竞争Search Engine索引量索引量页面最大大小页面最大大小Google8.1 bil
5、lion(Dec. 2004)101KMSN5.0 billion150KYahoo4.2 billion (estimate)500KAsk Jeeves2.5 billion101K+All the Web152 billion605KAll the Surface Web10 billion8K2002.1219.2 bilion(Aug. 2005)From Danny Sullivan, SearchEngineWatch web site问题背景:搜索引擎的索引能力搜索引擎索引规模竞争的终结?没有任何一个搜索引擎可以覆盖互联网上的所有资源2005年9月, Google从首页去除了页
6、面索引数量的信息,并解释说:“绝对的数量已经不再重要”GoogleYahoo!MSNTeomaRound 176.30%69.28%62.03%57.58%Round 276.09%69.29%61.90%57.69%Round 376.27%69.37%61.87%57.70%Round 476.05%69.30%61.73%57.57%Round 576.11%69.26%61.96%57.56%Average76.16%69.32%61.90%57.62%问题背景:搜索引擎的索引能力对中文搜索引擎而言搜索引擎里每天有400多万被检索的关键词一般而言不重复的关键词会占总数的30%以内(根据
7、李彦宏报告的百度状况)对于每个关键词,用户平均点击的页面数在2页以内 则可以估算如下: 用户每天使用到的被索引的页面数为2400万个左右在百度的平均更新周期(1个月)内,用户共可能访问到的页面总数为7.2亿个,少于百度声称的索引量(8亿)更少于中文网页总数(20亿)搜索引擎应当处理 (存储、评价、预处理与后处理)所有的Web页面么?数据数量已然非常庞大网络环境数据质量堪忧:不可靠、Spam、过时,重复 不需要,也不可能!利用页面质量评估定位高质量页面在用户查询之前进行 数据预处理阶段使用查询无关特征进行问题背景问题背景页面质量评估的过程应当页面质量评估的过程应当是查询无关完成的是查询无关完成的
8、去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望页面质量评估相关工作概述按照粒度不同宏观粒度的质量评估去除无用页面 / 定位有用页面清理“全局垃圾”微观粒度的质量评估去除页面中的无用部分 / 找出页面中最有用的部分清理“局部垃圾”页面质量评估相关工作概述宏观粒度的页面质量评估目的:找出对用户检索信息有用的页面当前的研究重点:Web链接结构分析如果存在超链接L从页面P(source)指向页面P(destiny),则P(source)与P(destiny)之间满足:假设假设1:(内容推荐假设)页面P(source)的作者推荐页面P(
9、destiny)的内容,且利用L的链接文本内容对P(destiny)进行描述。假设假设2:(主题相关假设)被超链接连接的两个页面P(source)与P(destiny)比随机抽取的两个页面有更大的概率有内容相关性。 PageRank(Google), HITS(Kleinberg.)及众多的改进算法页面质量评估相关工作概述微观粒度的页面质量评估目的:找出对用户检索信息有用的页面的某个部分去除特定垃圾信息(利用机器学习方法和一定量的训练)去除广告条(Davison et. al.)去除页面中的无关链接与垃圾链接(Kushmerick et. al.)页面分块模型依据语料统计信息计算页面块的信息量
10、(Lin et. al.)基于模板频度检测构建站点模板(Yossef et. al. Yi et. al.)基于页面块的绝对位置和机器学习方法计算块的重要性(VIsion Based Page Segmentation, VIPS, MSRA)页面质量评估相关工作概述微观粒度的质量评估示例(页面分块)页面质量评估相关工作概述页面质量评估的研究现状微观粒度具有数据挖掘方面研究的积累(数据预处理、数据清理等)相对比较成熟完善宏观粒度搜索引擎竞价排名机制的引入,带来了大量的链接垃圾内容推荐和主题相关假设受到挑战过多关注页面自身的特性,忽略用户的实际需求只重视链接结构特征,忽略页面其他类型的查询无关特
11、征是我们研究的重点是我们研究的重点页面质量评估的研究现状页面质量评估应当涉及到链接关系之外的特征信息PageRank only uses the link structure of the web to estimate page quality. It seems to us that a better estimate of the quality of a page requires additional sources of information. Monika R. Henzinger, Research Director of Google 我们的理解:对于检索系统而言,页面质量
12、的最根本评价不是由诸如页面在链接结构图中的重要程度这样的特征来决定的。能否满足用户获取信息的需要是页面质量评价的根本出发点。研究用户需要什么,而非假设用户需要什么页面质量评估:我们的做法有可能成为用户检索目标的页面才是高质量的用户需要什么?反映在用户查询的目标页面中高质量页面:可能成为用户检索目标的Web页面矛盾:查询目标页面是与查询相关的页面质量评估是查询无关的过程必须使用查询无关特征宏观上来讲,与查询相关的查询目标页面是否存在与查询无关的特征呢?去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望高质量页面的查询无关特征分析基于
13、真实网络语料库进行查询目标页面的查询无关特征分析语料库2005.11月采集的超过3700万中文网页占用空间超过0.5 Terabyte.自S获得高质量页面采样训练集: 1600页面测试集: 17000页面由Sogou工程师手工标注高质量页面的查询无关特征分析基于超链接结构分析的特征PageRank入链接个数入链接文本长度其他特征文档长度/大小完全镜像个数URL长度与类型页面编码高质量页面的查询无关特征分析PageRank高质量页面的查询无关特征分析入链接个数高质量页面的查询无关特征分析入链接文本长度高质量页面的查询无关特征分析文档长度高质量页面的查询无关特征分析页面镜像个数高质量页面的查询无关
14、特征分析URL 长度/类型高质量页面的查询无关特征分析其他部分特征查询无关特征能够有效地区分目标页面与普通页面,亦即查询目标页面具有查询无关特征普通页面普通页面查询目标页面查询目标页面动态页面动态页面13.06%13.06%1.87%1.87%编码非编码非GBKGBK14.04%14.04%1.39%1.39%是否是是否是Hub类型类型3.78%3.78%24.77%24.77%去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望基于学习的页面质量评估算法根据查询无关特征计算页面成为查询目标页面的可能性,用这种可能性表示页面质量的高
15、低形式化的表述为:具有查询无关特征A1, A2, A3, , An的页面P成为查询目标页面的可能性基于学习的页面质量评估算法算法描述1 单特征分析(贝叶斯公式)(贝叶斯公式)(先验概率定义)(先验概率定义)基于学习的页面质量评估算法算法描述2 多特征分析在合理选取的基础上,可以发现特征之间的近似独立性关系URL FormatEncodePageRankClusterDocLengthURL LengthIndegreeURL Format1.000.050.050.010.040.100.00Encode1.000.200.000.060.300.00PageRank1.000.010.060
16、.030.05Cluster1.000.010.100.00DocLength1.000.040.00URL Length1.000.02Indegree1.00基于学习的页面质量评估算法算法描述2 多特征分析(续)(朴素贝叶斯假设)(朴素贝叶斯假设)(特征近似独立)(特征近似独立)基于学习的页面质量评估算法比较 的相对大小基于学习的页面质量评估算法高质量页面的概率分布情况基于学习的页面质量评估算法测试效果测试集合:17000多个查询目标页面(训练集的10倍)算法判定出的高质量页面仅占数据总量的5%,但能够满足超过92%以上的用户查询需求普通页面查询目标页面训练集合查询目标页面测试集合算法判定
17、出的低质量页面95.04%7.27%7.63%算法判定出的高质量页面4.96%92.73%92.37%基于学习的页面质量评估算法质量评估算法效果的评价指标高质量页面平均召回率(High Quality Page Average Recall, AR)High Quality Recall基于学习的页面质量评估算法与直接应用PageRank作为页面质量评估指标的比较比仅使用PageRank特征取得更好的效果并不单独依靠某个特征实现评估任务基于学习的页面质量评估算法算法分辨垃圾/低质量页面的能力同时具有较好的筛选作弊页面和低质量页面的作用去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页
18、面的查询无关特征分析基于学习的页面质量评估算法应用展望应用展望利用页面质量评估算法作为搜索引擎层次索引机制的基础普通页面普通页面高质量高质量索引索引质量评价算法质量评价算法搜索引擎系统搜索引擎系统结果结果查询查询反馈反馈应用展望同PageRank一样作为Ranking算法的依据PageRank:用户随机访问到某个页面的可能性页面质量:某个页面成为用户查询目标的普适可能性具有明确的物理含义利用类似方法进行垃圾页面清理工作统计垃圾页面的查询无关特征比较查询目标页面而言,这种特征应当更加明显利用机器学习方法构建分类器计算某个页面成为垃圾页面的概率应用展望其它的可能应用方向用于提高搜索引擎Spider的页面抓取效率提高个人化搜索(personalized search)质量更好的理解用户使用搜索引擎的行为特点摘自http:/ 连续几天,定时被百度的抓取机器人抓到系统停止响应。 拜托百度,不要这样抓内容了。就算抓,也应该用1个线程来抓,只抓更新的内容,何必每天抓一次,而且用无数个线程,而且 每次都要抓全部内容,还不放过任何wiki的历史页面,甚至连错误信息都要原样搬走。 这种抓取方法,谁受得了? Thank you!Questions or comments?