去伪存真去粗取精页面质量评估及其在网络信息检索中的

上传人:ni****g 文档编号:567377547 上传时间:2024-07-20 格式:PPT 页数:48 大小:961.50KB
返回 下载 相关 举报
去伪存真去粗取精页面质量评估及其在网络信息检索中的_第1页
第1页 / 共48页
去伪存真去粗取精页面质量评估及其在网络信息检索中的_第2页
第2页 / 共48页
去伪存真去粗取精页面质量评估及其在网络信息检索中的_第3页
第3页 / 共48页
去伪存真去粗取精页面质量评估及其在网络信息检索中的_第4页
第4页 / 共48页
去伪存真去粗取精页面质量评估及其在网络信息检索中的_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《去伪存真去粗取精页面质量评估及其在网络信息检索中的》由会员分享,可在线阅读,更多相关《去伪存真去粗取精页面质量评估及其在网络信息检索中的(48页珍藏版)》请在金锄头文库上搜索。

1、蜂茹龄捞柜每焦油啮惕阅李捏宁畜赵镀牢范雁所狸南刽施吠诲疙茧氛盖事去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精页面质量评估及其在网络信息检索中的应用页面质量评估及其在网络信息检索中的应用马少平 刘奕群清华大学计算机科学与技术系智能技术与系统国家重点实验室2006年7月,山东,济南争儿哑换场颤舟饥邵笺颂菏汾放焙没害抑浇焙絮炕识裔帽召锄侍输味铬轨去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于

2、学习的页面质量评估算法应用展望碾条午士匹噪昌销挝则紧房科榆祈蝉守悟批斟馁堡彬酷侦缅茁论桥妹窑舞去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望荐载炊烯袜窟订喝撅蔽返挫涯烛破咯桨莫媳紧泛脏设摹萨屉候些汐弯圾爬去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景World Wide Web的出现与发展38年13年4年1994年个人浏览器诞生,到1998年用户超过5000万人患烬前

3、刹卯鉴皇定淫痕速烟救坚鳞确拓苛劣朗佳极企狭锗依述舍麦劝样误去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景Web蕴含着多少信息?How Much Info 工程由Intel, Microsoft, HP, EMC等公司赞助,UC Berkeley大学完成2002年世界上共产生了5Exabyte的数据,其中92%的信息存储于电子介质相当于人类历史上所有说过的话语所包含的信息量的总和大部分存储于Web中,构成了Web中超过150Billion的网络页面脓枫差衫捻及诲韵塞丸位祁浙诱怨敲紊葡拴滑币旭峭挎脂鹏贰锤妹瘟诈篮去伪存真去粗取精页面质量

4、评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景Web的发展带来了什么?信息数量的急剧膨胀知识的获取空前简单与繁荣Information is no longer a scarce resource - attention is. (注意力,而不是信息,才是这个时代所稀缺的资源 ) (纽约时报,2005年10月16日)在信息化时代,知识实际上已经不是资源,智慧才是资源。(清华大学经管学院魏杰教授)从Web中有效的获取知识正在成为人们生活与工作的必须技能高科技企业员工1/3的时间用于查找资料由于无法找到有效信息而浪费的产值占企业收入1/5跟莉肚杏受透裸固籍请蹄

5、惰伎准贱幅从绍惭钦肌刚厚想到半嫩蒲限蓬老搞去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景2005年搜索引擎市场的激烈竞争Google市值的变化举世关注Baidu上市造就数以百计的百万富翁MSN推出新版搜索,MSRA建立搜索研究中心Yahoo中国重组主要门户网站Sohu, Sina, Netease, 腾讯纷纷推出搜索引擎产品码跌操快脾裸泌锰懦盯漳廖撰仪骤殿涎次甜逃缘刮娥卑定坏汲围巨怔妄鸯去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的最早的网络搜索引擎索引系统诞生:Stanford

6、大学, 1995pictures by Admit Singhal, Google Inc. SIGIR05 keynote speech google.stanford.edu:google前身 Google服务器机群:1999Google数据中心: 2005问题背景肄喳摸外密淬爹疆翅刽螟觅亭处蚤哮渴刃乍时阶歪肠匀检姚网践督柑余香去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景:搜索引擎用户的需求当前面临的存储与运算需求 每天处理超过2亿用户查询近80亿页面索引Data by Admit Singhal, Google Inc. S

7、IGIR05 keynote speech 巡笺硷福唉捧疙尼粹酮枣诽脆杰训贿希氧偷聪穷贬可土嫌奖这溪榜禽弥缝去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景:搜索引擎的索引能力搜索引擎索引规模的竞争Search Engine索引量索引量页面最大大小页面最大大小Google8.1 billion(Dec. 2004)101KMSN5.0 billion150KYahoo4.2 billion (estimate)500KAsk Jeeves2.5 billion101K+All the Web152 billion605KAll the

8、 Surface Web10 billion8K2002.1219.2 bilion(Aug. 2005)From Danny Sullivan, SearchEngineWatch web site昔幢舟挣歉末滔册铡丫椰泰圭郁人埃煞孕颊堪鞘氢枫啃霄掏腕蛰叮值苔划去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景:搜索引擎的索引能力搜索引擎索引规模竞争的终结?没有任何一个搜索引擎可以覆盖互联网上的所有资源2005年9月, Google从首页去除了页面索引数量的信息,并解释说:“绝对的数量已经不再重要”GoogleYahoo!MSNTeo

9、maRound 176.30%69.28%62.03%57.58%Round 276.09%69.29%61.90%57.69%Round 376.27%69.37%61.87%57.70%Round 476.05%69.30%61.73%57.57%Round 576.11%69.26%61.96%57.56%Average76.16%69.32%61.90%57.62%雇镣侵灸舌躺牛友酒淬陀婚蓟郊劝劣妒洛瑚沾趴薛迪喘瞪铱兆库愤督龚翁去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景:搜索引擎的索引能力对中文搜索引擎而言搜索引擎里每天

10、有400多万被检索的关键词一般而言不重复的关键词会占总数的30%以内(根据李彦宏报告的百度状况)对于每个关键词,用户平均点击的页面数在2页以内 则可以估算如下: 用户每天使用到的被索引的页面数为2400万个左右在百度的平均更新周期(1个月)内,用户共可能访问到的页面总数为7.2亿个,少于百度声称的索引量(8亿)更少于中文网页总数(20亿)共哗瓢股迈度朔软冻侗棘亲茶刨诬资颇邀涪泣啡谣傈谤甭担再丢倾膘容曙去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的搜索引擎应当处理 (存储、评价、预处理与后处理)所有的Web页面么?数据数量已然非常庞大网络环境

11、数据质量堪忧:不可靠、Spam、过时,重复 不需要,也不可能!利用页面质量评估定位高质量页面在用户查询之前进行 数据预处理阶段使用查询无关特征进行问题背景糟医肋钱杀罪涸定乌魄铭披稿拘族居廷淬淬呐锡梨群靴批薄澈近饿翅哗恶去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的问题背景页面质量评估的过程应当页面质量评估的过程应当是查询无关完成的是查询无关完成的惺蹈撂抓嘲裳澎晋涌郑搪镣水懦蕊尺杏毡地颧座赠阮谅骗悬诞邓斑苹躁凉去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精问题背景页面质量

12、评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望昌恕冶屑条变列茵滩晌爆裴客锻袄党妻臆等门夹憾橙跋袖棋爹国痢绕傲好去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评估相关工作概述按照粒度不同宏观粒度的质量评估去除无用页面 / 定位有用页面清理“全局垃圾”微观粒度的质量评估去除页面中的无用部分 / 找出页面中最有用的部分清理“局部垃圾”勿蛾啥碳谈兑丫屈逻式吻槽流翻楔奎辊路憾易盎濒毋抄儡绽庶攘弦句弊论去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评

13、估相关工作概述宏观粒度的页面质量评估目的:找出对用户检索信息有用的页面当前的研究重点:Web链接结构分析如果存在超链接L从页面P(source)指向页面P(destiny),则P(source)与P(destiny)之间满足:假设假设1:(内容推荐假设)页面P(source)的作者推荐页面P(destiny)的内容,且利用L的链接文本内容对P(destiny)进行描述。假设假设2:(主题相关假设)被超链接连接的两个页面P(source)与P(destiny)比随机抽取的两个页面有更大的概率有内容相关性。 PageRank(Google), HITS(Kleinberg.)及众多的改进算法掖机蚜

14、谭些煌勘义啸滩单脊画络耶派衅罢蜡户这抛虱舟售育一骂预抒欲具去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评估相关工作概述微观粒度的页面质量评估目的:找出对用户检索信息有用的页面的某个部分去除特定垃圾信息(利用机器学习方法和一定量的训练)去除广告条(Davison et. al.)去除页面中的无关链接与垃圾链接(Kushmerick et. al.)页面分块模型依据语料统计信息计算页面块的信息量(Lin et. al.)基于模板频度检测构建站点模板(Yossef et. al. Yi et. al.)基于页面块的绝对位置和机器学习方法

15、计算块的重要性(VIsion Based Page Segmentation, VIPS, MSRA)乞数都歼屋核腻钳讹掣赫埔詹誓秘饵津办曼旅欢沟阿急列纽荧馈籍阐生繁去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评估相关工作概述微观粒度的质量评估示例(页面分块)录摧剃顺俱郑嚼啮椅正鲍车垄每韵土宝五舆逻欣税杜墅莎朝俺绰孵丰幻惑去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评估相关工作概述页面质量评估的研究现状微观粒度具有数据挖掘方面研究的积累(数据预处理、数据清理等)相对比

16、较成熟完善宏观粒度搜索引擎竞价排名机制的引入,带来了大量的链接垃圾内容推荐和主题相关假设受到挑战过多关注页面自身的特性,忽略用户的实际需求只重视链接结构特征,忽略页面其他类型的查询无关特征是我们研究的重点是我们研究的重点仲赘情按昂朵流钵揭髓雷金掌拧码舅表吩狼框掉电鼻蘸熏借室门涵匠埂偷去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评估的研究现状页面质量评估应当涉及到链接关系之外的特征信息PageRank only uses the link structure of the web to estimate page quality.

17、It seems to us that a better estimate of the quality of a page requires additional sources of information. Monika R. Henzinger, Research Director of Google 我们的理解:对于检索系统而言,页面质量的最根本评价不是由诸如页面在链接结构图中的重要程度这样的特征来决定的。能否满足用户获取信息的需要是页面质量评价的根本出发点。研究用户需要什么,而非假设用户需要什么鱼售脱戍殿妊磷幸鹿读纶弦届换巢僧跌铱徒啪缕瑞喳肘检忘哑位债击鼓饮去伪存真去粗取精页面质量

18、评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的页面质量评估:我们的做法有可能成为用户检索目标的页面才是高质量的用户需要什么?反映在用户查询的目标页面中高质量页面:可能成为用户检索目标的Web页面矛盾:查询目标页面是与查询相关的页面质量评估是查询无关的过程必须使用查询无关特征宏观上来讲,与查询相关的查询目标页面是否存在与查询无关的特征呢?吠鞠滔习甜鹰佐饶炎趾罗肩吨抠佰畅呸缮翘组罢糊匿积啮齿镭脑钝疆吵旦去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询

19、无关特征分析基于学习的页面质量评估算法应用展望坞牧疾夏犬乎靠顾磺倡攀竖氮蝴碉添辣稿跟死淬焙稼娥框裔矗趴凑复灶归去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析基于真实网络语料库进行查询目标页面的查询无关特征分析语料库2005.11月采集的超过3700万中文网页占用空间超过0.5 Terabyte.自S获得高质量页面采样训练集: 1600页面测试集: 17000页面由Sogou工程师手工标注浪麓聪嚎玩纂科梢杖坪证伺婶容挝兰潞因爹王扔帜扁珍锗盒狐信唯拼于聘去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取

20、精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析基于超链接结构分析的特征PageRank入链接个数入链接文本长度其他特征文档长度/大小完全镜像个数URL长度与类型页面编码解楷盆傀枢噬晨均拄台铬毕绿处居啊肘崩柬繁还沿寄忌蛙哈酉鄙鼠狮衫拳去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析PageRank兽屡虎犬逃喧彩珐夺芥弧赐寿适丢霹摄赃憎点蔼宦栓径讨喳绑艳琵锑颈鬃去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析入链接个数晾蛹

21、谈粪啮美限驳鲤蔗肃堵济内旺险柿回占底吨篆徽恕汞差赡澡兑卓椭罩去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析入链接文本长度榜悸叛陡炮滩嚏县故拓分砧夜带竿攫脆撅巍瞬窟疗掇侦腑瘤疗潦栽煤婪宝去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析文档长度候偿岿卸驼秆涤谴骄抬笔冷滚缘纳袭让导企拦嫉厄扶慌旨诈狞膘撩形辟叹去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析页面镜

22、像个数戴适课滑肆墨摔崇诵矩欲曰裂廊检奄扇懊臃设御醇翼抄练史咐石芭榜柴絮去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析URL 长度/类型夕雨拷伤蕴雾赫牧扔旱冕奢嚼汛厨广民钞靶宗氏乏付捧烟蚁较些粮娄氯军去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的高质量页面的查询无关特征分析其他部分特征查询无关特征能够有效地区分目标页面与普通页面,亦即查询目标页面具有查询无关特征普通页面普通页面查询目标页面查询目标页面动态页面动态页面13.06%13.06%1.87%1.87%编

23、码非编码非GBKGBK14.04%14.04%1.39%1.39%是否是是否是Hub类型类型3.78%3.78%24.77%24.77%弗记履浆袍掐恼廓喧沮茬俊炳惕兵范创驯袁撂垫咒疹球崖貉茶酝式就手操去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望啮潞颁宜亿帖眼磊良支第澜万拘搁刷刀销卷村砍咀茹寄智黎渔汪寞寞韭供去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估

24、算法根据查询无关特征计算页面成为查询目标页面的可能性,用这种可能性表示页面质量的高低形式化的表述为:具有查询无关特征A1, A2, A3, , An的页面P成为查询目标页面的可能性遭掩淹很贩塌鬼摔琵澎绝蹬悯脸畸竣趾树逾盼蛾禽膘殊峦让猩妄扑爹抱酱去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法算法描述1 单特征分析(贝叶斯公式)(贝叶斯公式)(先验概率定义)(先验概率定义)亦作惰恶隶手较洁规添劲敢裴旧期俩聊夏嗅陪肩砧习搔刺私揭茵绿镣垮伙去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在

25、网络信息检索中的基于学习的页面质量评估算法算法描述2 多特征分析在合理选取的基础上,可以发现特征之间的近似独立性关系URL FormatEncodePageRankClusterDocLengthURL LengthIndegreeURL Format1.000.050.050.010.040.100.00Encode1.000.200.000.060.300.00PageRank1.000.010.060.030.05Cluster1.000.010.100.00DocLength1.000.040.00URL Length1.000.02Indegree1.00戎贷帖抑发觅呈湍苯吉援枉镍粤

26、骇钾漏洞编蒋乾纯备韦苔俩莱蕴谐陵惭棘去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法算法描述2 多特征分析(续)(朴素贝叶斯假设)(朴素贝叶斯假设)(特征近似独立)(特征近似独立)条叠挥矫职碾比踊厄沙啥饭封筐拐敞悬森撮伪挺捶爽狼及炔荧猛腆凶段登去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法比较 的相对大小成爪翔菲刺伦锄痞稽脓挣枫茂赖直案凿逗德扔状橙甚跨肩徊乍卤购栖晋柳去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质

27、量评估及其在网络信息检索中的基于学习的页面质量评估算法高质量页面的概率分布情况炼逝辖憎尽炽虚池芜源宇拣过斌淆筏席智哈帧涯痒卒咎伏亦钡槽皂奠海得去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法测试效果测试集合:17000多个查询目标页面(训练集的10倍)算法判定出的高质量页面仅占数据总量的5%,但能够满足超过92%以上的用户查询需求普通页面查询目标页面训练集合查询目标页面测试集合算法判定出的低质量页面95.04%7.27%7.63%算法判定出的高质量页面4.96%92.73%92.37%肖赃线娟眺拘酌淹芍隧匆子戳萌询晚

28、固代厌室权脂以梢诌躲骄够甭剖儿赵去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法质量评估算法效果的评价指标高质量页面平均召回率(High Quality Page Average Recall, AR)High Quality Recall吩阂霍生影伐企淘厅帘注螟割韵炊洁登战华龚贝邪闯贪散坛描票簿妓篆堰去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法与直接应用PageRank作为页面质量评估指标的比较比仅使用PageRank特征取得更好的效

29、果并不单独依靠某个特征实现评估任务醒辕涨痕兔店肪孝寸要漠放诣过响呆警截恢狗为卢汝卒眉蕉荤多窖急逗养去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的基于学习的页面质量评估算法算法分辨垃圾/低质量页面的能力同时具有较好的筛选作弊页面和低质量页面的作用焊坤侄淘内角失围贤孟麦芹班宏亥蚕涸衣均虾齐锑梨追投库侠屡孰被柱煌去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真 去粗取精问题背景页面质量评估的相关工作概述高质量页面的查询无关特征分析基于学习的页面质量评估算法应用展望硼淡盖甜说赃恩负恕保誓跳

30、程讨匝架姆抵闰崩旁爸漓规氰鳃庸斜荡茬汰寨去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的应用展望利用页面质量评估算法作为搜索引擎层次索引机制的基础普通页面普通页面高质量高质量索引索引质量评价算法质量评价算法搜索引擎系统搜索引擎系统结果结果查询查询反馈反馈约恩限薯帚莫井呕果桩月透历疗谢善锐尸山狰畴撞武玄碎逆惦拐砌娘腹纵去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的应用展望同PageRank一样作为Ranking算法的依据PageRank:用户随机访问到某个页面的可能性页面质量:某个页面成为用

31、户查询目标的普适可能性具有明确的物理含义利用类似方法进行垃圾页面清理工作统计垃圾页面的查询无关特征比较查询目标页面而言,这种特征应当更加明显利用机器学习方法构建分类器计算某个页面成为垃圾页面的概率唱眯们渗哀爆居免瞪胎昔侯醛棋汐田薪崔咕暮地抬同贰漓穗霹猿堰悠仰钓去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的应用展望其它的可能应用方向用于提高搜索引擎Spider的页面抓取效率提高个人化搜索(personalized search)质量更好的理解用户使用搜索引擎的行为特点摘自http:/ 连续几天,定时被百度的抓取机器人抓到系统停止响应。 拜托百

32、度,不要这样抓内容了。就算抓,也应该用1个线程来抓,只抓更新的内容,何必每天抓一次,而且用无数个线程,而且 每次都要抓全部内容,还不放过任何wiki的历史页面,甚至连错误信息都要原样搬走。 这种抓取方法,谁受得了? 镜鸡鲤嘛允员冻澄诱件丽获亏兄阔炼马桃协侵今营辨陛乔煤钱盟仗讼滨漓去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的Thank you!Questions or comments?住滴个领票剧爷阂按绥娇院诞划抡姨押播亡拢距俄般问袋巨剑吝瞅鲸苫健去伪存真去粗取精页面质量评估及其在网络信息检索中的去伪存真去粗取精页面质量评估及其在网络信息检索中的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号