(ppt)-基于用户群体行为分析的搜索引擎自动性能评价

资源描述

《(ppt)-基于用户群体行为分析的搜索引擎自动性能评价》由会员分享，可在线阅读，更多相关《(ppt)-基于用户群体行为分析的搜索引擎自动性能评价（49页珍藏版）》请在金锄头文库上搜索。

1、基于用户群体行为分析的搜索引擎自动性能评价,清华大学智能技术与系统国家重点实验室马少平 2008年4月12日，南昌,提纲,研究背景信息检索系统的评价方法基于用户行为分析的搜索引擎性能评价演示系统：搜索仪结论与未来工作,研究背景,Web的发展带来了什么？信息量的急剧增长 1994年，面向个人用户的浏览服务诞生 2002年，Web上所存储的数据超过500,000 TB 知识的获取空前简单与繁荣 “在信息化时代，知识实际上已经不是资源，智慧才是资源。” 从Web中有效的获取知识成为人们的必需技能高科技企业员工1/3的时间用于查找资料,研究背景,网络信息检索工具成为人们生活和工作中的重

2、要信息获取手段全球范围内84%的互联网用户使用搜索引擎，其中超过一半的人几乎每天使用。 2007年1月，我国网民总人数为13700万人。 95%以上的中国网民使用过搜索引擎，84.5%的用户将搜索引擎作为得知新网站的主要途径。商用搜索引擎竞争日趋激烈。,研究背景,性能评价对搜索引擎的重要作用对搜索引擎用户而言：挑选最有利于获取信息的手段对搜索引擎工程师而言：算法及数据处理方式有效性的判断对搜索引擎广告商而言：挑选最有效的广告投放手段,研究背景,搜索引擎评价的考察方式搜索引擎作为网络服务供应商的属性形式：用户问卷调查举例：CNNIC中国搜索引擎市场调查报告搜索引擎作为网络

3、信息检索工具的属性形式：传统的信息检索评价方法在网络环境中的应用。举例：TREC VLC/Web/Terabyte track，SEWM评测等,作为信息检索研究人员，我们的考察重点,提纲,研究背景信息检索系统的评价方法基于用户行为分析的搜索引擎性能评价演示系统：搜索仪结论与未来工作,信息检索系统的评价方法,评价在信息检索研究中发挥着重要的作用评价在信息检索系统的研发中一直处于核心的地位，以致于算法与其效果评价方式是合二为一的（Saracevic, SIGIR 1995）信息检索系统评价的起源 Kent等人第一次提出了关于Precision和Recall（开始称为relevanc

4、e）的概念（Kent, 1955）,信息检索系统的评价方法,信息检索系统评价的起源（续） Cranfield-like evaluation methodology Cranfield在上世纪伍十年代末到六十年代初提出了基于查询样例集、标准答案集和语料库的评测方案，被称为IR评价的“grand-daddy” 确立了评价在信息检索研究中的核心地位 Gerard Salton 与 SMART 系统 Sparck-Jones 的著作 “Information retrieval experiment” 在线：http:/www.itl.nist.gov/iaui/894.02/projects/ir

5、lib/,信息检索系统的评价方法,网络信息检索系统效果评价的现状数据对象繁杂，标注困难 Voorhees 估计，对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 TREC提出pooling方法，在保证评价结果可靠性的基础上大大减少了评判工作量缺点：处理的查询数目少，针对小规模的查询集合，仍需要耗费十余名标注人员1-2个月的工作时间提高搜索引擎评价方法的自动化程度势在必行,信息检索系统的评价方法,如何提高搜索引擎评价的自动化程度？,查询样例选取,标准答案标注,查询样例集合,标准答案集合,检索系统查询结果,信息检索系统的评价方法,核心问

6、题: 如何提高答案标注的自动化程度利用伪相关反馈的方法进行结果自动标注伪相关反馈的结果被认为是答案 Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 标注的准确程度和可靠性不高对查询词的近义词集合进行标注根据结果网页的查询词及近义词词频进行评判 Amitay et.al, 2004 初始标注工作量大，评判的可靠性不高,信息检索系统的评价方法,核心问题: 如何提高答案标注的自动化程度利用用户行为分析方法 Joachims et.al.(1997) 创建了一个元搜索接口，将不同搜索引擎的结果加以混杂，把用户点击不同

7、结果的情况加以记录，并以此作为评判依据用户行为分析的思路值得肯定缺点：改变用户检索习惯、个体用户行为不可靠等我们的研究思路通过对搜索引擎记录下的用户行为日志进行分析，不额外增加用户负担。使用用户群体，而不是个体的点击行为作为依据,提纲,研究背景信息检索系统的评价方法基于用户行为分析的搜索引擎性能评价演示系统：搜索仪结论与未来工作,基于用户行为分析的性能评价,总体思路基于Cranfield方式进行评价丰富的研究经验：评价指标、查询样例选取策略等便于与传统的手工标注评价方式进行比较基于用户关注程度进行查询样例选取基于用户行为信息进行答案自动标注个体用户可能在点击过程中

8、出现谬误用户群体的点击信息则是很大程度上可靠的统计用户群体的点击行为，进而对查询对应的结果进行标注,搜索引擎效果自动评价,基于用户关注程度进行查询样例自动挑选频度高于100的查询：35177个(查询个数1%) 覆盖了近70%的用户查询需求选取热门关键词(big fat head)作为代表性样例,余慧佳等，基于大规模日志分析的搜索引擎用户行为分析，中文信息学报，2007年第2期数据来源：Sogou搜索引擎2006年2月查询日志,搜索引擎效果自动评价,基于用户行为信息进行答案自动标注根据用户信息需求不同有所差别导航类信息需求对应的答案标注检索目标页面单一 H(URL|Query)较

9、低，检索系统的处理难度较低，答案标注难度较低信息事务类信息需求对应的答案标注多个检索目标页面 H(URL|Query)较高，检索系统的处理难度较高，答案标注难度较高,搜索引擎效果自动评价,导航类查询的答案标注结果唯一，不存在“找不全”的问题搜索引擎检索性能高，点击准确度较可靠能够发现用户的关注热点，如 “163” = “搜狗” = 答案标注的难度较低,搜索引擎效果自动评价,信息事务类查询的答案标注以查询词”电影”为例不同搜索引擎的点击分布差异大存在着搜索引擎对用户行为的偏置性影响索引数据偏置检索策略偏置结果不唯一，全面性难以保证答案标注难度较大需要借助多个搜索引擎

10、的用户行为信息进行标注,搜索引擎效果自动评价,自动评价流程,搜索引擎效果自动评价,按信息需求将查询样例自动分类,Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2006,搜索引擎效果自动评价,针对导航类查询的结果自动标注利用单个搜索引擎的点击信息即可完成焦点假设：不同用户具有相同的导航类别检索需求时，他们的点击都会集中在其检索目标网页

11、（或其镜像）上。网页r 针对查询q的点击集中度 q的点击集中度最高的r即为其检索目标页面,搜索引擎效果自动评价,针对导航类查询的结果自动标注标注算法：寻找针对q的ClickFocus值最大的r 标注样例,搜索引擎效果自动评价,针对信息事务类查询需求的答案自动标注基于多搜索引擎用户行为挖掘 1. 利用单搜索引擎用户行为挖掘方式，进行各自独立的标注 2. 借鉴Pooling做法，综合不同标注者（这里为搜索引擎用户的宏观行为）的意见,搜索引擎效果自动评价,基于多搜索引擎用户行为挖掘的标注算法需要考虑的因素用户点击行为差异用户访问量差异查询分布差异搜索引擎相对重要性的差异综合考虑以上

12、因素，计算某个结果对于某个查询的置信度,搜索引擎效果自动评价,合并计算结果url对于查询q的置信度基于单搜索引擎进行答案标注的可信度依据查询用户数来计算,搜索引擎效果自动评价,单独某个搜索引擎标注答案的可信程度依据此搜索引擎的用户点击的宏观集中程度来确定,搜索引擎效果自动评价,查询点击分布合并模型其中，反映不同搜索引擎在结果标注中的重要程度,搜索引擎效果自动评价,例：查询“疯狂英语”,答案自动标注实验,实验数据 8个月查询日志(超过7亿条日志信息) 针对其中高频导航类查询进行自动标注对每个时间段抽取约5%的数据进行手工检查,自动性能评价实验,与手工评价结果类似手工评价结果与自动评

13、价结果MRR值的相关系数达到0.965,SE1 SE2 SE3 SE4 SE5,自动性能评价实验,使用不同日志数据的实验使用单搜索引擎日志,SE1 SE2 SE3 SE4 SE5 SE6,自动性能评价实验,使用不同类型日志数据的实验使用多搜索引擎日志,SE1 SE2 SE3 SE4 SE5 SE6,自动性能评价实验,使用不同类型日志数据的实验使用多搜索引擎日志进行交叉评价（评价某搜索引擎性能时不使用其对应的日志数据）,SE1 SE2 SE3 SE4,自动性能评价实验,针对中文搜索引擎的评价实验导航类信息需求易于进行手工评价的比较信息事务类信息需求用于参照的手工评价结果的正确性本身

14、难以保证难以进行答案可靠性的验证 “搜索仪”的评价结果（参见演示）,提纲,研究背景信息检索系统的评价方法基于用户行为分析的搜索引擎性能评价演示系统：搜索仪结论与未来工作,搜索仪：评价搜索,Http:/searchE 一定程度取代评价搜索引擎性能的繁琐手工标注操作更加客观、标准均一反馈周期更短标注代表性更强实现对数以千计查询主题的标注功能演示！,提纲,研究背景信息检索系统的评价方法基于用户行为分析的搜索引擎性能评价演示系统：搜索仪结论与未来工作,结论与未来工作,用户行为分析的方法一直是信息检索相关研究向前发展的推动力实质：对人类信息获取规律的研究基于用户行为分析的

15、方法进行搜索引擎性能评价是适当的搜索引擎的自动性能评价导航类查询需求能够较好的实现自动评价信息事务类查询仍需进一步的考察,可能的未来应用方向,检索效果的实时监控检索系统自身运营维护的需要及时发现并预警系统问题面向特定领域需求的性能评价特定领域需求 = 特定领域查询词针对特定领域需求，使用特定的查询词进行评价。,可能的未来应用方向,汽车领域的搜索引擎排名查询词样例：现代、奇瑞汽车、宝马,可能的未来应用方向,流行歌手领域的搜索引擎排名查询词样例：周杰伦、刘德华、林心如,部分相关文献,Yiqun Liu, Yupeng Fu, Min Zhang, Liyun Ru, Shaop

16、ing Ma. 2007. Automatic search engine performance evaluation with click-through data analysis. In Proceedings of the 16th international Conference on World Wide Web, WWW 07. 1133-1134. 刘奕群，张敏，金奕江，马少平，一种搜索引擎性能评价的自动化处理方法，专利申请号200610144289.X。岑荣伟，刘奕群，张敏，金奕江，马少平，一种基于用户行为信息的搜索引擎检索结果重排序方法，专利申请号200710099594.6。岑荣伟，刘奕群，张敏，金奕江，

展开阅读全文