第四讲：查询与界面章ppt课件

资源描述

《第四讲：查询与界面章ppt课件》由会员分享，可在线阅读，更多相关《第四讲：查询与界面章ppt课件（54页珍藏版）》请在金锄头文库上搜索。

1、第四讲：第四讲：查询与界面查询与界面(6章)主讲人：朱征宇朱征宇联系电话：13452321656Email：zhu_课程名称：智能信息检索课程名称：智能信息检索税钨豫棉痘秆舶岩冈怕骏霄胚可殊瘴咕凡凿韩恋客铀月烽恿泻受狂哺师咨第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件2一、信息需求与查询一、信息需求与查询v查询界面的重要性查询界面的重要性尽管索引和排序是搜索引擎的核心但从用户角度看，搜索引擎主要是提供查询输入和查看结果用户不能改变算法工作方式但用户能通过构造查询、浏览结果、重写查询与系统交互交互是信息检索的关键，决定了搜索引擎是否提供有效服务v如何看待查询如何看待查询查询

2、能够表达各种完全/截然不同的信息需求，比如通过复杂的布尔表达式/结构化查询(如Galago系统)。(需要不同排序算法和模型来产生最好的排序)-第7章讨论查询仅仅是对信息需求的粗略表达(当需求难以表达时)，尤其是用户喜欢用短词，搜索引擎也鼓励输入短查询-本章讨论v查询界面研究内容查询界面研究内容提炼查询的一系列技术(拼写纠错,查询扩展,相关反馈等)-by交互式结果显示的一系列技术(页面摘要,检索结果聚类,文档高亮显示等)v最常用的查询形式最常用的查询形式短查询(2-3个词)。为什么？(原因分析)搜索引擎搜索引擎的查询界的查询界面重要？面重要？第第6 6章章“这是信息检索，不是信息分布。这是信息检

3、索，不是信息分布。” - Jack Lint查询能够查询能够表达信息表达信息需求？需求？查询界面查询界面研究什么研究什么?常用的查询常用的查询界面是什么界面是什么?藉昏宗刃蝗詹示皑危呼匈他稍笑盛聊给蛋懂居睹材轿爪妖密蝎涉本词言夜第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件3不愿使用长查询的原因不愿使用长查询的原因v历史原因历史原因过去，搜索引擎是为专家或搜索中介设计的！例子：用户查询描述自然语言描述的一段话，搜索中介特征项和操作描述的查询语言-表达式 (p.114)v现在原因现在原因一些查询语言操作符也可出现在搜索引擎界面上(“”-短语，+ +-必须包含词)但搜索引擎通常

4、侧重于使用简单关键词查询(自然语言查询)，方便普通用户!虽然，一些协作式问答系统(社区问答)，查询平均长度30词但当前搜索技术不能很好处理长查询(大多搜索引擎仅能对含有少量查询词的文档排序)搜索引擎采用的排序算法，主要是基于将文本看着词集合的统计学方法而一般不是基于句法和语义特征操作符和语法格式，一般用户难以正确使用，偏向输入短词或短语#滓皱佛咱输淌沤劝歧膏彭篇黄雕兵疼捻狸母誉豺蜘砍告塌药讲桶醉陵苔擎第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件4疏于保养未能维持航标浮标助航标志疏忽粗心大意用户查询用户查询 & 搜索中介查询搜索中介查询装备蔼珍语煽业冗盐泰放定糙豢撤

5、修蝎弧憾布何羊荚斧铅夹读抢孕似匈赊饼溺第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件5二、查询转换与提炼二、查询转换与提炼2.1 停用词去除和词干提取停用词去除和词干提取v查询预处理查询预处理-停用词停用词本节假设：查询只是简单的文本文本查询最初的处理过程，应该对应于文档的处理步骤查询文本中的词，应转换为文本处理时产生的同样词项之前提到，索引时可不去除停用词，而在查询时处理(允许对含停用词的查询进行搜索，增加了灵活性)可以去除查询中的停用词，也可保留(当使用“”或+操作特别指明时)v查询预处理查询预处理-词干词干可能文档处理时对词干进行了处理(增加查询灵活性)，查询时也应对词

6、干进行处理但一定要采用恰当的词变形来扩展查询，才能获得更好查询效果注意：注意：词干处理有时会影响结果的精确性(如fish village,fishing village可能是不同短语)，词干处理不能仅归为词干，而应基于词干进行扩展！这时，需根据特殊因素做查询决定 (如判定词是否是短语的部分)v词干提取与词干类别词干提取与词干类别查询也需查询也需要处理停要处理停用词吗用词吗?查询也需查询也需处理词干处理词干?如何处理词干?渔村召口狼唁偶闲勘危战乃批抽凄眠巡丫蓖伏抒虫鸟羡瘫拜亿湾莽庚嫩叉瞻衣第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件6词干提取与词干类别词干提取与词干类别自动

7、提取，在所难免？自动提取，在所难免？弥补方法弥补方法！警察政策绿瞒祖镜歌者段蹦署蟹陋腰钩陇陕新灼豆泰扫剐配嫡校轻博拒勇尚遂伎邱第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件7利用词共现区分词干类别利用词共现区分词干类别肿随缄首峰做偏厌渴蔓讳琢澎纱鲤西锗握莹天跋盂声涎数莉役品蔷秆邓堵第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件82.2 拼写检查和改写建议拼写检查和改写建议v拼写检查的重要性拼写检查的重要性它是查询处理过程中极为重要的部分网络搜索中，10%-15%的查询含有拼写错误！v拼写错误的检查方法拼写错误的检查方法基本方法: 对于在拼写词典中没有的词

8、，就建议(用户)更正它们将没有的词与词典中词进行相似比较，以便提出更正建议词相似度的衡量标准：编辑距离编辑距离！比如，Damerau-LevenshteinDamerau-Levenshtein距离距离-计算转换为同一单词所需最少操作次数vDamerau-Levenshtein距离计算距离计算v更优化的计算方法v噪声通道模型为什么要为什么要检查拼写检查拼写?如何检查如何检查拼写拼写?如何计算单词距离?距距离离为为一一距距离离为为二二docerationdecoration:支滨胶薪瓦贞衙拓艾湃丽步匆子也手接收贼杜番党穗来芹模早咋颁享桓猎第四讲：查询与界面章 ppt课件第四讲：查询与界面章 pp

9、t课件9棉花糖伯明翰更优化的计算方法：更优化的计算方法：Soundex编码编码E23 - 522- - 52 E23 52 - - 52 E235252 E235 P- - 5 - 6 P56 P560 注意：注意：拼写错误可能有多种校正方式：lawers lowers,lawyers,layers?可: 将所有词显示给用户，也可: 按照语言出现频率的次序呈现！(更正提示信息可用: did you mean?)元音元音辅音辅音懊粱贪谁织菇向染撮锥塑首融挪沉厨俗肪浆那漳茶嫩划澄搜撼夷舔湿任臂第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件10噪声通道模型噪声通道模型 (用于拼写校

10、正)v是一种能够处理更改是一种能够处理更改词排序词排序、上下文上下文和和语义连贯语义连贯等错误的通用结构等错误的通用结构v理论基础：理论基础：香农(shannon&Weaver,1963)的通信理论(通俗地讲)一个人以概率分布p(w)想要输入词w, 但却以概率P(e/w) 误输入了词e这里，P(w)-称为语言模型(第7章讲)，用来获取词在一个文本中出现频率 P(e/w)-称为错误模型，表示在文本中不同类型拼写错误发生的频率一般地，与词w的编辑距离为1的词概率非常高 (随距离增大概率依次降低)当然，同音词的概率也很高v理论的用途：理论的用途：注意，正确的词也有概率P(w/w).不过，如果最高

11、概率更正的词是(与当前词)相同的词，则不对用户提出更正建议如果，上下文（语言模型）提示了另一词可能更恰当，就对用户提出更正建议并且，可按照校正概率大小排序显示多个可能的更正词建议这就是为何：对“golf curse”查询，将给出用course替代curse（诅咒）的校正建议v校正概率的估计(计算校正概率P(w/e) 即错写为e时，正确的是w的概率)vCucerzan和Bill(2004)估计法 #如：ultimatwarcade 或 mainscourcebank，都遗漏了边界“空格”簿瘸司筑褐痪启昌狡迟勺氏天峭虑咸绞坛皑码拟广哉酗厢蔚渴痔色抿滔膨第四讲：查询与界面章 ppt课件第四讲：查询与

12、界面章 ppt课件11校正概率的估计校正概率的估计v基本思路：基本思路：因某人写的词是e，所以需计算P(w/e)。校正概率！错写为e时，正确的是w的概率v简单的估计法：简单的估计法：若只想找到具有最大概率具有最大概率的更正词（或对多个词排序），则可计算：P(e/w)*P(w)。-错误概率和语言概率的乘积！ v更科学的估计法：更科学的估计法：为能处理语义连贯性方面的错误和上下文上下文，语言模型还需要考虑词对词对信息比如，一个词的语言模型概率采用：p(w)+(1-)P(w/wp)(这里，p(w)-词出现概率，P(w/wp)-词w在词wp之后出现的概率)例子：对查询输入fish tink，虽然，ta

13、nk和think与tink都有”很高的错误模型概率(编辑距离1)”，并有相似的P(w)但是，P(tank/fish)比P(think/fish)大很多，故tank(贮水池)更可能是校正词！v语言模型所需信息的言模型所需信息的获取方法取方法 #乘法公式：P(we)=P(w)*P(e/w)=P(e)*P(w/e)所以：P(w/e)=P(w)*P(e/w) /P(e)因为对不同的w，P(e)值相同故要使P(w/e)最大，只需使P(w)*P(e/w) 最大！晤赚扼锥战躇禁前族碎芍掺赂捧荣常赌炸漆树桃哗荆滇目寅嘘钩惟树建衫第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件12语言模型所需信

14、息的言模型所需信息的获取方法取方法v“词对词对”模型获取途径：模型获取途径：-采用能搜集到的文档集合！比如，查询日志（包含了大量提交到搜索引擎的查询）查询日志可能是最好的资源(语言模型需要记录成对的词的信息)与分析一个大规模的文档集合相比，分析查询日志会减少这些词对的数量此外，对于这个应用，如果有一个可信的字典，也应使用该字典v“错误模型错误模型”概率的估计概率的估计简单的方法：假定所有具有相同编辑距离(一般取1-2即可)的错误有相等的概率复杂的方法：对一些确定类型的错误发生可能性进行概率估计如对想输e输入a (通过对大规模的文本集中,或查询日志,查找正确拼写和不正确拼写的词对，来估计)攻消毖

15、蔷磋搏积氖瘩炕同该靛嘉辨擒欲揖拱省驼靴态蚤拼型堂泉焉鸭藩幻第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件13小型的 Cucerzan和和Bill(2004)估计法估计法飞箍创耕访疟槐散性皂宅找捐渺矫熊何壹迂擅纂豪猩修享幂吠力你置糖娠第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件142.3 查询扩展查询扩展v查询扩展查询扩展: 搜索引擎将用户的初始查询用一个或多个词去扩展，或替换查询中的一些词，并将修改后的查询建议提交给用户，可帮助改善检索效果v基本思路基本思路通常是基于对指定文档集中词或词项共现的分析（文档集可以是全部文档集、大规模的查询集合、排序结果中最高

16、的部分）查询的词干提取，也可看着是一种查询扩展技术(基于词的变形)采用常规叙词表的自动扩展技术(但效果往往未必好)v关键技术关键技术有效扩展的关键，是选择适合查询上下文或主题的词汇！v例如，对tropical fish tanks，aquarium(水族馆)是对词tank一个好的扩展对armor装甲兵/部队 of tank， aquarium对词tank扩展则不好！v另外，直接用叙词表来扩展词未必会有用(因它列出了不同上下文的词，很难自动使用它!), 但若结合使用查询中全部词(而非分别地)，效果会好很多相关性衡量v衡量词项的相关性，是一些查询扩展方法的重要部分！v基本方法：戴斯系数戴斯系数(

17、Dice) ，互信息互信息(MIM)，期望互信息期望互信息(EMIM)，x2v实验比较实验比较（图6-3图6-5）与评价&改进利用查询日志 #什么是查询什么是查询扩展，需要扩展，需要吗吗?如何进行如何进行查询扩展查询扩展?查询扩展查询扩展采用什么采用什么技术技术?几种扩展技术效果如何?砌造宦炊栽些奄跳诊耙影岭岔喜然首甘析牛救烁洼世个哎馏开掌芦臀气熔第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件15叙词表叙词表颈部痛树编号臃悠央厉沦衍岭典囚分议帆妹燎后诣色稳马炒裳离壕诌祝俞亭维遍蕴浸少第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件16戴斯系数戴斯系数(Di

18、ce coefficient)法法-Dicev(P.116)已介绍过：通捉变宏旋绽厩驯篱练装百桔酷在肄翼背睫裙汐予词诬斟沧破戎才灼街也第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件17互信息法互信息法(mutual information measuer)-MIM大大小小而两种情形的戴斯系数而两种情形的戴斯系数nab/(na+nb)则均为则均为1/4。上式上式上式上式上式上式春略据宴栋麦几悯益尾苹惩竿爹食源贯娠值夯咏僚斟喉莹瀑朽娠二紧啮锄第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件18期望互信息法期望互信息法(Expected mutual informa

19、tion measure)-EMIM变小变小变大变大垢哨绒哲绿脊毅盼妇必煽空察庶优吸竿滇侈阜而盗灸资埋食蚁槛舀旗柞通第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件19皮尔森皮尔森(person)检验法检验法-x2nab死蹦起空挫龄弗粪殉模讨村抖选称捍伐嗓劫盂芦偿操添芋诅龄粳妇噶芭落第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件20效果比较效果比较1：图：图6-3完完全全相相同同，低低频频词词低低频频词词（前前面面的的）常常规规词词注：aquarium未出现！贫暖喇蕉剪期莽手蘑创捞嗡艘校吭权擅娘舱犁喷迷惰莎瘦选汗哗篓麦季宴第四讲：查询与界面章 ppt课件第四讲

20、：查询与界面章 ppt课件21效果比较效果比较2：图：图6-4仍仍然然是是低低频频词词，排排序序也也不不同同有有11个个完完全全相相关关的的词词，但但排排序序不不同同注：aquarium未出现！晃脂祁涅让枢状鉴余挎藤忻城魁骋蓝枣亨弦穷吊旷勤捶显综斋贬寿悲烈舀第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件22效果比较效果比较3：图：图6-5仍仍然然是是低低频频词词，但但绝绝大大部部分分已已与与图图6-4不不同同与与图图6-4相相比比，相相关关性性约约有有改改善善与与图图6-4比比较较，有有9个个相相同同词词注：aquarium未出现！帐畏舟得吃琼个翁辑赣砰混酥氨檬扣本织羊化儡婆

21、牡络炎呀季疟尔排塞虞第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件23实验评价实验评价&改进改进v问题：问题：上述表格中(都是仅根据一个单个词计算相关性)，最好的排序也几乎未有包含能用作扩展tropical fish的词v一种解决方法：一种解决方法：找到与短语tropical fish(而非单个词)密切相关的词！例如，使用Dice方法在TREC上可找到(更好地与上下文相关的) 排前10的词：新问题：需要对查询中每组词分析关联性，不现实(检索时动态分析，太慢)v新的解决方法：新的解决方法：法1：对查询检索出的文档进行词共现的分析(见下节的伪相关反馈法):法2：根据与指定词共

22、现的其他词的分析：v1) 对文档集中每个词，用Dice法取得前M(如35)个相关词(如aquarium的相关词), 用这些词构成表示该词(aquarium)的虚文档；v2) 对全部虚文档，按照与正规文档相同的方式，建立倒排索引(一次性预先建好)和排序；v3) 判定查询的扩展词时，利用上倒排索引，计算哪一词与查询最相关； (aquatium的虚文档以很高的权重包含词tropical和fish，故它对查询tropical fish应有更高排序)v4) 这样，该词(aquarium)将是具有更高排序的扩展项(理想的扩展词)。v注意：词jungle的虚文档，尽管以很高权重包含词tropical，但不

23、太可能包含词fish，从而排序将低于词aquarium #饵硝众仁谣钓铬煌锤仅迁诲伍绑剪攀西褂磷系制梁奋追栓幻赛波圣闯儒蝶第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件24利用查询日志的扩展方法利用查询日志的扩展方法v查询日志的好处查询日志的好处前面指出，不应是整个文档集，而是基于搜索结果或查询日志(更高效,有效)查询日志是短文本，容易分析，且还包含检索过程数据(如用户点击的文档的信息)v扩展方法例示分析扩展方法例示分析下面是从一流行网站查询日志获得的含tropical fish的查询相关的10高频词:这些词指出与tropical fish相关查询的类型(销售、图片、供应等方

24、面)其中的大部分适合作为查询扩展 (针对不同用户类，可能不同)通常，以完整查询的形式给出查询扩展建议 (而非仅建议单个扩展查询词) 例如，tropical fish supplies是比supplies tropical fish更好的扩展建议v发现相似查询发现相似查询上例分析看出，查询扩展能够被看着被看着发现相似查询的问题(而非扩展查询项)特别，相似查询不总是包含相同的词例如，pet fish sales也可以看作为对tropical fish的一个合理的候选扩展语义相似性：查询不仅可以根据词，还可以根据他们具有相关内容的相关文档组合!点击流就非常相似于这种数据，可根据点击流数据相似性来度量

25、查询间相似性。例如，可采用Dice法来计算(nab-两查询具有的相同的点击网页数量，na、nb是每个查询的点击网页数量)拟痘舒币卢粘桑女乡阜劝嘘耶遗沦榷何挝冕蛆辫韵榜螺凝狂鹏韭幽酪臆豺第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件252.4 相关反馈相关反馈v相关反馈相关反馈相关反馈，也是一种查询扩展方法它通过与用户的交互过程，识别出在用户初始查询的排序文档中的相关文档，实现对查询结果的改善与上节介绍的半自动方法不同(让用户从词项列表中进行选择)，相关反馈技术，让用户指出哪些是感兴趣的，哪些是不感兴趣的，它根据这些信息，通过增加词项或对原始词项重新分配权重，自动地改写查询，并

26、自动生成新的文档排序。v基本原理基本原理相关反馈的处理过程，是信息检索中应用机器学习方法的简单例子v它通过训练数据(识别相关和不相关的文档)改善系统性能v修改查询，事实上等同于学习一个分类器(用于区分相关和不相关文档)v但，相关反馈产生的训练数据量非常有限(当前查询期间的输入内容)v技术思路技术思路什么叫相什么叫相关反馈？关反馈？相关反馈的相关反馈的科学依据？科学依据？相关反馈的具体做法？匿债骇湿豆佛壕巍硕油风棠灯谦害睬衰准站臼技斯萄粗热演呜书罢绑抡勋第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件26相关反馈的技术思路相关反馈的技术思路v检索模型检索模型相关反馈调整查询的具体

27、方法，与所用检索模型有关！(7章，将介绍在向量空间模型和概率模型中，如何使用相关反馈技术)v通常做法通常做法当一些词在相关文档中出现频率比在不相关文档中高时，将其添加到查询中或者提高这些词的权重伪相关反馈，也采用同样思想。所不同的是，不是让用户自己去识别项文档，而是系统将排序靠前的文档假设是相关的 (7章讲详细地介绍)(这些文档中频繁出现的词，用来扩展初始查询，具体做法取决于检索模型)注意：伪相关反馈产生的扩展项，是根据整个查询(来自其靠前的文档)，扩展质量则由靠前的文档有多少是实际相关的而决定的v例示分析例示分析（伪相关反馈）v特别说明特别说明 (小结)戈荡绞衬沂鄂彩授唬民溉湿看荒幌珠轮谗觉

28、贡剿暇凌套悠鞘昌雨丹熏垛陈第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件27例示分析：伪相关反馈例示分析：伪相关反馈用户点击用户点击/评价了该文档评价了该文档(交互过程交互过程)涉及到用户评价的交互过程涉及到用户评价的交互过程相对权重相对权重(与前面的排序不同了与前面的排序不同了)屡料胯古芯拈攘授匿悯杂掏撕峡勃拜旧靴即番冻社卢蛾镜壬覆馒他歇主尖第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件28图图6-1或啦内唤拿豌扎罢础竹秘帘昨韭咯抖峪沦厅昏跃燥羚卞指做痔搞恋肛郭陨第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件29特别说明特别说明(相关反馈

29、小结相关反馈小结)v前提假设前提假设 (使用相关反馈)用户需要寻找一些相关文档(如数据挖掘资料)，而非初始排序结果中的几个文档v最常用方式最常用方式尽管这些应用取得了一些成功，但目前常用方法是，要求用户从一系列查询提议中选择查询 (交互过程)虽然不能保证提议的查询中就会包含用户想要查找的文档，但相关反馈(理论上讲)支持了更精确的查询改写！v小结小结这可能是更多的情形这可能是更多的情形(后一情形后一情形)！对后一情形：对后一情形：利用前面介绍的利用前面介绍的各种查询扩展技术各种查询扩展技术秆邀那循坛毡速投虞慨吵喝替断吴凝劳萨驭冈莉归扭帮谬藤砰舰呵硅沽荆第四讲：查询与界面章 ppt课件第四讲：查询

30、与界面章 ppt课件302.5 上下文和个性化上下文和个性化v个性化搜索个性化搜索前面的搜索引擎有个特点：对于相同的查询，给出相同的检索结果(而不管查询是谁提交、为什么提交、何地提交、何时提交-上下文)这类搜索被称为无个性化(或上下文无关)的搜索反之，则称为个性化搜索(如不同用户输入同一查询,返回不同结果)(甚至同一用户在不同时间输入同一查询,返回不同结果)v上下文的获取问题上下文的获取问题事实证明，大部分的上下文信息难以获取并且，很难以始终有效的方式，用于对改善排序结果的表达目前，还是有许多成功的研究，能够从不同程度起到个性化的作用v上下文的表示方式上下文的表示方式有些研究，通过学习用户模型

31、/描述文件，支持搜索的个性化小结：小结：改善搜索质量的有效上下文是：查询日志和搜索会话历史，使用地理上下文信息的本地搜索也对部分查询产生实质性的改善这里的个这里的个性化指的性化指的是什么是什么?上下文可上下文可以被获取以被获取?上下文如上下文如何获得和何获得和表示表示?塌未阻碱鲤头瘴余炭瓣遵淋蒂市刑鸡枚匙喉亦鼠封豹查胖摈阶标漠裁淀苞第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件31用户模型的学习问题用户模型的学习问题v个性化系统的例子分析个性化系统的例子分析如果知道一个人对体育感兴趣(通过个人注册或浏览历史，学习到用户模型)则对他的查询viking-维京人队(明尼苏达)，系统

32、检索出的文档可能会与另一关心历史的人(同样检索)有所不同这种想法很诱人，但实现时困难重重v用户模型学习的难点用户模型学习的难点用户模型学习的准确程度v可以从用户访问的网页、邮件、甚至桌面文件等学习，但取哪些词、权重大小、模型结构等确定困难，事实证明，难以改善排序效果！v另一种方式是让用户自定义，但用户是否愿意，能否准确定义，甚至需要分类定义？说不定，用户直接考虑如何输入查询词还更容易用户模型的隐私问题v隐式搜索和浏览已是共识，根据用户上网行为建模可能不受欢迎v有用的上下文有用的上下文用检索记录/点击流改善网络搜索性能(通常针对用户群，分析相似搜索历史)本地搜索中，分析查询提交的位置信息，可将本

33、地企业的文档排序靠前 #胚弯澜栗驴传体钎捧指滥迢方铂蜗篷叶睹韭镜懂垄脉搽脾迅谚虐诊莫够迭第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件32本地搜索的工作步骤本地搜索的工作步骤(本地搜索的用途：尤其是电子商务或生活服务应用中本地搜索的用途：尤其是电子商务或生活服务应用中)瞎瓜频吮喷郴糟粱购歧杉矮塔酪压烛姿复收咐歼泰矢狗糠引唐较弓凶媳胶第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件33三、搜索结果显示三、搜索结果显示3.1 结果页面与页面摘要结果页面与页面摘要v结果显示页面结果显示页面大部分搜索引擎的结果页面，仍采用排序的文档摘要列表文档摘要与实际页面链接，并包

34、括标题、URL、快照链接还包含更重要的页面摘要、广告简述和广告链接在上述内容中，许多词和广告等，通常用黑体/加亮显示例子(图6-3)v页面摘要的生成页面摘要的生成页面摘要自动生成，是自动文摘的一个应用例子自动文摘技术大致可分为：查询无关文摘和查询相关文摘v搜索结果页面，是查询相关文摘 (因根据查询检索而得到)v不过，页面摘要生成中，也会采用一些查询无关文摘方法(比如，可能会考虑文本在页面中的位置、是否在标题中)v自动文摘技术自动文摘技术H.P.Luhn(1958)方法 #选取句子还可利用其它特征(是否标题，是否是第1,2行，包含查询词的数量)结果界面结果界面还应做哪还应做哪些处理些处理?页面摘

35、要页面摘要如何得到如何得到?系皇梅揉捕笼气潦尾地傀顿朵衷屋女妓妓蛛委刹韵至站嗣汹辫译侧昏骇匀第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件34它它Luhn方法方法依句子数量的不同而限定不同频率依句子数量的不同而限定不同频率满足公式时满足公式时20嘶尸升蔓咙执策身限遗续凑茄考宁诱盒嗅遂算玉阀限唐蓖舟敢氰藩弄潜潦第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件353.2 广告与搜索广告与搜索v广告的重要性广告的重要性广告是搜索引擎中的关键部分，因网站用它获取商业利益v展示要求展示要求竞价搜索，目的是要找到符合查询上下文的广告当用户浏览网页时，应根据网页内容选择和展

36、示广告(因希望更多的人点击广告，影响到广告的收费)需建立广告数据库（包括其产品描述、到相关页面的链接等）v广告搜索应考虑的因素广告搜索应考虑的因素不是：仅根据简单文本的排序去选择广告而是：还要与查询匹配的关键词价格(因为：广告商会出价竞买一些与产品主题有关的关键词)广告受欢迎的程度也是一个重要因素(产生更多点击流)v广告搜索技术广告搜索技术 #搜索为何与搜索为何与广告有关广告有关?广告展示广告展示有何要求有何要求?广告搜索广告搜索需考虑哪需考虑哪些因素些因素?智慧性(好的广告方式)：将网站商业利益与网站用户利益有机结合！称照寅叠之名亭西玄工昂藉豫淖鹤翠犁啄摊弄近失陛爱桔假涨李钡薯猎团第四讲：查

37、询与界面章 ppt课件第四讲：查询与界面章 ppt课件36广告搜索技术的一些思路广告搜索技术的一些思路v基本思路基本思路有些广告对用户群体更具有吸引力，可以产生更多的点击流广告受欢迎的程度，可以通过周期地查询系统日志中的点击流来衡量通过分析这些因素(相关性，出价，受欢迎程度)，制定搜索策略，达到预期利润v例子分析例子分析用户查询tropical fish时一个宠物公司可能为词aquarium和tropical fish出了最高价该公司的广告内容中也包含一些与查询匹配的词故，该公司的广告会因这两点优势获得很高的分数（广告排序会非常靠前）若另一公司的广告非常受欢迎，对同样的词也出了高价，它也有机会

38、被选择v相近匹配问题相近匹配问题一般地，广告文本含词少，故能够匹配上查询中出现的广告词的变形也很好例如：宠物公司为词aquarium出了高价，希望能够接到来自用户查询fish tank的业务词干处理技术，同义词等语义匹配技术，都可能应用于广告搜索/匹配查询改写过程的分析，也可用于广告搜索（利用方式）#搜索广告机制搜索广告机制应如何设计应如何设计?遍毗裁篙廉甩然撕甭管谎稀蒋鞠腻孰购惫尝滁肋蛾搪搁哪唯极囱籽术颁典第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件37利用方式利用方式(查询改写技术用于广告搜索查询改写技术用于广告搜索)v查询改写与显著性分析查询改写与显著性分析研究表明，

39、约50%的查询被改写（用户通过对初始查询中词的改写，不断修改查询）采用前面的统计检验法，可以决定出那对词的关联度更为显著例如，短语fish tank与aquarium之间的关联，会在很多用户的查询改写过程中出现，可以分析出它是显著的v查询改写技术用于广告搜索查询改写技术用于广告搜索查询过程分析出的词或短语间的显著性，是词间关联度的体现可以利用这些显著性，生成一个排序的查询改写列表这个列表，可以被用于生成匹配广告关键词的查询（如下）v最有效的广告排序规则最有效的广告排序规则(实验表明)将完全匹配查询的广告排在最前，然后是通过词干替换而匹配的广告，最后是根据概率相似度匹配(7.3节将介绍)扩展查询

40、的广告例子（图6-5）#查询改写如查询改写如何用于广告何用于广告搜索搜索?悯蚜股罚缓岗尽稽肿赚种矛兑辉讲轴派豁篷末哥肖酉迭衡丈汀硒楞峰弟拴第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件38无无图图6-5：广告排序的例子：广告排序的例子鱼缸加厨掏联掺沾问罐拷惠褂找嗣匡孰罩蹭土赖宏吼抉吃饵掠斤饯议钦郝迟梁第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件393.3 结果聚类结果聚类v结果显示中的问题结果显示中的问题前面介绍的、及传统做法一般是：搜索结果按照排序显示给用户存在问题：v搜索结果常包括与查询主题相关的不同方面(尤其当仅1个查询词时)例如，查询姚明，结果会包

41、括：姚明-NBA，姚明-中国，姚明-家庭查询fish，结果会包括：鱼缸，宠物供应商，鱼饲养知识v但对特定用户，可能仅关心其中一类(姚明-NBA)，对排序显示可能失望v问题解决途径问题解决途径对检索结果聚类！聚类：是将检索结果文档集，按照内容相似性，聚成一些类(文档组)如果将这些类别显示给用户，便于用户快速定位到感兴趣的文档类（然后，每个文档类，在按照文档与查询的相关性排序显示）v结果聚类的基本要求结果聚类的基本要求1)效率：因在线进行! (可仅对排序靠前的文档，且通常是对文档摘要聚类)2)理解性：聚类结果复杂，如何自动描述类?(一般选择能够产生单因素分类结果的聚类技术; 甚至使用词/短语分析

42、技术，考虑标题词等，形成类描述词)v逐面分类法逐面分类法 (图6-7) #结果显示结果显示与聚类有与聚类有关吗关吗?问题如何问题如何解决解决?结果聚类结果聚类有何要求有何要求?聚类一次聚类一次就足够吗就足够吗?致单挑拱毙磕订镰啡粳联福尹务嘱剔廓凿垃鹤疾巷释切船掇箍旭惮锋的腑第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件40搜索结果按照类别显示的例子搜索结果按照类别显示的例子绣吱蜂艇蛾泻寂灸抗惋违扩互腔沼流洲摈难计卡盟脑喷晚掘赡跨俭檄邓帝第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件41逐面分类法逐面分类法锦惠剿荫绽吝汽清娘努蹲毁患熔瘫胡镇促乎澜招战浙仿户杉寓

43、妈肉睛迅佃第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件42图图6-8: Home & garden子类界面子类界面参提妖沦炼粪庶手掣睫琵兵缆子帕箩景顾淄木牵裔殃摧膘重酝俯码幌昨波第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件43(单语言单语言)(单语言单语言)(文档翻译文档翻译)(查询翻译查询翻译)v跨语言搜索跨语言搜索原则上：通过“一个/多个不同单语言搜索引擎”+翻译，可以实现当然，翻译工作在哪个环节，可以形形色色，效果也另当别论v跨语言搜索的模式跨语言搜索的模式用户用单语言查询和结果被翻译系统采用自动翻译(人工翻译成本太高)v自动翻译技术自动翻译技术常

44、见的是使用双语词典及基于统计的翻译模型(如果统计概率精确, 统计翻译会有非常不同的翻译质量)四、跨语言搜索四、跨语言搜索跨语言搜跨语言搜索可能吗索可能吗?跨语言搜跨语言搜索的组织索的组织结构结构?end如何实现如何实现自动翻译自动翻译?补充材料补充材料涡枷偷琴廷惭戳窜沽佩框昔寨壮涪坚株钥泌禹姑氧楞肢溯罐苛缩颓曝鼓夸第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件44五、查询推荐技术简介五、查询推荐技术简介(李亚楠-中国科学院,搜索引擎查询推荐技术综述,中文信息学报, 2010年11月,24(6)v存在问题存在问题很多时候用户输入的查询并不能精确表达其搜索意图v查询推荐技术的重要

45、性查询推荐技术的重要性可用于找出与初始查询或关键词相关的其他查询或关键词可帮助用户更好地构造查询是当今搜索引擎的必备技术之一被广泛用于搜索引擎和广告检索系统中v两类典型的技术方法两类典型的技术方法基于文档的方法主要通过处理包含查询的相关文档来找出与查询相关的词或短语，然后用这些词或短语构成要推荐的查询.基于日志的方法当用户搜索时,搜索引擎通常会将用户的行为记录下来,这些记录数据构成了搜索引擎查询日志。查询推荐查询推荐技术的重技术的重要作用要作用?查询推荐查询推荐技术的实技术的实现思路现思路?棠评陵弟铃模榜路敷淖限价尝千步邱赚筏盾缩觅皋燕芋站缆异榨缠呵法钱第四讲：查询与界面章 ppt课件第四讲：

46、查询与界面章 ppt课件455.1 基于文档的方法基于文档的方法v三类不同的实现思路三类不同的实现思路全局文档集分析, 局部文档集分析和分析人工编辑语料(如词典、维基百科等)全局文档集分析全局文档集分析利用所有文档分析文档中词与词的关系, 找出与查询词关系紧密的其他词, 进而构造推荐查询。局部文档集分析局部文档集分析只通过分析部分文档来找出查询相关词, 通常基于相关文档分析处理。分析人工编辑语料分析人工编辑语料随着信息技术和互联网的发展, 现在有很多编辑良好的描述“词与词之间关系”的数据, 利用这些资源可以发现词与词间的语义联系, 构造相关查询。应从哪些应从哪些方面考虑方面考虑?递滨噬吃粉潮罗

47、锨点垫佣安樊值亢倘宝牟升感跪抖惕乔娥晃诊棍绅桃买恩第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件461）全局文档集分析）全局文档集分析（最直观的想法是：）v1）可以根据每个词ti(1in)在各个文档dj(1jm)中出现的频率wij构造一个nm矩阵W,v2）那么每个词ti就可以用一个向量 wi=(wi1,wi2,)表示(矩阵W的第i行),v3）这样词ti和tj间的相似度S(ti,tj)转化为衡量向量 wi和 wj的相似度。而向量相似度最简单的方法可以通过 wi和 wj的内积计算,即S(ti,tj) =(wik*wjk)v4）进一步地,可以采用tf-idf等信息检索思想定义权重w

48、ij,将向量内积替换为更精确的相似度算法从而提高结果准确度。v5）虽然由于文档数目m往往远远大于词数目n,因此表示词的向量往往非常稀疏,这不利于相似度的计算。但一种隐形语义索引(LSI)可以用于解决该问题,其对矩阵W进行SVD分解,重新表征标引项,降低维度。注释：但是矩阵分解的计算复杂度非常高,对于真实大规模数据是难以承受的。赞蹬敦席密模查氯胖灿椎贸凶抨衡泵烁姬却赫铂谆降殷考尊宪葬耳侵炳屿第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件472）局部文档集分析）局部文档集分析v直觉上,与查询相关的词或短语将有更大可能出现在相关文档中,只分析相关文档就可以找出查询相关词。v然而相关

49、文档难以获得,常用的方法是假设检索返回的排名靠前文档是相关的。注：由于这些文档并非真正的相关文档,因此也常被称为伪相关文档。v有很多方法利用伪相关文档检索查询相关词：比如法1：首先,伪相关文档中出现的高频非停用词可以作为查询相关词。由于伪相关文档中都包含查询词, 该方法其实就是找出在查询词出现条件下出现概率最高的那些词语作为相关词。法2：另一个知名方法是Xu和Croft提出的LCA (Local Context Analysis)。 LCA计算伪相关文档中每个词与整个查询而非某个查询词的关系紧密程度, 因此拥有更高的准确度。但是LCA效率较低, 查询推荐需要实时处理, -LCA计算复杂

50、度偏高。黔巾疗欣夹麦共邑瓦例坍僻捷赞柔魔共坛鹰笼幂羌顶咙楚雅酋乘乒渺茂誊第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件483）分析人工编辑语料）分析人工编辑语料v这类方法通过利用词典 (例如WordNet) 或其他人工编辑好的数据 (例如Wikipedia、Open Directory Project等) 查找相关查询词或短语。v这类方法的结果往往比较准确, 但是难以处理那些尚未编辑的新出现查询词, 而新词却在用户搜索中占很大比例。v尽管基于文档的方法基于文档的方法可以找出与当前查询相关的一系列词或短语,但是要完成查询推荐还需要将这些相关词或短语组合成合适的搜索引擎查询。一

51、方面，搜索引擎查询不同于人类自然语言中的问题,它有其自身的特点,如何组合成合适的查询本身也是一个难题。另一方面，搜索引擎查询日志中记录了用户构造的各种真实查询,通过分析查询日志更容易找出并推荐合适的查询。啄丧绵肃溉抹苹曰拂栖熏昧垂绍栖每怔昏榔萌及侗竣踊匠戎迁向约斩宝醋第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件495.2 基于日志的方法基于日志的方法v查询日志中记录了用户点击文档和其他用户搜索行为信息, 利用这些信息,可以挖掘出不同查询间的联系。v基于日志的方法可分为如下四类(根据所依赖的特征不同)：基于基于Session的方法的方法用户在搜索过程中为了同一个检索目标所做的

52、一系列检索行为构成一个Session. 其中包含多个查询,表明用户对Session中初始查询的检索结果不满意,后来他有重新构造一个或多个表达同一搜索意图的查询。基于点击基于点击URL的方法的方法查询日志中记录了每次查询时用户点击的URL, 可用来挖掘查询间的关系紧密程度。如果两个查询所对应的点击URL很多都是相同或相似的,那么这两个查询就有很大的相关性。基于文本相似度的方法基于文本相似度的方法查询也是由词和短语构成的,传统的文本信息检索模型同样可以用来度量查询相似度。基于时间分布的方法基于时间分布的方法有研究提出相似查询的搜索频率在时间分布上应该是相似的,例如查询“沃尔玛”和“山姆会员店”在不

53、同时间段的分布都是比较均匀的,而查询“北京奥运会”和“中国金牌榜”这样的查询频率分布在同一特定时间有明显的尖峰。此外,查询推荐也应该考虑查询频率在时间上的分布情况,有的查询有其重要时间段,在其重要时间段的推荐将更有效。(如玫瑰花在情人节)毡第桩译廉竭纸诈玖幻摈宛渡勋鹿扛沧沟液怀柬凳苇在今意捂啤两略艰奖第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件501）基于）基于Session的方法的方法v用户搜索Session中的信息可以从多个方面帮助查询推荐：1）首先, 可以用之前用户的搜索经验帮助后来的用户, 直接向当前用户推荐之前用户最终找到正确答案所用的查询。基于这一思想,Cuce

54、rzan和White提出一套利用规则判别Session中的最终结果网页、进而向用户推荐能直接返回最终结果网页的查询。2）其次, 经常出现在同一Session中的两个查询很有可能是语义相似的,因为它们多次表达同一查询意图。由此, 可以根据Session中查询的共现信息利用关联规则、互信息、相似度算法度量查询间相关性。3）最后, Session相对于单个查询, 提供了更多有助于明确查询意图的信息, 根据整个Session而非单个查询，进行推荐将会更加准确。v基于Session的方法需要首先将查询日志划分成多个Session,而Session划分好坏会影响查询推荐的准确率。传统方法根据同一用户两个相

55、邻查询间的时间间隔判断这两个查询是否处于同一Session中, 如果时间间隔大于一个设定的阈值, 则在这两个查询间进行Session切分。单纯依靠时间间隔进行Session划分并不十分精确,近年来提出了一些更有效的Session划分方法,相关工作可参见相关文献（该文所附）。唯扰插躬博钡霞常哦钨泪镁胺险戌又名肃难炮如舌死巩干皑揍唯冉绢粥唤第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件512）基于点击）基于点击URL的方法的方法v最开始的工作主要利用相同点击URL衡量查询相关性。例如,王继民和彭波提出一种基于查询共有相同点击URL数的查询推荐的方法。v进一步地,查询Qi可以表示

56、成由其所对应URL构成的向量(Ui1,Ui2,Uim),然后应用向量空间检索模型计算不同查询间的相似度。其中Uia表示第a个URL的权重(Uia可以用最简单的第a个URL在查询Qi出现的次数表示,也可以根据tf-idf思想做适当改进)v经对查询日志统计分析显示：一次查询平均只有几次点击,表示查询的向量往往非常稀疏。实际上,对一个查询,用户往往只点击前1,2页中的某几个结果,故很多相似查询没有相同的点击URL。v为了应对这一问题,许多研究者提出了不同的解决方法：首先,可以在计算查询相似度时,把相似URL也考虑进来,拥有内容相似点击URL的查询也应该是相似的。既然可以根据点击URL算出查询间的相似

57、度,反过来依据URL所对应的查询同样可以求得URL间相似度,这样不断迭代就可以同时得到查询间和URL间的更精确的相似度。基于该思想,Antonellis等人提出利用一种改进的SimRank相似度算法度量查询相关性。另一方面,如果能把查询或URL的空间维度降低,就能避免数据稀疏的问题。这方面的相关研究有基于查询聚类的方法和基于矩阵分解的方法，等。注：上述方法在提高准确度的同时也会加大算法计算的复杂度。肝晚热蘑睡宗膘柔败侥晚晴焚驳跺竖铝玫惹澎轧款同膘肃锌谨婆育散窘寅第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件523）基于文本相似度的方法）基于文本相似度的方法v问题及解决思路：问

58、题：搜索引擎查询通常很短,平均长度不到三个词,直接对日志中查询计算相似度的效果并不好。例如,“电脑”和“计算机”相关却无相同查询词,“汽车引擎”和“搜索引擎”不相关却有50%的查询词重叠。解决思路：如果能对日志中查询的文本内容进行扩充,就能避免上述问题。v为此,很多研究用伪相关文档构造表示查询的文档QD,进而利用QD间的相似度计算其所对应查询的相似度。不同方法中伪相关文档的定义不同：Sahami提出用搜索引擎返回的排名靠前的n个结果作为伪相关文档,Baeza-Yates等人用有用户点击的结果作为伪相关文档并将点击频率因素考虑进来。v如何利用点击信息：直观来看，用户点击过的文档比直接用所有排名靠

59、前文档似乎更相关一些,但实际上搜索引擎排序对用户点击同样会产生很大影响,用户点击频率排序经常跟搜索引擎排序是一致的。采用一些更可靠的分析用户点击的模型可能有助于提高该类方法。膜封计迟秤骆犁唉乒磐钥扔惟稼涎鳞凳姐樟眉谴轨嘛织子漏闻北赁远惩凶第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件534）基于时间分布的方法）基于时间分布的方法v查询频率在时间上的分布可以用查询时间分布向量fq=(fq1,fq2,fqd)表示,其中fqi表示查询q在第i个单位时间段内的搜索频率。v为了度量不同查询在时间分布上的相关性,Chien和Immorlica提出用查询时间分布向量的皮尔森(pearson

60、)相关度表征查询相似度。v基于Chien和Immorlica的工作,Zhang等人提出一种考虑重要时间段的方法。v此外,如同Web搜索中的PageRank一样,查询在日志中出现频率也常作为一种静态排序因子用于查询推荐。特别指出：查询频率的时间分布特征的确是查询推荐中的一个重要特征,但是只依靠此类特征判断查询相关性是不充分的,这类方法可以作为其他方法的一种补充应用在查询推荐系统中。end筹三兰荡戏愉稠躇窗傻猜焰蜡缓粮脯哭疼过歪粮加镁弛屈傣奄沛醉坪榜嫌第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件54课外练习：课外练习：(P.141) 6.4, 6.8 ( (必做必做题2)2)：

61、个性化搜索引擎技个性化搜索引擎技术概述概述 (个性化推荐/协同推荐/用户特征建模/搜索引擎的个性化) 要求：至少查阅和分析3篇以上的相关文献特特别说明：明： 1 1）( (第第2 2、4 4、6 6次次课布置布置) ) 3 3个个综述述报告均告均为“固定的固定的二人一二人一组，合作完成，合作完成”， 2 2）每每组提交一份提交一份总报告（含告（含3 3个个综述述报告）！告）！ 3 3）后期将安排后期将安排时间，每，每组1 1次次PPTPPT上台介上台介绍！注：注：供15组，第1、2、3个报告分别由1-5组、6-10组、 11-15组上台介绍，每组报告时间控制在10分钟。委托肖永嘉及时统计15组成员名单、组编号、各组介绍内容。再再见！见！伴绞刺坍龙响步躬策怂到魂袋让浪首瞄腻踪默蝴卖绣酸韧噶犊垮迷辑蚜威第四讲：查询与界面章 ppt课件第四讲：查询与界面章 ppt课件

展开阅读全文

第四讲：查询与界面章ppt课件

最新文档