一种利用搜索引擎进行查询扩展的方法及系统的制作方法专利名称:一种利用搜索引擎进行查询扩展的方法及系统的制作方法技术领域:本发明涉及互联网搜索技术领域,特别地涉及一种利用搜索引擎进行查询扩展的方法及系统背景技术:随着计算机技术及互联网技术的飞速发展,互联网上的数据和信息急剧增长面对海量的数字化信息,人们通常需要通过搜索引擎来获取他们想要的信息而对于搜索引擎而言,如何能够更好的理解用户的需求,如何能够从海量的数据中提取用户感兴趣的信息返回给用户,已经成为首要的课题对于通用搜索引擎而言,通常只有一个输入框接受用户的查询这就使得理解用户的查询核心需求以及具体需求细节变得有挑战性如果用户的查询语句太短,则很难弄清用户需求的全部细节,检索结果往往与用户的需求部分相关;如果用户的查询语句过长,则很难把握用户的核心需求,很可能查询结果偏离用户的核心需求,或者只满足部分需求,顾此失彼 为了更好的理解用户的查询意图,进而提高搜索引擎检索的准确率和召回率,查询扩展技术应运而生目前的查询扩展技术主要包括基于全局分析的查询扩展、基于局部分析的查询扩展、基于查询日志的查询扩展和基于语义资源的查询扩展基于全局分析的查询扩展通过挖掘大数据集上词语之间的相关度进行查询扩展。
对通用搜索引擎而言,其数据集全体及其庞大,基于全局的数据分析对时间、设备的需求是极其巨大的;同时由于可能的歧义影响,全局分析扩展出的查询语义需求可能更加模糊,使得检索结果变差因此,这种方法在实际的搜索引擎中鲜有采用基于局部分析的查询扩展包括相关反馈和伪相关反馈相关反馈方法是搜索引擎算法中的经典方法该方法先用用户的初始查询,得到搜索结果,通过用户点击,得到相关文档集合,和不相关文档集合,对与查询相关性高的词进行加权,相关性差的进行降权,一些词甚至可以删除最早Rocchio提出相关反馈模型是搜索引擎的经典模型,可以参考Christopher D. Manning, Prabhakar Raghavan, HinrichSchiitze: An Introduction to Information Retrieval. Cambridge University Press,2009其缺点是一方面,它需要用户点击,需要大量的查询日志的积累,另一方面,它的参数选取需大量实验来确定最优,而全局最优参数通常在局部查询中效果并不理想因此,直接使用相关反馈进行查询扩展的实例并不多伪相关反馈方法近年来被广为使用。
该方法假定初始查询结果中高排名的文档是与用户感兴趣的主题相关的,于是从高排名的文档中提取词来扩展查询语句例如CN200910132193. 5提供了查询扩展方法及查询扩展设备,针对给定的查询语句进行搜索,得到查询结果;在所得到的查询结果集合中,在排名在前一定数目的查询结果子集中进行聚类,生成簇;对簇进行排序;从排名在前一定数目的簇中提取词,把所提取的词添加到查询语句,生成新的查询语句不过伪相关反馈方法对初始结果很敏感,若初始结果比较相关,则呈现正反馈;若初始结果比较不相关,则呈现负反馈基于查询日志的查询扩展方法是另一种比较常用的方法,该方法通过对日志进行分析给出扩展的查询建议例如CN200710097501. 6提供了查询扩展方法和装置以及相关检索词库,将用户的查询行为记录按照该用户的身份标识和访问时间划分为至少一个查询事件和查询单元;周期性地计算所述各个查询单元或者查询事件中的检索词之间的相关度,根据计算出的检索词之间的相关度对相关检索词库进行更新;在相关检索词库中检索与用户查询时所输入的检索词的相关度接近的相关检索词,形成查询扩展结果与相关反馈方法类似,基于查询日志分析的方法同样需要大量的查询日志的积累。
基于语义概念的查询扩展方法利用领域本体,语义网,语义词典等语义资源,对查询进行扩展例如CN200810116729.X提供了一种基于领域知识的语义查询扩展方法,根据对领域知识和用户查询语句特征的分析,构建领域知识库;然后利用领域知识库内容,对用户输入的查询语句进行语义处理,获得一个语义项列表;利用语义项列表,结合领域知识库内容,通过语义计算得到可扩展项;将所获得的可扩展项提交搜索系统进行查询基于语义概念的方法的缺点在于一方面语义资源的建立需要大量人力物力,另一方面,基于语义 的扩展只针对用户查询进行分析,没有考虑搜索引擎的数据分布,可能造成扩展的查询与数据不匹配,从而不能返回较好的结果发明内容本发明解决的技术问题在于提供了一种利用搜索引擎进行查询扩展的方法,以解决目前查询扩展依赖性强以及需要庞大资源的问题,本发明还提供了一种利用搜索引擎进行查询扩展的系统为解决上述问题,本发明实施例提供了一种利用搜索引擎进行查询扩展的方法,具体包括,用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数;根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重;根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词;根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词;根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询;利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。
本发明实施例还提供了一种利用搜索引擎进行查询扩展的系统,具体包括,搜索引擎查询模块,用于将用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,这些检索结果被收集到一个文档池中;搜索引擎评价模块,用于根据文档池中的文档对每个搜索弓I擎进行评价,从而获得每个搜索弓I擎的权重;核心词确定模块,用于根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词;修饰词确定模块,用于根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词;扩展词生成模块,用于根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询;查询结果获取模块,用于利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户采用上述技术方案,依据搜索引擎集群的检索结果对用户的核心需求进行扩展,一方面使得用户的需求更加明确,避免了基于局部数据查询扩展的负反馈效果或主题漂移的风险,另一方面可以给用户提供多角度、多侧面的查询结果,极大范围地满足用户需求,甚至可以引导用户需求,使得搜索引擎的用户体验得到大幅的提升此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
在附图中图I是本发明第一实施例流程图;图2是本发明第二实施例结构图具体实施方式·为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明如图I所示,是本发明第一实施例流程图,提供了一种利用搜索引擎进行查询扩展的方法,具体包括,步骤S101,用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,这些检索结果被收集到一个文档池pool中;具体地,所述搜索引擎集群中的每个搜索引擎可以采用不同的搜索算法,包括但不限于向量空间方法;基于概率统计的方法,例如BM25或者BM25的各种变种算法;基于链接分析的方法,例如Page Rank或者类似方法;以及上述方法的组合这些搜索引擎可以是不同类型的搜索引擎,包括但不限于综合搜索引擎,各类垂直搜索引擎等这些搜索引擎可以使用不同的数据集,包括但不限于互联网数据,专业数据库数据,内部网数据等对于给定查询Q,假定搜索引擎集群中包含K个不同的搜索引擎,分别为S1, S2,…,Sk ;将得到K个搜索结果序列R1, R2,…,Rk收集到文档池中,其中Ri = (Dil, Di2,…,Dffl),N为截取搜索引擎返回的结果条数,Dij为第i个搜索引擎返回的第j个结果文档。
步骤S102,根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重;通过评价各个搜索引擎,为集群中每个搜索引擎赋予一定的权重,这个权重标识了由该搜索引擎返回的搜索结果的重要度,为后续的分析做准备这里,对每个搜索引擎的评价(权值)可以是固定的,也可以是定期调整的,也可以是根据不同的用户查询动态变化的搜索引擎的评价方法可以采用pooling技术,利用全部标注、或者部分标注或者无标注的方法对各个搜索引擎进行评价其中,标注的方法可以采用0-1 二元标注,O代表不相关,I代表相关;也可以米用等级标注,比如打分范围为0_3,0代表不相关,I代表相关度差,2代表较相关,3代表非常相关如果每个搜索引擎的评价是固定的,可以采用全部标注的方法;如果每个搜索引擎的评价是定期更新的,全部标注或者部分标注的方法均可使用;如果每个搜索引擎的评价是根据用户查询动态变化的,则需要使用无标注的检索评价方法搜索引擎的评价指标可以使用现存的各种评价指标,比如平均准确率(Mean AveragePrecision), PrecisioniN, NDCG, Bpref 等等下面是一个具体评价方法的实例假定搜索引擎集群中包含K个不同的搜索引擎,分别为S1, S2,…,SK;通过M个用户查询Q1, Q2,…,Qm来给出每个搜索引擎的权重W1, W2,…,Wk。
这里集群中各个搜索引擎的评价是固定的,利用pooling技术全部标注的方法标注各个搜索引擎的检索结果的相关性,标注为0-1 二元标注,然后利用平均准确率(MAP)的方法给出每个搜索引擎的评分第一步对于查询Qi,通过搜索引擎S」得到前N条搜索结果Rij = (Dijl, Dij2,…,DiJN)第二步通过全部标注,得到这N篇文档的相关情况Ri/ = (Dijl ’,Dij2 ’,…,DiJN ’ )其中Duk’ = I表示文档Duk与用户查询相关,Duk’ = O表示文档Duk与用户查询无关第三步根据MAP的计算公式,得到搜索引擎Sj对于查询Qi的得分权利要求1.一种利用搜索引擎集群进行查询扩展的方法,其特征在于,包括, 用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数; 根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重; 根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词; 根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词; 根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询; 利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。
2.根据权利要求I所述的方法,其特征在于,所述根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词具体包括, 过滤用户查询中的停用词; 提取用户查询中的实体词; 根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分,词语打分最高的至少一个词语被标识为核心词3.根据权利要求2所述的方法,其特征在于,所述提取用户查询中的实体词具体包括, 从分类实体词库中提取实体词; 识别查询中的命名实体; 进行实体名的消歧工作,对于有冲突的实体名进行处理,确定最后的实体名输出列表4.根据权利要求2所述的方法,其特征在于,所述根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分具体包括, 所述词语的最终打分score = f (Score1, score2), Score1是词语自身属性的打分,Score2是根据文档池中文档的信息和各个搜索引擎的权重信息得到的词语在相关文档中的打分,f表不两种打分的稱合方式5.根据。