检测尖峰查询的制作方法

上传人:ting****789 文档编号:310006883 上传时间:2022-06-14 格式:DOCX 页数:7 大小:28.51KB
返回 下载 相关 举报
检测尖峰查询的制作方法_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《检测尖峰查询的制作方法》由会员分享,可在线阅读,更多相关《检测尖峰查询的制作方法(7页珍藏版)》请在金锄头文库上搜索。

1、检测尖峰查询的制作方法专利名称:检测尖峰查询的制作方法技术领域:本发明涉及搜索技术,尤其涉及处理查询的系统和方法。背景技术:搜索查询活动的陡然迅猛增长(通常被称为尖峰)可以来自多个源。尖峰可以来 自诸如节日或体育比赛等常规和流行事件、或者来自诸如高调死亡或自然灾害等非常规事 件。尖峰还可以作为大规模行销企图或恶意网络攻击的结果而出现。存在在出现尖峰之后标识尖峰查询趋势的若干系统。然而,在趋势的开头标识尖 峰查询趋势将更困难和复杂。在事件正常进行或者在事件结束之前在合法尖峰和恶意或不 合法尖峰之间进行区分也将是困难的。发明内容本发明的各实施例由所附权利要求书来定义。提供本发明的各实施例的高层次概

2、 览以便介绍将在以下具体实施方式一节中进一步描述的系统、方法和介质的概述。本概述 既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于独立地帮助确定所 要求保护的主题的范围。本发明的各实施例包括标识、分类、聚类、并呈现合法搜索查询尖峰的结果的计算 机实现的方法和系统。接收输入查询活动(被称为查询流),并监视该输入查询活动以寻找 任何尖峰活动。当特定查询被标识为尖峰时,随后将该尖峰查询的各组分与展示了相似的 行为或特征的其他所存储的查询进行比较和聚类,这些特征包括时间和文本相关性。在包含来自最近爬行的内容源的信息和结果的新鲜索引中检索某些先前接收的 查询。还在包含可能在时间上与聚类的查

3、询流相关的信息和结果的历史索引中检索某些先 前接收的查询。可以计算尖峰的加权平均加速度来确定该尖峰是流行查询兴趣的结果还是 可能是恶意攻击。根据诸如季节性结果图库等经分组的内容来将来自合法尖峰查询的聚类 的结果呈现给用户输出设备。合法聚类与相似的现有聚类进行合并或者被建立为新的聚类。这些合并的和新建 立的聚类与先前存储的聚类一起存储以便与将来的查询流活动进行比较并作为查询建议 来呈现。本发明的另一实施例包括其上存储有指令的计算机可读介质,该指令在由计算设 备执行时执行上述方法。以下将参考附图详细描述本发明的说明性实施例,附图通过引用结合于此,并且 其中图1是示出根据本发明的各实施例使用的示例性

4、计算机操作环境的框图;图2是根据本发明的各实施例使用的客户机服务器系统的框图;图3是示出根据本发明的各实施例使用的用于检测尖峰查询的示例性计算的图4是示出根据本发明的各实施例使用的用于检测尖峰和季节性查询的示例性 方法的流程图;图5是示出根据本发明的各实施例使用的接收并合并聚类的示例性方法的流程 图;图6是示出根据本发明的各实施例使用的标识合法搜索查询尖峰的示例性方法 的流程图;图7是示出根据本发明的各实施例使用的产生流行搜索查询结果的示例性方法 的流程图;图8是示出根据本发明的各实施例使用的标识并聚类查询的示例性方法的流程 图。具体实施例方式本发明的各实施例提供了用于标识、聚类和呈现流行尖峰

5、查询的系统、方法和计 算机可读存储介质。该具体实施方式和所附权利要求书满足适用的法定要求。此处可使用术语“步骤”、“块”等来意味所采用的方法的不同动作,但是这些术语 不应被解释为暗示任何特定次序,除非明确地描述了各单独步骤、框等的次序。同样,此处 可使用术语“模块”等来意味所采用的系统的不同组件,但是这些术语不应被解释为暗示任 何特定次序,除非明确地描述了各单独模块等的次序。贯穿本发明的不同实施例的描述,使用若干缩写和简写符号来帮助理解关于相关 联的系统、方法和计算机可读介质的特定概念。这些缩写和简写符号旨在帮助提供一种传 达此处所表达的观念的容易方法,并且不意味着限制本发明的任何实施例的范围

6、。本发明的各实施例包括,但不限于,方法、系统以及具体化在一个或多个计算机可 读介质上的计算机可执行指令集。计算机可读介质包括易失性和非易失性介质、可移动和 不可移动介质、以及可由数据库和各种其它网络设备读取的介质。作为示例而非限制,计算 机可读介质包括以用于存储信息的任何方法或技术实现的介质。存储的信息的示例包括计 算机可使用指令、数据结构、程序模块以及其它数据表示。介质示例包括,但不限于,信息传 送介质、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、 闪存或其他存储器技术、紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD)、全息介质或其 他光

7、盘存储、磁带盒、磁带、磁盘存储以及其他磁存储设备。这些介质示例可被配置成暂时 地、临时地或永久地存储数据。计算机可读介质包括唯一地存在于一个处理系统上或分布 在对该计算系统为本地或远程的多个互连的处理系统之间的协作或互连的计算机可读介 质。本发明的各实施例可以在计算机代码或机器可使用指令的一般上下文中描述,机 器可使用指令包括由计算系统或其它一个或多个机器执行的诸如程序模块等的计算机可 执行指令。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是可执行特 定任务或实现特定数据类型的代码。此处所描述的各实施例可以使用各种系统配置来实 现,包括手持式设备、消费电子产品、通用计算机、更

8、专用计算设备等。此处所描述的各实施 例还可以使用通过通信网络或因特网链接的远程处理设备来在分布式计算环境中实现。在某些实施例中,提供了使用具有存储器、处理器和数据存储子系统的计算系统来标识合法搜索查询尖峰的计算机实现的方法。从一个或多个用户输入设备接收多个搜索 查询请求。搜索查询被分类为尖峰或非尖峰。标识在所接收的搜索查询请求中存在的一个 或多个尖峰。所标识的尖峰根据时间或文本相关性被聚类在一起,随后经由计算系统的处 理器来确定每一尖峰的加速度速率。将所确定的聚类的所标识的尖峰的加速度速率与所存 储的聚类的相似时间行为进行比较。当所确定的加速度速率超过第一阈值水平并且与时间 行为的比较低于第二

9、阈值水平时,可以为特定的聚类尖峰标识恶意攻击。将不是恶意的聚 类尖峰的所接收的搜索查询请求和结果作为一个或多个内容组存储到计算系统的数据存 储子系统中。非恶意的聚类尖峰用作对将来的相关搜索查询请求的比较和查询建议。在另 一实施例中,一个或多个计算机可读存储介质上包含有计算机可读指令,这些指令在由计 算设备执行时执行上述标识合法搜索查询尖峰的方法。在某些实施例中,提供了使用具有存储器、处理器和数据存储子系统的计算系统 来产生流行搜索查询结果的计算机实现的方法。从用户输入设备接收搜索查询请求。在包 含所接收的搜索查询请求和其他传入搜索查询请求的查询流中标识尖峰。作为搜索多个历 史索引的结果,查询流

10、中的尖峰在时间上与来自那些历史索引的相关内容相关。作为搜索 多个新鲜索引的结果,查询流中的尖峰还与来自那些新鲜索引的相关内容相关。新鲜索引 包含来自最近爬行的内容源的信息和结果。通过使用计算系统的处理器来确定接收查询流 中的尖峰的加速度速率。将所确定的加速度速率与相似的所存储的搜索查询的时间行为进 行比较。使用分组的内容算法分析来自搜索历史索引和新鲜索引的结果来确定是否应该将 该搜索查询请求与现有的搜索查询结果组聚类在一起。当特定的聚类尖峰的加速度速率超 过第一阈值水平并且与时间行为的比较低于第二阈值水平时,可以标识恶意攻击。将查询 流的非恶意的聚类尖峰作为一个或多个季节性图库存储到计算系统的

11、数据存储子系统中。 根据所标识的聚类结果的使用期和大小来对搜索查询请求的结果排定优先级。将一个或多 个季节性图库和排定了优先级的结果传递给用户输出设备。在另一实施例中,一个或多个 计算机可读存储介质上包含有计算机可读指令,这些指令在由计算设备执行时执行上述产 生流行搜索查询结果的方法。在其他实施例中,提供了使用具有存储器、处理器和数据存储子系统的计算系统 来标识并对流行度不断提升的查询进行聚类的计算机实现的方法。从用户输入设备接收搜 索查询请求。在包含该搜索查询请求的传入查询流活动中标识尖峰。作为搜索多个历史索 引的结果,传入查询流活动中的尖峰在时间上与来自那些历史索引的相关内容相关。作为 搜

12、索多个新鲜索引的结果,传入查询流活动中的尖峰还与来自那些新鲜索引的相关内容相 关。新鲜索引包含来自最近爬行的内容源的信息和结果。分析来自搜索历史索引和新鲜索 引的结果来确定该搜索查询请求是否应该与现有的搜索查询结果组聚类在一起。根据所标 识的循环聚类结果的使用期和大小来对搜索查询请求的结果排定优先级。将排定了优先级 的搜索查询请求的结果传递给用户输出设备。在另一实施例中,一个或多个计算机可读存 储介质上包含有计算机可读指令,这些指令在由计算设备执行时执行上述标识并对流行度 不断提升的查询进行聚类的方法。在简要描述了此处的各实施例的概览后,以下描述一示例性计算设备。最初参考 图1,示出了用于实现

13、本发明的各实施例的示例性操作环境,并将其概括指定为计算设备 100。计算设备100只是合适的计算系统的一个示例,并且不旨在对本发明的各实施例的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组 合有任何依赖性或要求。在一个实施例中,计算设备100是常规计算机(例如,个人计算机 或膝上型计算机)。本发明的各实施例还适用于多个互连的计算设备,如计算设备100。计算设备100包括直接或间接耦合以下设备的总线110 存储器112、一个或多个 处理器114、一个或多个呈现组件116、输入/输出(I/O)端口 118、输入/输出组件120、和 说明性电源122。总线110表

14、示一个或多个总线(诸如地址总线、数据总线或其组合)。尽 管为了清楚起见用线条示出了图1的各框,但是在现实中,各组件的划界并不是那样清楚, 并且按比喻的说法,更精确而言这些线条将是灰色的和模糊的。例如,可以将诸如显示设备 等的呈现组件116认为是I/O组件120。同样,处理器114具有存储器112。本领域的技术 人员可以理解,这是本领域的特性,并且如上所述,图1的图示只是例示可结合本发明的一 个或多个实施例来使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手 持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内并且被称为“计算 设备”或“计算系统”。计算设备10

15、0可包括各种计算机可读介质。作为示例而非局限,计算机可读介质 可包括RAM、R0M、EEPR0M、闪存或其他存储器技术、CDR0M、DVD或其他光学或全息介质、磁带 盒、磁带、磁盘存储或其他磁存储设备、或可被配置成存储与此处所描述的各实施例相关的 数据和/或执行的类似的有形介质。存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器 112可以是可移动的、不可移动的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、 高速缓存、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120等各种实 体读取数据的一个或多个处理器114。呈现组件116向用户或其它设备呈现数据

16、指示。示 例性呈现组件116包括显示设备、扬声器设备、打印设备、振动设备等等。I/O端口 118将计算设备100逻辑上耦合至包括I/O组件120的其它设备,其中某 些设备可以是内置的。说明性I/O组件120包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、 扫描仪、打印机、无线设备等等。以上描述的与计算设备100有关的组件也可被包括在无线设备中。如此处所描述 的无线设备指的是任何类型的无线电话、手持式设备、个人数字助理(PDA) ,BlackBerry , 智能电话、数码相机、或可无线地通信的其他移动设备(除了膝上型计算机之外)。本领域 的技术人员可以理解,无线设备也包括执行各种功能的处理器和计算机存储介质。此处所 描述的各实施例适用于计算设备和无线设备两者。在各实施例中,计算设备也可以指运行 其图像由无线设备中的照相机来捕捉的应用程序的设备。上述计算系统被配置成供上文中概括描述并在下文中更详细描述的若干计算机 实现的方法、系统和介质来使用。本发明的各实施例提供标识合法查询尖峰并对流行查询 进行聚类的计算机实现的方法、系统和介质。聚类是试图在项集合

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号