爬虫系统技术专利分析报告范本

资源描述

《爬虫系统技术专利分析报告范本》由会员分享，可在线阅读，更多相关《爬虫系统技术专利分析报告范本（117页珍藏版）》请在金锄头文库上搜索。

1、爬虫系统技术专利分析报告北京正乙科技有限公司2018/12/3117项目概要课题名称爬虫系统专利分析委托单位承担单位报告撰写报告审核历史修改摘要本报告基于德温特专利数据库，针对爬虫系统技术进行专利检索、筛选与计量分析，从而剖析爬虫系统技术发展历程、技术热点、演化趋势，原创国家、研发机构、技术发明人的合作、竞争、技术侧重点等，并推断技术的未来发展趋势。本报告主要结论如下：1.截止到2018年11月，在德温特数据库中检索得到爬虫系统专利家族总量为746件，逐年递增趋势显著，2010年以后专利增加明显，2015年增长幅度最大。由于早期专利数量较少，后期呈大幅增长，故增长率波动较大。2.根据历年专利

2、家族申请数量与专利申请机构数量的变化绘制技术生命周期图，判断该技术主题目前处于成长期。3.爬虫系统技术热点集中在web crawler（网络爬虫）、web page（网页）、flow diagram（流程图）、web pages（网页）、search engine（搜索引擎）等方面，早期（2004-2010年）主要是针对web crawler（网络爬虫）、search engine（搜索引擎）、computer-implemented method（计算机实现的方法）开展；中期（2011-2014年）转到web crawler（网络爬虫）、web page（网页）、flow diagram（流

3、程图）；后期（2015年以后）侧重flow diagram（流程图）、web crawler（网络爬虫）、web page（网页）。4.中国、美国、世界知识产权组织、韩国、欧专局专利局/知识产权组织受理的爬虫系统专利数量位列前五，分别为463、240、54、26、23件。5.原创技术主要来源于中国、美国、韩国、印度、德国，分别为456、219、22、11、7件。原创国中国、美国、韩国一直是该领域原创技术的主要来源，早期原创国主要为美国，中期原创国主要为美国、中国、韩国，后期原创国主要为中国、美国、韩国。在原创国家的技术关联性方面，中国与美国、德国、韩国技术关联较强，技术侧重在flow diag

4、ram(流程图)、web crawler(网络爬虫)、web page(网页)等。美国与德国、技术关联较强，技术侧重在web crawler(网络爬虫)、web pages(网页)、web page(网页)等6.专利家族数量排序前五位的机构分别INT BUSINESS MACHINES CORP (IBMC-C)美国、BEIJING GRIDSUM TECHNOLOGY CO LTD (BJGT-C)中国、GOOGLE INC (GOOG-C)美国、ALIBABA GROUP HOLDING LTD (ABAB-C)中国、MICROSOFT TECHNOLOGY LICENSING LLC (

5、MICT-C)美国，分别为26、23、22、12、10件。INT BUSINESS MACHINES CORP (IBMC-C)技术侧重为web pages(网页)、web page(网页)、web application(Web应用程序)，BEIJING GRIDSUM TECHNOLOGY CO LTD (BJGT-C)的技术侧重为flow diagram(流程图)、web crawler(网络爬虫)、web page(网页)，GOOGLE INC (GOOG-C)的技术侧重为computer-implemented method(计算机实现的方法)、web crawler(网络爬虫)、w

6、eb pages(网页)，ALIBABA GROUP HOLDING LTD (ABAB-C)的技术侧重为web crawler(网络爬虫)、flow diagram(流程图)、web page(网页)，MICROSOFT TECHNOLOGY LICENSING LLC (MICT-C)的技术侧重为web page(网页)、browser agent(浏览器代理)、driver component(驱动组件)。7.专利数量排序前五位发明人WANG YZHENGZHOU AIWEN COMPUTER TECHNOLOGY CO (ZHEN-Non-standard)，中国、ZHANG JSHE

7、NZHEN AUDAQUE DATA TECHNOLOGY LTD (SHEN-Non-standard)，中国、WANG XSICHUAN CHANGHONG ELECTRIC CO LTD (SCCE-C)，中国、LI XBEIJING GRIDSUM TECHNOLOGY CO LTD (BJGT-C)，中国、LI YUNIV WUHAN (UYWU-C)，中国，分别为18、18、16、15、14。目录爬虫系统技术专利分析报告1摘要3目录5图的目录71.发展概况82.专利数据112.1.数据源112.2.分析过程112.3.检索条件与结果122.4.数据管理工具132.5.数据分析

8、工具143.文献量与趋势分析164.技术生命周期分析175.技术主题分析185.1.技术主题分布185.2.技术主题演化196.国家/地区专利受理分析216.1.国家/地区专利受理数量216.2.国家/地区专利受理趋势217.原创国竞争分析237.1.原创国专利申请量237.2.原创国专利申请趋势237.3.原创国技术侧重与技术关联关系248.专利权人分析268.1.专利权人专利申请数量268.2.专利权人专利申请趋势288.3.专利权人合作关系图298.4.专利权人技术侧重与技术关联关系309.发明人分析329.1.发明人专利申请数量329.2.发明人专利申请趋势359.3.发明人合作关系图

9、3510.重点专利分析与解读3710.1.重点专利筛选标准3710.2.重点专利计量分析3710.3.重点专利解读37diidw:201870573r37diidw:201819235x38diidw:201816679339diidw:201817652b39diidw:201776574840diidw:201766406641diidw:201749015x41diidw:201743791442diidw:201716600842diidw:201614701143diidw:201530236243diidw:201527502444diidw:201526572e45diidw:2

10、014c4991945diidw:2014b2095746diidw:2013r2192647diidw:2013l6226647diidw:2013s1136648diidw:2013f7411749diidw:2013c2108349diidw:2013d933575011.结论与启示5111.1.爬虫系统发展趋势5111.2.爬虫系统热点与演化5111.3.爬虫系统研发力量51附表53附表1:热点主题词数量统计53附表2:原创国技术侧重56附表3:专利权人技术侧重72附表4:重点专利列表88图的目录Figure 1:专利分析过程12Figure 2:专利数据库系统主页面13Figure

11、3:专利数据库系统数据筛选页面14Figure 4:历年专利家族数量及其增长率趋势图16Figure 5:历年专利家族数量及其累积数量趋势图16Figure 6:技术生命周期图17Figure 7:技术主题分布图19Figure 8:技术主题演化图20Figure 9:国家/地区专利受理分布图21Figure 10:国家/地区专利受理趋势图22Figure 11:主要原创国演化趋势图24Figure 12:原创国关联关系图25Figure 13：专利权人演化趋势图29Figure 14：专利权人合作关系图30Figure 15：专利权人关联关系图31Figure 16：发明人演化趋势图35Fi

12、gure 17：发明人合作关系图36Figure 18：重点专利所属国家分布图371.发展概况爬虫技术就是一个高效的下载系统，能够将海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。（1）爬虫系统的诞生通用搜索引擎的处理对象是互联网网页，目前互联网网页的数量已达百亿，所以搜索引擎首先面临的问题是：如何能够设计出高效的下载系统，以将如此海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。网络爬虫能够起到这样的作用，完成此项艰巨的任务，它是搜索引擎系统中很关键也很基础的构件。尽管爬虫经过几十年的发展，从整体框架上来看已经相对成熟，但随着互联网的不断发展也而临着一些新的挑战。（2）通用

13、爬虫技术框架爬虫系统首先从互联网页面中选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理；另一方面将下载网页的URL放入已抓取队列中，这个队列记录了爬虫系统已经下载过的网页URL，以避免系统的重复抓取。对于刚下载的网页，从中抽取出包含的所有链接信息，并在已下载的URL队列中进行检查，如果发现链接还没有被抓取过，则放到待抓取U

14、RL队列的末尾。在之后的抓取调度中会下载这个URL对应的网页。如此这般，形成循环，直到待抓取URL队列为空，这代表着爬虫系统将能够抓取的网页已经悉数抓完，此时完成了一轮完整的抓取过程。从理解爬虫的角度看，对互联网网页给出划分有助于深入理解搜索引擎爬虫所面临的主要任务和挑战。绝大多数爬虫系统遵循上述的流程，但是并非所有的爬虫系统都如此一致。根据具体应用的不同，爬虫系统在许多方面存在差异，大体可以将爬虫系统分为如下3种类型：l 批量型爬虫：批量型爬虫有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程。至于具体目标可能各异，也许是设定抓取一定数量的网页即可，也许是设定抓取的时间等

15、。l 增量型爬虫：增量型爬虫于批量型爬虫不同，会保持持续不断德抓取，对于抓取到的网页，要定期更新。因为互联网网页处于不断变化中，新增网页、网页被删除或者网页内容更改都很常见，而增量型爬虫需要及时反映这种变化，所以处于持续不断的抓取过程中，不是在抓取新网页，就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类l 垂直型爬虫：垂直型爬虫关注特定主题内容或者属于特定行业的网页，比如对于健康网站来说，只需要从互联网页面里找到与健康相关的页面内容即可，其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是：如何识别网页内容是否属于指定行业或主题。从节省系统资源的角度来讲，不可能把所有互联网页面下载之后在进行筛选，这样会造成资源过度浪费，往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关，并尽量不去抓取无关页面，以达到节省资源的目的。垂直搜

展开阅读全文