基于关键词提炼的搜索引擎优化方案.docx

资源描述

《基于关键词提炼的搜索引擎优化方案.docx》由会员分享，可在线阅读，更多相关《基于关键词提炼的搜索引擎优化方案.docx（4页珍藏版）》请在金锄头文库上搜索。

1、基于关键词提炼的搜索引擎优化方案摘要：在介绍搜索引擎的工作原理基础上，比较了主要搜索引擎的工作方式，系统地分析了现阶段搜索引擎的关键技术（爬虫、索引、数据库以及查询），提出了一种基于关键词提炼的搜索引擎优化技术，并且论证了该方案的可行性。关键词：搜索引擎；优化；关键词集合；提炼；查询1 概述互联网的高速发展，网络正改变着我们的生活。在信息极速涌现的今天，如何快速、准确获取自己所需的信息，是人们经常面对的问题。搜索引擎，为互联网用户搜索信息带来了便利，其中被广泛使用的有Google、百度等，它们极大推动了互联网的发展。与此同时，随着信息量的增长，出现了很多重复和垃圾信息。因此，对于搜索引擎关

2、键技术的改进，依然有必要进一步研究。1，2搜索引擎主要分为元搜索引擎和集成搜索引擎，前者以独立搜索引擎的搜索结果为基础优化后以统一的格式在界面集中显示，如百度、谷歌、雅虎等；而后者是在一个网页上链接很多个独立搜索引擎，搜索结果由各搜索引擎分别以不同页面显示，如新浪、搜狐等，文章主要讨论元搜索引擎。论文第二部分对典型搜索引擎进行了比较，而第三部分对搜索引擎的关键技术进行了分析，结合搜索引擎的使用感受，论文提出了一种基于关键词提炼的搜索引擎优化方案，并对该方案的可行性进行了分析，最后小结全文。2 搜索引擎比较搜索引擎首先利用Spider系统程序，爬过很多的网页，并把爬过的所有网页收集回来。接着分析

3、该网页，提取相关信息，计算网页相关度，然后用这些信息建立网页索引数据库。当用户输入关键词之后，系统程序会从网页索引数据库中找到符合的网页，用户可以根据排名选择自己需要的内容。不同的搜索引擎，完成资源呈现，又各有特点。3-6百度依据搜索引擎系统的计算决定对哪些网站进行抓取。计算过程会根据网站内容、对用户友好的设置、有无过度搜索引擎优化行为等。百度蜘蛛会通过互联网中某个指向该页面的链接进行访问和抓取，对抓取的页面也会进行记录。并依据这些页面安排不同频次的抓取更新工作。百度蜘蛛在工作的时候，会对一些没有足够价值的网页进行自动过滤，以避免带来不必要的麻烦。抓取之后，百度会逐一识别并标记，并将这些标记储

4、存为结构化数据，也会将网页关键词信息进行识别和储存，以匹配用户搜索内容。当用户输入关键词，百度会分析并展现给用户最为匹配的网页。Google有主爬虫和新爬虫。它有两种抓取方式，分为主抓取和新抓取。“新抓取”蜘蛛抓取一个网页，然后再由“主抓取”蜘蛛抓取，此时这个网页就要经过两个月才能被主索引收录，然后出现排名。如果网页先被“主抓取”蜘蛛抓取，那么该网页只需一个月就能进入主索引。雅虎搜索首先会建立一个网页地图来记录互联网的结构，再使用蜘蛛抓取质量好的网页，存到快照数据库中。然后索引程序会去掉作弊网页并将快照数据库中的网页编号存储到网页索引数据库中。在用户输入关键词后，查询程序会在数据库中进行比较，

5、经过相关计算，按照相关度将网页进行排序。3 搜索引擎关键技术不管是百度，谷歌，还是其它元搜索引擎，搜索方式各有所长，各有特点，而搜索引擎实现网络资源搜索的关键技术基本相同，主要分为如下四种：3.1 爬虫技术所谓网络爬虫，是指某种自动提取网页的程序，是搜索引擎的重要组成。它根据网页分析算法过滤无关的链接，保留相关链接，并放入待抓取的URL队列中。再根据搜索策略从队列中选择下一步要抓取的网页URL，重复上述过程，直到触发终止条件。网络爬虫7，8，9主要包括四类方法：一种是基于文字内容，利用网页文本、URL字符串、锚文字等文字信息，如Best first search方法和Fish search方法

6、；第二种是基于Web超链图评价，类似文献计量学的引文分析，但不考虑超链形成的Web有向图对主题网络爬虫的影响，如BackLink和PageRank方法；第三种是基于分类器预测，基于分类模型描述用户感兴趣的主题和预测网页的主题相关度，该方法可以从更深的层次来描述用户感兴趣的主题信息，并准确计算网页的主题相关性，而不只停留在基于关键词的匹配上；最后一种是其他主题爬行方法，先爬行更重要的网页使得爬行更有效，从而计算网页重要性。实验显示执行效果依次是BestFirst、InfoSpiders、PageRank，其中，Page Rank在主题爬行任务中过于全面，导致效果不好。3.2 索引技术10-13索

7、引是搜索引擎的核心技术之一，主要分为文本索引、链接索引、辅助索引和倒排索引。文本索引主要应用于查找与用户查询词的相关页面，可使用传统索引方法为页面内容建立索引；链接索引的目的是实现对图的高效访问，将Web看作是一个巨大的图，图中的节点表示页面，从页面A到页面B的超链接构成图的边，使用Web构成的图及其补图的邻接链表可以有效地对这种邻接信息进行访问，其他类型的链接信息也可以通过邻接链表方便地得到；辅助索引根据搜索引擎的特色及搜索算法决定的，采用链接索引包含的邻接信息，比较容易地计算每个页面的PageRank权值；倒排索引由倒排列表构成，每个词对应一个倒排列表，倒排列表是词在页面中的位置的有序列表

8、。3.3 数据库技术数据库原本是按照数据结构来组织、存储和管理数据的仓库。当前，数据库不再局限于存储和管理数据，已经转变成了用户所需的各种数据管理的方式。数据库有很多的类型，最简单的就是存储数据的表格，复杂的比如大型的数据库系统。Google的数据库是spanner，它覆盖全球，在各种数据之间无缝运作。普通的数据库会使用“网络时间协议”来保持服务器的同步。而Spanner数据库会使用自己的时间协调机制，称为“TrueTime API”。Google通过自有原子钟和GPS接收器，连接到特定数量的主服务器，再由主服务器向整个谷歌网络其他电脑传输时间参数。这样，谷歌构建了一同时具有全球性和时间一致性

9、的数据库，同时使其服务在软硬件故障的面前变得更加具有抵抗力。百度数据库MySQL是一开放源代码的关系型数据库系统，因为数据存放在分立的表格，增加了用户的速度和灵活性。另外，系统的多线程机制提供了完全的多线程运行模式和多编程语言的编程接口。3.4 查询技术查询以网页得分为基础，依据网页得分确定搜索结果的排序，其主要分为三个部分：一为链接得分，以网页目前得分除以它全部的链接数目，而指向该网页的网站则加上这个分数，多次迭代之后一个网站的分数得出；第二部分是Lucene得分系统，该系统根据查询词在文档中出现的词频，倒排词频等一系列的项目综合得到一个数值从而表示本词条在整个索引中的重要程度；第三部分是

10、用户的爱好选择，当用户确定需要查询方向后，其相关网页的得分就会高于其他的网页。根据反复的统计分析，得出网页得分。当用户输入关键词时，查询模块检查到文本框中有内容，就会自动调用索引搜索程序对关键词进行索引，从而得出搜索结果。然后取出lucene的得分、pageRank以及用户特殊搜索，根据得分公式算出每一条目得分，将所有的结果从高到低快速排列并显示，在不刷新整个网页的情况下，使用异步传输技术，根据点击下一页的次数显示全部的信息。4 基于关键词提炼的搜索引擎优化本方案基于用户点击查看体验，进行搜索的二次优化。具体而言，就是搜索引擎根据用户在第一页的点击情况，在第二页做出相对的优化措施的行为。当用户

11、输入关键词之后，搜索引擎会进行中文分词，然后将用户所需的内容分为很多页展现给用户看。此时在第一页中，用户可能不能找到自己所需的，如果用户点击过了第一页的一些内容，那么搜索引擎会根据用户的点击，在第二页的内容中进行二次优化，试图进一步理解用户搜索需求，弥补在第一次搜索中内容展现的不足，以满足用户的需要，如图1所示，本方案大体分为如下三步：（1）用户键入关键词，至少会提炼出至少一个关键词，搜索引擎调用查询模块，数据库就会获得2的m次方个相关的内容。根据网页得分，呈现出排名前十的网页。（2）用户会对十个网页可能会点击某几个网页，或者直接进入下一页来点击。用户对网页的点击，搜索引擎可以提炼出新的关键词

12、，形成新的关键词集合，用户点击下一页，搜索引擎它是基于新的关键词集合，调用查询模块。数据库可能获得2的m-1，m-2次方的相关内容。根据网页得分，呈现出排名前十的网页。（3）用户如果获取所需内容，结束查询。或者继续这种操作，数据库就会获得2的m-2，m-3次方，直至用户获取所需内容，结束查询。该方案假定用户所期待的资源Internet是存在的，这种假定通常成立。用户的搜索行为可以分类如下：（1）一个很长语句或者是多个关键词。这种情况下，搜索结果就会很快速、准确。（2）单个关键词。搜索引擎的结果就是随机的用户所期待的资源就是在五页左右就会有所呈现，用户逐一查找获得所需的资源。（3）用户键入语句，

13、要么解析不出关键词或者关键词解析错误，没有有效的关键词来指向资源，查询失败。当前搜索引擎特点：一次理解，逐页呈现；理解偏差，呈现偏后；理解错误，查找失败。所提出的方案，基本思想是逐步理解用户的意图，自适应调整关键词集合，快速指向期望资源。通过搜索引擎获取所需信息，在输入关键词之后，假如第一页没有所需要的，用户则需要点击下一页。一般情况下，搜索引擎排列内容都是按照网页得分排列的，说明越往后的内容越不符合用户需求。此时，基于关键词提炼的搜索引擎优化将会给用户带来新的希望，根据用户在第一页是否点击以及点击内容，搜索引擎在后一页做出相应的优化，以便于用户找到自己需求的信息，这会让用户搜索变得快速准确。

14、5 结束语文章对搜索引擎的技术进行了分析，提出了基于关键词提炼的搜索引擎优化技术。方案通过分析用户行为，理解用户查询意图，指数递减调用条目，提高用户查询效率。参考文献1王香莲.Google和百度两种搜索引擎比较研究J.现代图书情报技术，2004（8）：52-55.2田梅梅.搜索引擎Google与百度的比较分析J.图书情报.3王继成，潘金贵，张福炎.Web文本挖掘技术研究J.计算机研究与发展，2000，37（5）：514-520.4梁循.数据挖掘：建模、算法、应用和系统J.计算机技术与发展，2006，16（1）：1-4.5曾春，邢春晓，周立柱.个性化服务技术综述J.软件学报，2002，13（10

15、）：1952-1961.6王国霞，刘贺平.个性化推荐系统综述J.计算机工程与应用，2012，48（7）：66-76.7刘金红，陆余良.主题网络爬虫研究综述J.计算机应用研究，2007，24（10）：26-29.8刘畅.综合搜索引擎与垂直搜索引擎的比较研究J.情报科学，2007，25（1）：97-102.9方洁.搜索引擎及其性能改进方法研究J.软件导刊，2014，13（12）：41-43.10孙艺珍，季小迪，张京涛.基于.Net的全文搜索引擎设计与实现J.西安科技大学学报，2014，34（6）：702-706.11曹姗姗，王冲.基于网页链接与用户反馈的PageRank算法改进研究J.计算机科学，2014，41（12）：179-182.12余凯，贾磊，陈雨强，等.深度学习的昨天、今天和明天J.计算机研究与发展，2013，50（9）：1799-1804.13董宇欣，王莹洁，宁鹏飞，等.一种面向不确定图的SimRank算法J.哈尔滨工程大学学报，2014，35（11）：1390-1396.

展开阅读全文

基于关键词提炼的搜索引擎优化方案.docx

最新文档