给不懂搜索引擎的人讲搜索引擎原理的方法

资源描述

《给不懂搜索引擎的人讲搜索引擎原理的方法》由会员分享，可在线阅读，更多相关《给不懂搜索引擎的人讲搜索引擎原理的方法（48页珍藏版）》请在金锄头文库上搜索。

1、给不懂搜索引擎的人讲搜索引擎原理的方法与关键词有联系的几个原理，像HITS，齐普夫定律，向量空间模型，TF/IDF等。每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。堆砌关键词的权重不是11=2，而是2权重1的一个动态数值，采取向量的夹角余弦公式cos=(ab)/(|a|b|)，再加上搜索引擎对堆砌关键词的anti-spam算法，和现在主流的seo观点相悖。2.搜索引擎爬虫搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似，下面是维基百科的介绍。商代政权由子姓王族所掌握，王族分为两组，一组谥称以甲乙为主，一组谥称以丁为主，两组互相通婚，轮流继位执政。王位多传于另一组的下辈，

2、有时也传于同组内的同辈。王位以此互传的方式，从而在两组之间祖孙隔代继承。3.更新网站斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期，接近泊松分布，所以1个网站长期不更新，搜索引擎爬虫也会依据泊松分布，逐渐减少抓取次数。4.关键词密度分词实现源自20世纪的詹姆斯乔伊斯一本天书尤利西斯，在这本书的最后1章，没有1个标点符号，于是有位哈佛大学语言学家齐普夫专攻此书，把书里所有单词全部统计出来，计算词频，发现了尤利西斯包含n个词，将这些词按其出现的频次递减地排序，那么序号r和其出现频次f之积fr，将近似地为一个常数，即fr=b，(式中r=1,2,3.)，又以其他名著验证，结论非常近似。后来

3、搜索引擎引进了这一定律，给每个词库中的每个关键词按照总词频给以一定权重，低频词的权重较高，高频词的权重较低，所谓的关键词密度亦是据此，长尾词在文章中往往有较高的权重，重复出现关键词，可以提高关键词在页面中的权重。5.图片网页中的图片抓取不是一般抓取网页的蜘蛛来抓的，而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接，alt属性，网页标题，以及图片说明来确定这张图片是什么画面。6.外链广泛度互联网模型是链接拓扑结构，即缎带形状。不论传统的互联网亦或社交网络，都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。与关键词有联系的几个原理，像HITS，齐普夫定律，向量空间模型，TF/IDF等

4、。每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。堆砌关键词的权重不是11=2，而是2权重1的一个动态数值，采取向量的夹角余弦公式cos=(ab)/(|a|b|)，再加上搜索引擎对堆砌关键词的anti-spam算法，和现在主流的seo观点相悖。2.搜索引擎爬虫搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似，下面是维基百科的介绍。商代政权由子姓王族所掌握，王族分为两组，一组谥称以甲乙为主，一组谥称以丁为主，两组互相通婚，轮流继位执政。王位多传于另一组的下辈，有时也传于同组内的同辈。王位以此互传的方式，从而在两组之间祖孙隔代继承。3.更新网站斯坦福大学的2名研究者在2000年

5、得出结论是网页存在半衰期，接近泊松分布，所以1个网站长期不更新，搜索引擎爬虫也会依据泊松分布，逐渐减少抓取次数。4.关键词密度分词实现源自20世纪的詹姆斯乔伊斯一本天书尤利西斯，在这本书的最后1章，没有1个标点符号，于是有位哈佛大学语言学家齐普夫专攻此书，把书里所有单词全部统计出来，计算词频，发现了尤利西斯包含n个词，将这些词按其出现的频次递减地排序，那么序号r和其出现频次f之积fr，将近似地为一个常数，即fr=b，(式中r=1,2,3.)，又以其他名著验证，结论非常近似。后来搜索引擎引进了这一定律，给每个词库中的每个关键词按照总词频给以一定权重，低频词的权重较高，高频词的权重较低，所谓的关键

6、词密度亦是据此，长尾词在文章中往往有较高的权重，重复出现关键词，可以提高关键词在页面中的权重。5.图片网页中的图片抓取不是一般抓取网页的蜘蛛来抓的，而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接，alt属性，网页标题，以及图片说明来确定这张图片是什么画面。6.外链广泛度互联网模型是链接拓扑结构，即缎带形状。不论传统的互联网亦或社交网络，都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。与关键词有联系的几个原理，像HITS，齐普夫定律，向量空间模型，TF/IDF等。每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。堆砌关键词的权重不是11=2，而是2权重1的一个动态数

7、值，采取向量的夹角余弦公式cos=(ab)/(|a|b|)，再加上搜索引擎对堆砌关键词的anti-spam算法，和现在主流的seo观点相悖。2.搜索引擎爬虫搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似，下面是维基百科的介绍。商代政权由子姓王族所掌握，王族分为两组，一组谥称以甲乙为主，一组谥称以丁为主，两组互相通婚，轮流继位执政。王位多传于另一组的下辈，有时也传于同组内的同辈。王位以此互传的方式，从而在两组之间祖孙隔代继承。3.更新网站斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期，接近泊松分布，所以1个网站长期不更新，搜索引擎爬虫也会依据泊松分布，逐渐减少抓取次数。4.关

8、键词密度分词实现源自20世纪的詹姆斯乔伊斯一本天书尤利西斯，在这本书的最后1章，没有1个标点符号，于是有位哈佛大学语言学家齐普夫专攻此书，把书里所有单词全部统计出来，计算词频，发现了尤利西斯包含n个词，将这些词按其出现的频次递减地排序，那么序号r和其出现频次f之积fr，将近似地为一个常数，即fr=b，(式中r=1,2,3.)，又以其他名著验证，结论非常近似。后来搜索引擎引进了这一定律，给每个词库中的每个关键词按照总词频给以一定权重，低频词的权重较高，高频词的权重较低，所谓的关键词密度亦是据此，长尾词在文章中往往有较高的权重，重复出现关键词，可以提高关键词在页面中的权重。5.图片网页中的图片抓取

9、不是一般抓取网页的蜘蛛来抓的，而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接，alt属性，网页标题，以及图片说明来确定这张图片是什么画面。6.外链广泛度互联网模型是链接拓扑结构，即缎带形状。不论传统的互联网亦或社交网络，都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。与关键词有联系的几个原理，像HITS，齐普夫定律，向量空间模型，TF/IDF等。每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。堆砌关键词的权重不是11=2，而是2权重1的一个动态数值，采取向量的夹角余弦公式cos=(ab)/(|a|b|)，再加上搜索引擎对堆砌关键词的anti-spam算法，和现在

10、主流的seo观点相悖。2.搜索引擎爬虫搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似，下面是维基百科的介绍。商代政权由子姓王族所掌握，王族分为两组，一组谥称以甲乙为主，一组谥称以丁为主，两组互相通婚，轮流继位执政。王位多传于另一组的下辈，有时也传于同组内的同辈。王位以此互传的方式，从而在两组之间祖孙隔代继承。3.更新网站斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期，接近泊松分布，所以1个网站长期不更新，搜索引擎爬虫也会依据泊松分布，逐渐减少抓取次数。4.关键词密度分词实现源自20世纪的詹姆斯乔伊斯一本天书尤利西斯，在这本书的最后1章，没有1个标点符号，于是有位哈佛大学语言

11、学家齐普夫专攻此书，把书里所有单词全部统计出来，计算词频，发现了尤利西斯包含n个词，将这些词按其出现的频次递减地排序，那么序号r和其出现频次f之积fr，将近似地为一个常数，即fr=b，(式中r=1,2,3.)，又以其他名著验证，结论非常近似。后来搜索引擎引进了这一定律，给每个词库中的每个关键词按照总词频给以一定权重，低频词的权重较高，高频词的权重较低，所谓的关键词密度亦是据此，长尾词在文章中往往有较高的权重，重复出现关键词，可以提高关键词在页面中的权重。5.图片网页中的图片抓取不是一般抓取网页的蜘蛛来抓的，而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接，alt属性，网页标题，以及图片说明

12、来确定这张图片是什么画面。6.外链广泛度互联网模型是链接拓扑结构，即缎带形状。不论传统的互联网亦或社交网络，都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。与关键词有联系的几个原理，像HITS，齐普夫定律，向量空间模型，TF/IDF等。每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。堆砌关键词的权重不是11=2，而是2权重1的一个动态数值，采取向量的夹角余弦公式cos=(ab)/(|a|b|)，再加上搜索引擎对堆砌关键词的anti-spam算法，和现在主流的seo观点相悖。2.搜索引擎爬虫搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似，下面是维基百科的介绍。商

13、代政权由子姓王族所掌握，王族分为两组，一组谥称以甲乙为主，一组谥称以丁为主，两组互相通婚，轮流继位执政。王位多传于另一组的下辈，有时也传于同组内的同辈。王位以此互传的方式，从而在两组之间祖孙隔代继承。3.更新网站斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期，接近泊松分布，所以1个网站长期不更新，搜索引擎爬虫也会依据泊松分布，逐渐减少抓取次数。4.关键词密度分词实现源自20世纪的詹姆斯乔伊斯一本天书尤利西斯，在这本书的最后1章，没有1个标点符号，于是有位哈佛大学语言学家齐普夫专攻此书，把书里所有单词全部统计出来，计算词频，发现了尤利西斯包含n个词，将这些词按其出现的频次递减地排序，

14、那么序号r和其出现频次f之积fr，将近似地为一个常数，即fr=b，(式中r=1,2,3.)，又以其他名著验证，结论非常近似。后来搜索引擎引进了这一定律，给每个词库中的每个关键词按照总词频给以一定权重，低频词的权重较高，高频词的权重较低，所谓的关键词密度亦是据此，长尾词在文章中往往有较高的权重，重复出现关键词，可以提高关键词在页面中的权重。5.图片网页中的图片抓取不是一般抓取网页的蜘蛛来抓的，而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接，alt属性，网页标题，以及图片说明来确定这张图片是什么画面。6.外链广泛度互联网模型是链接拓扑结构，即缎带形状。不论传统的互联网亦或社交网络，都是如此。

15、搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。与关键词有联系的几个原理，像HITS，齐普夫定律，向量空间模型，TF/IDF等。每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。堆砌关键词的权重不是11=2，而是2权重1的一个动态数值，采取向量的夹角余弦公式cos=(ab)/(|a|b|)，再加上搜索引擎对堆砌关键词的anti-spam算法，和现在主流的seo观点相悖。2.搜索引擎爬虫搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似，下面是维基百科的介绍。商代政权由子姓王族所掌握，王族分为两组，一组谥称以甲乙为主，一组谥称以丁为主，两组互相通婚，轮流继位执政。王位多传于另一组的下辈，有时也传于同组内的同辈。王位以此互传的方式，从而在两组之间祖孙隔代继承。3.更新网站斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期，接近泊松分布，所以1个网站长期不更新，搜索引擎爬虫也会依据泊松分布，逐渐减少抓取次数。4.关键词密度分词实现源自20世纪的詹姆斯乔伊斯一本天书尤利西斯，在这本书的最后1章，没有1个标点符号，于是有位哈佛大学语言学家齐普夫专攻此书，把书里所有单词全部统计出来，计算词频，发现了尤利西斯包含n个词，将这些词按其出现的频次递减地排序，那么序号r和其出现频次f之积fr，将近似地为一个

展开阅读全文