《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验

资源描述

《《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验》由会员分享，可在线阅读，更多相关《《电子商务应用》实验指导书-实验搜索引擎及搜索引擎优化（seo）实验（40页珍藏版）》请在金锄头文库上搜索。

1、电子商务应用实验报告项目名称搜索引擎及SEO实验专业班级软件工程1204班学号 3901120402 姓名孙远建实验成绩：中批阅教师：刘伟2014年 1 月 9 日实验3搜索引擎及SEO实验实验学时： 2 实验地点：二综204 实验日期： 2014.12.26 一、实验目的研究并学习几种常见的搜索引擎算法，包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法，了解它们的基本实现原理；运用所学SEO技术对网页进行优化。二、实验内容和方法1. 研究常用的网络蜘蛛爬行策略，如深度优先策略、广度优先策略、网页选择策略、重访策

2、略和并行策略等，了解其实现原理；2. 研究至少两种中文分词算法，了解其实现原理；3. 研究至少两种网页正文提取算法，了解其实现原理；4. 研究至少两种网页去重算法，了解其实现原理；5. 研究Google的PageRank和MapReduce算法，了解它们的实现原理；6. 使用所学的SEO技术，对实验二所设计的网站静态首页实施SEO，在实施过程中需采用如下技术：(1) 网页标题(title)的优化；(2) 选取合适的关键词并对关键词进行优化；(3) 元标签的优化；(4) 网站结构和URL的优化；(5) 创建robots.txt文件，禁止蜘蛛抓取网站后台页面；(6) 网页内部链接的优化；(7) H

3、eading标签的优化；(8) 图片优化；(9) 网页减肥技术。7. 使用C+、C#和Java等任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序，要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索，输出包含关键词的网页的URL和网页标题。【注：实验7为补充实验，不要求每个同学都完成，感兴趣者可自行实现该程序，不计入实验报告评分。】三、实验要求1. 研究几种常用的网络蜘蛛爬行策略，填写相应的表格，表格必须填写完整；2. 研究两种中文分词算法，填写相应的表格，表格必须填写完整；3. 研究两种网页正文提取算法，填写相应的表格，表格必须填写完整；4. 研究两种网页去重算法，填写相

4、应的表格，表格必须填写完整；5. 研究PageRank算法和MapReduce算法，填写相应的表格，表格必须填写完整；6. 提供实施SEO之后的网站静态首页界面和HTML代码，尽量多地使用所学SEO技术；7. 严禁大面积拷贝互联网上已有文字资料，尽量用自己的理解来阐述算法原理，必要时可以通过图形来描述算法；8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序，需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1. 通过使用搜索引擎并查阅相关资料，研究并整理几种常用的网络蜘蛛爬行策略相关资料，填写相应的表格；2. 通过使用搜索引擎并查阅相关资料，研究并整理两种中文分词算法的基本原理，填写相

5、应的表格；3. 通过使用搜索引擎并查阅相关资料，研究并整理两种网页正文提取算法的基本原理，填写相应的表格；4. 通过使用搜索引擎并查阅相关资料，研究并整理两种网页去重算法的基本原理，填写相应的表格；5. 通过使用搜索引擎并查阅相关资料，研究并整理PageRank算法和MapReduce算法的基本原理，填写相应的表格；6. 对实验二所设计的网站静态首页实施SEO；7. 使用任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格：策略名称基本原理参考资料深度优先策略深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索

6、结构的叶结点。在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时，说明搜索已经结束。百度百科深度优先搜索：http:/ 广度优先策略宽度优先搜索算法，是最简便的图的搜索算法之一，这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS，属于一种盲目搜寻法，目的是系统地展开并

7、检查图中的所有节点，以找寻结果。换句话说，它并不考虑结果的可能位址，彻底地搜索整张图，直到找到结果为止。百度百科广度优先搜索：http:/ 研究两种中文分词算法并填写如下表格：算法名称基本原理参考资料最大匹配算法最大匹配算法是一种有着广泛应用的机械分词方法，该方法依据一个分词词表和一个基本的切分评估原则即“长词优先”原则，来进行分词张玉茹肇庆526070中文分词算法之最大匹配算法的研究基于无词典的分词算法基于汉字之间的互信息和t-测试信息的分词算法。汉语的词可以理解为字与字之间的稳定结合，因此。如果在上下文中某几个相邻的字出现的次数越多，那么，这几个字成词的可能性就很大。根据这个道理引入互

8、信息(Mutual information)和t-测试值(tscore)的概念，用来表示两个汉字之间结合关系的紧密程度。该方法的分词原理是：对于一个汉字字符串，计算汉字之间的互信息和t-测试差信息，选择互信息和t-测试差信息大的组成词。该方法的局限性是只能处理长度为2的词，且对于一些共现频率高的但并不是词的字组，常被提取出来，并且常用词的计算开销大，但可以识别一些新词，消除歧义。对于一个成熟的分词系统来说，不可能单独依靠某一个算法来实现，都需要综合不同的算法，在实际的应用中，要根据具体的情况来选择不同的分词方案。刘红芝徐州医学院图书馆江苏徐州221004中文分词技术的研究3. 研究两种网页

9、正文提取算法并填写如下表格：算法名称基本原理参考资料基于相似度的中文网页正文提取算法正文文本在HTML源文件中有两种修饰方式：有标签提示和无标签提示。有标签文本中标签的作用一般包含分块信息、表格信息、或者文本的字体颜色信息等。这种文本采用基于分块的方法能有不错的效果。而无标签信息的正文文本处理之后不在分块中，也不在表格内。采用先分块后提取放入网页正文提取方法，无法达到理想的精度。本文提出根据相似度来提取网页正文的算法。算法分为两个步骤：首先取出网页中包含中文最多的行，然后利用鉴于此余弦相似度匹配和标签相似度来提取网页正文。该算法最大的特点是避免了上述的分块步骤。熊子奇张晖林茂松(西南科技大学计

10、算机科学与技术学院四川绵阳621010)基于相似度的中文网页正文提取算法基于FFT的网页正文提取算法研究与实现给定一个底层网页的HTML源文件，求解最佳的正文区问。对于任何字符串区间(b,e),(O6ess为源文件的长度S为源文件)，都有一个评价值，问题转化为求评价函数的最大解。李蕾，王劲林，白鹤，胡晶晶基于FFT的网页正文提取算法研究与实现4. 研究两种网页去重算法并填写如下表格：算法名称基本原理参考资料同源网页去重URL哈希值计算构造一个适当的哈希函数H可得到从网页URL字符序列到哈希值的映射，相同的URL字符串会得到相同的哈希值，从而说明该URL已被下载过在对解析出来的URL进行预处理后

11、，以其各字符对应的码值按下式计算出其哈希值：式中为解析出的网页URL集合；Ai为Ui的哈希地址；ni为对Ui进行预处理后的字串长度；Ck为对Ui进行预处理后左起第k个字符的码值；S为哈希槽容量上式表示从URL字符串U到其哈希散列值H的映射关系输入：URL；S输出：URL哈希值算法描述：(1)针对URL初始化；(2)按照式(1)进行URI。哈希值计算；(3)释放空间，返回哈希值高凯，王永成，肖君上海200030网页去重策略基于网页内容的去重用网页主体内容间的相似程度来判断它们是否为近似相同，而网页主体采用主题概念进行表示当两个网页主体相似比例达到设定的经验阈值时就认为它们为近似相同，不需重复下

12、载网页Ui(i1，n)使用特征向量进行表示，其主题概念权值wij采用以tfidf为主其他策略为辅的方式来确定，上式对tfidf算子(用t表示)乘以一个因子C来表示不同类型的页面tags对权值的影响，目的是对位于不同位置的词条作不同的加权处理通过试验分析可以确定针对不同tag标记相应的系数C的经验值同时综合考虑概念长因子z、词性因子P等诸多因素，加权体系可表示为上述诸多因素的一个函数，最后输出最能代表该文档的优个权值较大的主题概念而用来判断两个网页A和B之间相似的标准是通过统计主题概念词串的共现个数如果共现个数大于预先设定的经验阈值，就认为网页A和B为近似相似高凯，王永成，肖君上海200030网页去重策略5. 研究PageRank算法和MapReduce算法并填写如下表格：算法名称基本原理参考资料PageRankPageRank超链分析算法是Google搜索引擎采用的页面排序算法。Google沿用了传统搜索引擎的架构设计，其与传统的搜索引擎最

展开阅读全文