电子商务B第08讲课件

上传人:w****i 文档编号:94668307 上传时间:2019-08-10 格式:PPT 页数:41 大小:2.46MB
返回 下载 相关 举报
电子商务B第08讲课件_第1页
第1页 / 共41页
电子商务B第08讲课件_第2页
第2页 / 共41页
电子商务B第08讲课件_第3页
第3页 / 共41页
电子商务B第08讲课件_第4页
第4页 / 共41页
电子商务B第08讲课件_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《电子商务B第08讲课件》由会员分享,可在线阅读,更多相关《电子商务B第08讲课件(41页珍藏版)》请在金锄头文库上搜索。

1、1/41,电 子 商 务,张文新 副教授,电话:13910623512 Email: ,课 程 安 排,2/41,3/41,第8讲,电子商务搜索引擎技术,4/41,引言,如何找到我所需要的信息? 你是否受到信息爆炸与搜索成本高的困扰? 搜索引擎的核心技术是什么?,5/41,引言,互联网信息的爆炸性增长 表层网络 链接相连 网站110,460,149 深层网络 数据库、动态信息 约为表层网络500倍 搜索引擎成为最重要的Web信息检索工具 全面、准确、快速,注:引自NetCraft,6/41,引言,查阅资料所花费的时间,7/41,图:美国化学文摘(CA)中各类型文献所占的比例,引言,8/41,引

2、言,期刊影响因子 期刊引用报告(Journal Citation Reports,简称JCR)是一种期刊评估报告,可根据期刊引用数据反映期刊的重要程序。 影响因子(Impact Factor):是JCR统计和评价期刊的一个重要参数,既根据特定年限内某种期刊中论文被引总数与论文发表数之比来衡量期刊的影响程度。 公式: 影响因子=,内容提要,搜索引擎如何工作 如何被搜索引擎发现,10/41,搜索引擎的基本原理 google(谷歌)、baidu(百度)的价值何在? 搜索引擎是如何找到你所要的信息的? 宣传你公司产品的网页怎么才能被著名的搜索引擎搜索到?输出结果排名的奥秘在哪里?,搜索引擎的原理,11

3、/41,搜索引擎的基本原理 搜索引擎是能够提供信息检索服务的工具,根据查询请求,检索所需信息。,搜索引擎的原理,12/41,搜索引擎的工作原理 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 搜索器:信息搜集 索引器:信息索引 检索器:信息查询 用户接口:检索结果的相关性处理,搜索引擎的原理,13/41,搜索引擎的原理,搜索引擎结构的原理,图:搜索引擎的组成和结构,14/41,搜索引擎的原理,信息搜集 各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在互联网中漫游,发现和搜集信息。 访问网络中公开区域的每一个站点并记录其网址,将它们带回搜

4、索引擎,要尽可能多、尽可能快地搜集各种类型的新信息。 因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。,15/41,搜索引擎的原理,搜索器的工作原理: 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略: 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的

5、URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。,16/41,搜索引擎的原理,信息索引 将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。 有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;,17/41,搜索引擎的原理,索引器的工作原理 索引器的功能是理解搜索器所搜索的信息,从中抽取

6、出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种: 客观项:与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等; 内容索引项:是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。,18/41,搜索引擎的原理,检索器信息查询 根据用户的查询需求在索引库中快速检出相关网页,并反馈检索结果。 一般包括分类目录及关键词两

7、种信息查询方式。,19/741,搜索引擎的原理,检索器的工作原理 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。,20/41,搜索引擎的原理,检索结果排序 检索输出结果的排列顺序。一般有以下三种方法: 概率法是根据关键词在文中出现的频率来判定的,出现的次数越多,认定其与查询的相关程度越高; 位置法是根据关键词在文中出现的位置来判定,位置越靠前,文件的相关程度越高; 分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到

8、不同的类别中。,21/41,搜索引擎的原理,排序技术存在不足和发展趋势 目前的排序技术存在两大不足: 没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、锚文本、版式信息等表面特征, 不能真正判断搜索词和文章的相关性, 解决这个问题的根本方法是增加语意理解, 例如主题词和关键词的提取, 从语意上分析, 得出搜索词和网页的相关程度, 分析越准, 效果越好。 搜索结果单一化。在搜索引擎上, 任何人搜索同一个词的结果都是一样。这样明显不能满足访问者的要求。为了克服搜索结果的单一化问题, 需要对搜索结果进行个性化设置。搜索结果排序要实现从单一化到个性化, 最理想的结果应该是针对每个访问

9、者, 根据访问者的搜索习惯和意愿, 对搜索结果进行排序。搜索引擎的技术改进和优化都直接反应到搜索结果的排序上。,22/41,搜索引擎的原理,中文搜索引擎存在不足和发展趋势 中文分词:中文分词就是把中文的汉字序列切分成有意义的词。 因为在上百亿的网页中找到所有结果没有太大意义, 对于搜索引擎来说, 最重要的并不是找到所有结果, 而是把最相关的结果排在最前面, 这也称为相关度排序。中文分词的准确与否,常常直接影响到中文搜索引擎结果的相关度排序。 中文分词技术属于自然语言处理技术范畴, 现有的分词算法可分为 基于字符串匹配的分词方法; 基于理解的分词方法; 基于统计的分词方法。,23/41,搜索引擎

10、的原理,用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。,24/41,搜索引擎的原理,讨论:如何让搜索引擎能够检索到自己的网页?如何让自己的网页在搜索引擎提供的检索结果列表中位于前列?,25/41,讨论,影响搜索引擎搜索结果排名的技术性因素 Meta标记 域名 Title标记 URL Body标记 关键字,26/41,讨论,影响网站排名因素Meta标记 对于搜索引擎来说,标记中最重要的是关键词(keyword

11、s)和网页描述(description),在HTML语言中形式如下: Title ,27/41,讨论,28/41,讨论,29/741,30/741,31/741,32/741,33/741,34/41,讨论,网站在搜索引擎中排名的关键因素域名 拥有独立域名 如果你的域名包含人们搜索你的产品或服务的关键词,则你的网页排在结果页的前十名的机会就会大大增加,当然如何确定关键词有许多“说道”, 避免域名包含太多的词,除非用连接符分开。对于搜索引擎来说,像“”这样的域名意味着排名机会减少,如果是“current-stock-”,则能给你带来更多的好运。,35/41,讨论,网站在搜索引擎中排名的影响因素T

12、itle 应该出现在中,如下所示: Title 在计算网页相关性时,多数搜索引擎对出现在中的关键词一个加重的“砝码”,特别是当关键词同时在文本中出现时。所以,一定要在中包含该网页的关键词。,36/41,讨论,网站在搜索引擎中排名的影响因素URL 对于URL地址,应该是英文名称还是汉语拼音? 对于域名,应以企业的名字或名字缩写、注册商标的英语或汉语拼音来注册,同时考虑使用行业或商品变称为其域名(因域名管理机构不允许注册行业或商品名称)。 对于根目录下的子目录名字应该用英语,而不是汉语拼音。如下所示,如果你公司的某部门经营汽车生意,应建一个子目录,名称为cars,而不是qiche。对于中国人来说,

13、汉语拼音给不熟悉英语的读者提供了方便,但是对搜索引擎来说,使用汉语拼音可能要失去排名计分,对于很多搜索引擎来说,其翻译系统是英语-汉语,不是汉语拼音-汉语。,37/41,讨论,网站在搜索引擎中排名的影响因素Body 对于一篇特定主题的文章,其论点应明确,结构主次分明,这就是标题的作用,标题对应文章主论点,并通过、标题展开论述,所以说,是Web文档的框架,在其文本中一定要包含关键词。 另外有些时候,当你需要强调某部分字体时,不应通过改变字体大小或加黑等措施实现,而是利用域来实现显示效果。 在HTML代码中的位置:,38/41,讨论,网站在搜索引擎中排名的关键因素关键字 位置频率法则:搜索引擎如何

14、决定网页的相关性?有很多影响因素,其中最主要的就是网页中关键词出现的位置和频率,即位置频率法则。 网页中一部分文本对网页内容有很高的概括性,搜索引擎在计算网页排名时给这部分文本一个加重的“砝码”,包含: 1. 中的文本 2. 中的文本 3. 中的文本 4. 或等中的文本 5. 最前面自然段的部分文本 6. 网页链接中的文本 7. 注释中的文本 8. 图像tags中的文本 9. 你的网站URL地址中的文本 频率是衡量搜索引擎网页相关性的另一个主要因素,搜索引擎将计算关键词在网页中(或某部分)出现的次数占该网页(或某部分)词汇总量的比率。频率较高,则网页相关性较高。,39/41,讨论,如何确定关键

15、词 通过各种技巧查找到竞争对手,分析其网站,并查看他们使用什么样的关键词,作为自己设计网站的参考。您可以使用软件提取META标记功能或者软件提取各搜索引擎相关关键字排名第一位网站的META标记,用来参考; 根据客户群来制定战略关键词。如果你的网站经销生产资料,则应以行业常用词或专业术语来作为关键词;如果经销的是消费品,则应以人们在传统媒体上经常见到的词语作为关键词的首选。 相近词。比如你的网站销售电脑,你还可以利用“计算机”、“品牌机”、“兼容机”等作为网站关键词的补充,因为在各种媒体上这些词也很“流行”。 相关词。如果你的网站经销化妆品,你可以站在消费者的角度,不妨试一试“皮肤护理”、“美容”等词来扩展你的关键词。 把两个或三个词组成的词组作为关键词进行网页设计。比如,一家沈阳旅游公司,关键词应为“沈阳旅游”,而不仅仅是“旅游”,这样外地的游客就可通过键入“沈阳旅游”找到公司的网站。,40/41,思考与练习,题8.1.练习:假设要你写一篇题为并行计算技术在搜索引擎中的应用的学术论文,应用信息检索技术在中国期刊网上检索相关文献。 题8.2思考:搜索引擎搜索到的网页信息一定是网站的最新信息吗?,41/41,本讲结束,谢谢!,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号