第九讲第五章互联网信息检索原理80

资源描述

《第九讲第五章互联网信息检索原理80》由会员分享，可在线阅读，更多相关《第九讲第五章互联网信息检索原理80（80页珍藏版）》请在金锄头文库上搜索。

1、2018/9/20,zhangpeili,1,信息文化教程,主讲张沛黎电话：2057357(o)手机：13095097299,石河子大学图书馆文检教研室 E-mail:,2018/9/20,zhangpeili,2,第五章互联网信息检索原理,5.2 互联网信息概述互联网，或称环球网、因特网、Internet，是指多个网络通过路由器、通信线路等通信设备互联，并基于一个共同的TCP/IP协议实现通信的世界性计算机网络。它是在美国1969创建的军用网络的基础上逐步发展成型的。可以预见，Internet必将迅速覆盖全球，对人类生活产生深远的影响，使“信息时代”真正到来。,2018/

2、9/20,zhangpeili,3,第五章互联网信息检索原理,网上信息资源的构成互联网信息资源是由连接在网上的计算机中的无数信息、网上的各种信息工具以及网络通信渠道三方面构成。网络信息包括计算机中的数据库、电子出版物、主页信息、软件以及各种格式的文件。信息工具包括FTP、Telnet、Email、Gopher、Archie、WAIS、WWW浏览器、搜索引擎等。网络通信渠道是指网络提供的信息交流的渠道。,2018/9/20,zhangpeili,4,第五章互联网信息检索原理,网上信息资源的特点： (1) 数量庞大、增长迅速互联网上的信息资源极其丰富。已经成为全球最大的信息资源。包括有哲学、社

3、会科学和自然科学等各学科方面的知识。 (2) 更新频繁、变化无常互联网上的信息源常常是不稳定，许多网站不断地更换网址，这些给利用带来许多的不便。 (3) 分布散乱、良莠混杂互联网上的资源，一部分是人类知识的精粹，是人类巨大的财富，还有相当一部分是出于某种目的的信息或者是未经任何审核的数据信息，我们必须要有足够的认识和警觉。,2018/9/20,zhangpeili,5,第五章互联网信息检索原理,3网络信息资源的类型按照出版类型区分网上信息资源有着和印刷型出版物类似的对应关系。如：印刷型的期刊有网络期刊与其对应。印刷型的图书有网络图书与其对应。如此等等。按照是否具有原创性网上信息资源有一

4、次资源和二次资源的区分。一次资源是指首次发表的原创性信息，二次资源是转载已有的信息。,2018/9/20,zhangpeili,6,第五章互联网信息检索原理,按照有否经过审核，网上信息资源可分为正式出版物和非正式出版物两种。正式出版物学术价值相对较高。例如电子期刊、电子图书、电子报告、电子会议录等。网上正式出版物可以免费使用的很少。网上的非正式出版物具有明显的个人行为性质，其学术价值变化较大。例如个人主页、讨论组文章和公告版文章等，它们基本上可以免费利用。,2018/9/20,zhangpeili,7,第五章互联网信息检索原理,按照是否属于搜索引擎检索范围，网络信息资源可分为可见资源和不

5、可见资源两类。可见资源是搜索引擎可搜索到的资源。这种资源要满足两个条件：一是必须含有HTML超链接。二是没有设置口令，因而可见资源仅限于公开的资源。不可见资源，具体的说，是指一切没有联接的资源。,2018/9/20,zhangpeili,8,第五章互联网信息检索原理,5.2.3网络信息资源利用的几个概念 1HTML和XML超文本标识语言(Hyper Text Markup Language，简称HTML)，是为WWW建立超文本文件的语言。超文本文件是指含有多个指向其它文本、图像、声音或动画文件的指针，使它们连接在一起的文件。超文本标识语言通过链接项链接文件与文件或者文件内部不同部分，由此实

6、现在INTERNET上的漫游。用HTML编写的超文本文档必须用WWW浏览器阅读。可扩展标识语言(XML，Extensible Markup Language)正在成为各种数据，尤其是文档的首选格式，其优点是跨平台、跨网络、跨程序。,2018/9/20,zhangpeili,9,第五章互联网信息检索原理,.2网站和网页网页是用HTML或DHTML、XML等语言写成的文本文件。网站则是有独立的域名，由若干相关网页组成的一个站点。按照微软公司的比喻，如果把WWW当作是Internet上的大型图书馆，则每个web站点就是一本书，每个web页面就是书的一页，主页则是书的封面和目录。用户可以从主页开始，

7、通过web链接访问各类信息资源，在WWW世界中漫游。,2018/9/20,zhangpeili,10,第五章互联网信息检索原理,3WWW和WWW浏览器WWW是world wide web的缩写，可以称为“全球信息网”。简称3W或Web，有时中文也称为万维网。WWW的这种遍布全球的信息网络是通过超文本和超媒体（Hypermedia）技术来实现的。在Internet中，每个web服务器不仅提供它自身拥有的信息数据，还利用超级链接指向其它的拥有相关信息的web服务器，而那些服务器又指向更多的服务器，通过这种内部的链接机制，使遍布全球的主机形成了一个相互联系、资源共享的有机整体。,2018/9/2

8、0,zhangpeili,11,第五章互联网信息检索原理,WWW浏览器是浏览信息的客户程序。通过浏览器，用户可以十分方便地在Internet上获取所需要的信息。浏览器Internet Explorer和Netscape Navigator具有下述基本功能： (1) 打开主页浏览器运行时，总是按照某个内置的URL进行访问，并将主页传送到客户机，并以超文本的方式显示。(2) 随意浏览通过输入不同的URL，用户可以打开Internet上的任何服务器的HTML文档。浏览器解释HTML所描述的动画、声音、文本、图像以及超级链接等信息，展现在用户面前的是内容无所不包的超文本信息。,2018/9/2

9、0,zhangpeili,12,第五章互联网信息检索原理,(3) 热表（hotlist）功能浏览器提供一种简便的方法，使得用户可以把感兴趣的URL保存下来，以备日后使用。这种存储机制称为热表（hotlist）功能。(4) 文档管理功能浏览器具有对正在查看的文档进行存盘和打印的功能。随着Internet的普及，浏览器的地位也越来越重要，将逐渐成为和DOS、Windows一样必不可少的软件。,2018/9/20,zhangpeili,13,第五章互联网信息检索原理,3URL URL是Uniform Resource Locator（统一资源定位器）的缩写，提供了一种地址寻找方式。为了确定具

10、体信息资源在网络中的位置，Internet使用URL来描述具体资源和位置。 URL的组成结构为：应用协议、主机地址以及文件名。其中主机地址可以是域名，也可是IP地址。如： http:/， http:/202.115.40.7/index.htm。 URL的格式为： Protocol:/host.:port/path/filename。也就是说，URL的这个格式由Protocol五部分内容组成：,2018/9/20,zhangpeili,14,第五章互联网信息检索原理,(1) Protocol 是通讯协议或撷取数据的方式。FTP（文件传输协议）：它允许用户把一台计算机上的文件传到另一台计算

11、机上。可以大大节省用户的联机通讯费用。WAIS（文档检索）：这是一种基于关键词的文档检索工具。通过将网络上的文献、数据做成索引，用户只要在WAIS给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字，系统就能自动进行远程查询。Telnet（远程登录）：允许用户从一台计算机登录到远程的另一台计算机上并使用其资源。,2018/9/20,zhangpeili,15,第五章互联网信息检索原理,E-mail（电子邮件）：每个网络用户可以申请一个电子邮箱，用于接送电子邮件。用户可以脱机处理邮件。 (2) host是主机的地址。Internet中每台计算机的域名结构为：主机名、机构名、网络名、

12、最高层域名。域名是由有规律的英文单词组成的，非常便于记忆，而且还可以根据域名组成的规律，猜测某一个站点的域名。常见的标准域名结构为：主机名、机构名、网络名、最高层域名。在Internet的域名系统中最高层域名有三种：,2018/9/20,zhangpeili,16,第五章互联网信息检索原理,第一类为国别域名，由两个英文字母组成，如：“.CN（中国）”、“.JP（日本）”、“.US（美国）”、“.UK（英国）”、“.CA（加拿大）”。第二类为国际域名，现只有一个“.INT”代表国际组织。第三类为通用域名，目前用到的有13个： .net网络服务机构； .edu教育部门； .webweb服务

13、机构； .arts文化娱乐部门； .info信息部门； .rec娱乐机构； .org非赢利机构； .Store销售部门 .Firm公司企业； .gov政府部门； .com.商业机构 .mil军事部门； .nom个人。中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心（CNNIC）负责办理。例如：石河子大学的网址为：ttp:/ 互联网信息检索原理,(3) :port即端口，用数字标识，属于可选项。 (4) path即路径。 (5) filename是文件名，即浏览器访问的目标。 4网站网站是有独立的域名，由若干个相关网页组成的一个站点。网站通常是指有着特定的服务对象，相

14、对固定的栏目，可供他人访问的网上信息站点。网站的基本要素有二：一是具有可供他人访问的服务器；二是建立在这个服务器上的、并以网页形式发布的信息内容。,2018/9/20,zhangpeili,18,第五章互联网信息检索原理,按照网站中所处的位置，页面通常有主页、次页等层次之分。主页是指网站的首页。由主页上提供的站内链接点导出的页面称为次页。按照服务性质的不同，网站一般分为门户网站和垂直网站两类。门户网站，是访问互联网的入口，它以丰富的内容吸引访问率。垂直网站是针对某一领域、某一特定人群或某一特定需求，内容集中而深入的网站。,2018/9/20,zhangpeili,19,第五章互联网信息检

15、索原理,按照服务功能的不同，网站又可分为政府机构网站、商业网站、公共媒介网站和学术网站几类。除了上述各类网站之外，以个人名义建立的网站，即个人网站，正以其惊人的数量和包罗万象的信息吸引着众多的访问者,2018/9/20,zhangpeili,20,第五章互联网信息检索原理,5.3.1 搜索引擎概述 1定义搜索引擎(Search Engines)是网上信息搜索工具的通称。它是Internet上的一种特殊网站，在这些站点的服务器中保存了一个非常庞大的数据库，其内容包罗万象。查到的结果往往是一批具有相关属性的网站地址。搜索引擎可以是一个独立的门户网站，也可以是附在其他类型网站或主页上的一个搜索工具

16、。当用户输入检索提问时，搜索引擎会告诉用户包含这个检索提问的所有网址，并提供通向该网址的链接点。,2018/9/20,zhangpeili,21,第五章互联网信息检索原理,搜索引擎的功能：（1）、前端界面简单易用、功能强大；（2）、查询方式容易设定；（3）、检索方式完备，可以按用户所需的方式进行查询（4）、检索结果具有较好的准确性和可读性；（5）、检索的速度较快。搜索引擎的检索系统由以下几部分组成：搜索器、分析器、索引器、检索器和用户接口。,2018/9/20,zhangpeili,22,第五章互联网信息检索原理,搜索器:负责定期地自动到各个网站上，把网页抓下来，并顺着上面的链接，持续不断地抓取网页索引器:把搜索器抓来的网页进行分析，按照关键词句进行索引，并存入服务器的数据库中检索器：面向用户，接收用户提交的查询字串，在索引数据库中查询，并将结果反馈给用户,

展开阅读全文