《第十章电子商务网站的开发技术与工具要点》由会员分享,可在线阅读,更多相关《第十章电子商务网站的开发技术与工具要点(60页珍藏版)》请在金锄头文库上搜索。
1、第十章第十章 电子商务网站的开发电子商务网站的开发技术与工具技术与工具信管教研室信管教研室20082008年年3 3月月学习和了解网页开发技术;学习和了解网页开发技术;学习和了解网络数据库开发技术;学习和了解网络数据库开发技术;学习和了解数据仓库技术和接口技术与规范;学习和了解数据仓库技术和接口技术与规范;学习和了解搜索引擎技术和全文检索技术。学习和了解搜索引擎技术和全文检索技术。学习目标和能力要求学习目标和能力要求常见概念n脚本n是网页制作中常见的动态网页制作技术。根据脚本语言所编写的代码可以直接插入到HTML中,利用脚本可以操作网页上的元素去实现网页的交互功能,还可以制作特殊动态效果的网页
2、。常用的脚本语言有JavaScript和VBScript,这两种脚本语言也是ASP的语言基础。常见概念nWeb服务器n一种具有高性能的计算机。网站所包含的文件就是存储在里面。通过web服务器软件,能有效地管理网站,并接受用户在客户端通过浏览器发出的浏览请求,然后发送请求浏览的网页到用户浏览器。常见的Web服务器有PWS,IISnFTPnFTP是一种文件传输协议。通过FTP,用户与存有文件的远程计算机(称为FTP服务器)连接,查看远程计算机上的文件,然后把文件从远程计算机上复制到本地的计算机上)称为下载,或者说把本地计算机上的文件传到远程计算机上去(称为上传)。如果我们是在ISP处申请的主页空间
3、,制作完成的网页文件一般采用FTP的形式传到web服务器上。n动态与静态内容动态与静态内容动态内容为什么这么热门?假设您正在管理有 10 个产品的电子商务站点。只要产品不是经常变动或者预料到它不会有太大的变动,那么手工编写 10 个带有必要的信息、表单和诸如此类内容的静态产品页面是不困难的。但是,假设您在本月再要添加 10 个或更多产品,然后在下个月要更多,而且价格有时会变动或者想改变站点的观感。那么您就会陷入用手工重新编写数十个,也许上百个静态页面的困境中。 n另一方面,假设您从创建 product.php 页面开始。它没有静态信息,而是编码成可以从产品数据库中提取信息并动态地构建一个页面。
4、然后您就拥有了一个元数据页面,它可以根据存储在数据库中的信息提供一个、一百个、甚至十万个单独页面。现在网站管理员不再整天都简单重复更新静态页面的工作,因为在更新公司数据库中的信息同时就可以更新页面上的信息。这样就消除了令人头疼的时间延迟(在数据库中更改信息和在网站上显示信息之间的时间间隔)。n一、电子商务系统的组成前台前台网站网站后台后台企业内部信息系统企业内部信息系统物物 流流 中中 心心支支付付中中心心认认证证中中心心供应者供应者采购者采购者二、电子商务网站概述二、电子商务网站概述n1、定义:、定义:n电子商务网站市企业开展电子商务的基础设施和信息平台,是实施电子商务的公司或商家与服务对象
5、之间的交互界面,是电子商务系统运转的承担者和表现者。n区别与一般web站点:以数据处理为主,数据类型复杂、数据流量大,数据交换频繁。运行效率和数据安全是影响电子商务网站架构的重要因素。2、基本电子商务网站的构成要素、基本电子商务网站的构成要素n网站的域名及地点n网站的页面n商品目录n购物车、付款台、商品配送n计数器、留言板n会员管理n商品库存管理n4、电子商务网站的分类、电子商务网站的分类n按商务目的和业务功能n基本型电子商务网站n宣传型子商务网站n客户服务型电子商务网站n完全电子商务运作型网站n按构建网站的主体分n行业电子商务网站n企业电子商务网站n政府电子商务网站n服务机构电子商务网站三、
6、电子商务网站开发技术三、电子商务网站开发技术1、电子商务网站的体系结构浏览器浏览器Web服务器服务器Web应用服务器应用服务器数据库服务器数据库服务器企业信息系统企业信息系统数据存取层数据存取层应用逻辑层应用逻辑层用户界面层用户界面层HTTP应答应答HTTP请求请求n2、开发技术nHTML技术nJavaScript技术nCSS技术nXML技术n n网络数据库技术网络数据库技术网络数据库技术网络数据库技术ODBCODBCODBCODBC技术、技术、技术、技术、 SQLSQL语言语言语言语言n n数据仓库技术数据仓库技术数据仓库技术数据仓库技术CGICGI技术技术技术技术 WebAPIWebAPI
7、技术技术技术技术 ASP技术Java/JDBCJava/JDBC技术技术技术技术网页开发技术网页开发技术网页开发技术网页开发技术HTMLHTMLHTML概述超文本标记语言(HTML)是网页设计的基础。HTML文件可以运行于不同的操作系统,不需要编译就能通过IE解释执行。HTML本质上是一个文本文件,任何文本编辑器都可以编写。现在设计网页不再需要手工编写HTML脚本,而是利用专业的HTML编辑工具( FrontPage、 Dreamweaver等)通过可视化界面设计,自动生成HTML脚本。HTML的不足1)难以扩展。2)交互性差。3)单向的超链接。4)缺乏对双字节的支持。nHTML的标记(Mar
8、kup),通俗地讲,它就是一种用来给文本添加标记的语言。在HTML里每个标志都是有确切含义的。例如,在HTML 中,标签B的含义是要求HTML浏览器将一段文本加粗表示,而标签CENTER的含义是告诉浏览器将这段文本在一行的中间显示。网页开发技术网页开发技术网页开发技术网页开发技术D D D DHTMLHTML动态HTML(DHTML)是是对HTML3.0的增强型语言,对HTML进行了扩展和延伸,主要是加入了“层”的概念,通过不同层之间的转换和显示来体现出动态的效果。 HTML编辑工具( FrontPage、 Dreamweaver等)里面的动态网页设计已经内嵌了DHTML技术,我们无须去掌握D
9、HTML的编程语法,而是也可以通过这些网页编辑工具直接设计。z在在网网页页中中最最常常用用的的一一种种插插入入脚脚本本的的方方式式是是使使用用SCRIPTSCRIPT标标记记符符,方方法法是是:把把脚脚本本标标记记符符置置于于网网页页上上的的HEADHEAD部部分分或或BODYBODY部部分分,然然后后在在其其中中加加入入脚本程序。脚本程序。z所所谓谓动动态态HTMLHTML(简简称称DHTMLDHTML),其其实实并并不不是是一一门门新新的的语言,它只是语言,它只是HTMLHTML、CSSCSS和客户端脚本的一种集成。和客户端脚本的一种集成。zDHTMLDHTML建建立立在在原原有有技技术术
10、的的基基础础上上,可可分分为为三三个个方方面面:一是一是HTMLHTML;二是;二是CSSCSS;三是客户端脚本。;三是客户端脚本。层叠样式表层叠样式表CSSnCSSCSS样式定义样式定义n 一个样式表由样式规则组成,以告诉浏览器怎一个样式表由样式规则组成,以告诉浏览器怎样去显示一个文档。样式表的规则组成如下:样去显示一个文档。样式表的规则组成如下:nselectorproperty1 : value1selectorproperty1 : value1;property2 : property2 : value2value2; nselectorselector:样式符。可以为:样式符。可以
11、为HTMLHTML标记、用户自定义类标记、用户自定义类或用户自定义或用户自定义IDIDnPropertyProperty:样式属性。不同属性间用:样式属性。不同属性间用“;”分隔。分隔。nValueValue:属性的值。与属性之间用:属性的值。与属性之间用“:”分隔。分隔。网页开发技术网页开发技术网页开发技术网页开发技术X X X XMLML可扩展标记语言可扩展标记语言XML(Extensible Markup Language)Web应用领域数据标准的主流语言应用领域数据标准的主流语言特点:1)XML不是单纯的标记语言,而是一种元语言,可以根据需要来灵活定义任何一种标记语言。可以说,XML是
12、一种文档的数字表现方式;2)XML允许各种不同的专业(如音乐、化学、数学等)开发与自己的特定领域有关的标记语言;3)具有较好的保值性,具有良好的数据存储格式、可扩展性、高度结构化和便于网络传输的四大优点。网页开发技术网页开发技术网页开发技术网页开发技术X XMLXML的编程规范的编程规范Schema(模式)模式)XSL(可扩展样式单语言)可扩展样式单语言)XLL(可扩展链接语言)可扩展链接语言) 电子商务网站建设与管理电子商务网站建设与管理 肖伟民肖伟民 20.00 网页开发技术网页开发技术网页开发技术网页开发技术X XMLXML在电子在电子商务中的应用商务中的应用对称的EDI应用应用于电子商
13、务信息交换。应用于电子商务内容定义。网页开发技术网页开发技术网页开发技术网页开发技术X X X XMLMLXMLXML的各种标准的各种标准的各种标准的各种标准cnXML:中国开发的为适应中国商务流程中国开发的为适应中国商务流程的的XML标准。标准。ebXML:结构化系统发展组织(结构化系统发展组织(OASIS)为的全球电子商务交易而开发的为的全球电子商务交易而开发的XML标准。标准。WML:无线标记语言。无线标记语言。XML在无线通信在无线通信领域的扩展。领域的扩展。网络数据库技术网络数据库技术网络数据库技术网络数据库技术ODBCODBCODBCODBC技术技术技术技术ODBCODBC定义:定
14、义:定义:定义:ODBCODBC技术是完成技术是完成技术是完成技术是完成WebWeb页面和程序对数据页面和程序对数据页面和程序对数据页面和程序对数据库的连接、访问以及数据存储的一种驱动技术。库的连接、访问以及数据存储的一种驱动技术。库的连接、访问以及数据存储的一种驱动技术。库的连接、访问以及数据存储的一种驱动技术。 ODBCODBC的工作原理:的工作原理:的工作原理:的工作原理:ODBCODBCODBCODBC的核心是一组封装好的数据库访的核心是一组封装好的数据库访的核心是一组封装好的数据库访的核心是一组封装好的数据库访问函数,我们要访问数据库,只需要直接调用问函数,我们要访问数据库,只需要直
15、接调用问函数,我们要访问数据库,只需要直接调用问函数,我们要访问数据库,只需要直接调用ODBCODBC驱动驱动驱动驱动就可以进行,而不需要关心就可以进行,而不需要关心就可以进行,而不需要关心就可以进行,而不需要关心ODBCODBC是如何去完成的。是如何去完成的。是如何去完成的。是如何去完成的。 ODBC起源:起源:1992年由微软公司创建。年由微软公司创建。ODBC的应用:是目前连接的应用:是目前连接windows系统数据库最流行的系统数据库最流行的方式。方式。网络数据库技术网络数据库技术网络数据库技术网络数据库技术ODBCODBCODBCODBC技术技术技术技术ODBC访问数据库的工作流程访
16、问数据库的工作流程客户程序A客户程序BODBC驱动程序管理器DBMS-A驱动程序DBMS-B驱动程序数据库A数据库B网络数据库技术网络数据库技术网络数据库技术网络数据库技术ODBCODBCODBCODBC技术技术技术技术ODBC数据源的配置数据源的配置网络数据库技术网络数据库技术网络数据库技术网络数据库技术SQLSQLSQLSQL语言语言语言语言SQLSQL定义:结构化查询语言(定义:结构化查询语言(定义:结构化查询语言(定义:结构化查询语言(Structure Query Language)Structure Query Language)包括包括包括包括 数据定义、数据查询、数据操纵、数据
17、控制四部分数据定义、数据查询、数据操纵、数据控制四部分数据定义、数据查询、数据操纵、数据控制四部分数据定义、数据查询、数据操纵、数据控制四部分。 SQL起源:起源:70年代有年代有IBM提出,历经三十多年的发展已提出,历经三十多年的发展已经成为关系型数据库的标准语言。经成为关系型数据库的标准语言。SQLSQL的的的的特点:特点:特点:特点:1 1)是一种一体化语言;)是一种一体化语言;)是一种一体化语言;)是一种一体化语言;2 2)是一种高级语言,命令简单,易于掌握;)是一种高级语言,命令简单,易于掌握;)是一种高级语言,命令简单,易于掌握;)是一种高级语言,命令简单,易于掌握;3 3)既可以
18、直接以命令方式交互使用,也可以嵌入到大多)既可以直接以命令方式交互使用,也可以嵌入到大多)既可以直接以命令方式交互使用,也可以嵌入到大多)既可以直接以命令方式交互使用,也可以嵌入到大多 数编程语言中引用数编程语言中引用数编程语言中引用数编程语言中引用SQLSQL语句来执行对数据库的操作。语句来执行对数据库的操作。语句来执行对数据库的操作。语句来执行对数据库的操作。 网络数据库技术网络数据库技术网络数据库技术网络数据库技术SQLSQLSQLSQL语言语言语言语言SQLSQL的的的的功能:功能:功能:功能:1 1)DDLDDL数据定义语言。对数据库对象进行定义和操作的部分。比如数据定义语言。对数据
19、库对象进行定义和操作的部分。比如数据定义语言。对数据库对象进行定义和操作的部分。比如数据定义语言。对数据库对象进行定义和操作的部分。比如创建数据库,删除数据表等操作。创建数据库,删除数据表等操作。创建数据库,删除数据表等操作。创建数据库,删除数据表等操作。2 2)DMLDML数据操纵语言。是数据操纵语言。是数据操纵语言。是数据操纵语言。是SQLSQL对数据库中的数据执行添加(对数据库中的数据执行添加(对数据库中的数据执行添加(对数据库中的数据执行添加(insert insert intointo)、)、)、)、修改(修改(修改(修改(updateupdate)、)、)、)、删除(删除(删除(删
20、除(deletedelete)命令的部分。命令的部分。命令的部分。命令的部分。3 3)DQLDQL数据查询语言:是数据查询语言:是数据查询语言:是数据查询语言:是SQLSQL对数据库中的数据执行查询(对数据库中的数据执行查询(对数据库中的数据执行查询(对数据库中的数据执行查询(selectselect)命令的部分。命令的部分。命令的部分。命令的部分。数据仓库技术数据仓库技术数据仓库技术数据仓库技术 数据仓库是一个系统,而不单纯是一个数据库,它是由多个数据源以及相关处理单元集合在一起的一个事务处理、分析和决策系统。数据仓库数据仓库数据仓库数据仓库(Data warehouse,DWData wa
21、rehouse,DW)数据仓库(数据仓库(DW)联机与分析处理(联机与分析处理(OLPA)数据挖掘(数据挖掘(DM)在分析基础上进行预测对前三项功能进行动态处理支持战略决策和战术决策数据仓库技术数据仓库技术数据仓库技术数据仓库技术数据仓库的发展过程:数据仓库的发展过程:数据仓库的发展过程:数据仓库的发展过程:仅仅为决策提供数据在提供数据的基础上进行分析WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术CGICGICGICGI技术技术技术技术 CGI(通用网关接口)是早期应用程序与WEB服务器之间的接口标准。数据仓库技术数据仓库技术数据仓库技术数据仓库技术 CGI以
22、可执行文件的方式工作,因此跨平台性能好,但每启动一个CGI文件就会产生一个独立的进程,即便是同一个CGI程序,因此CGI对系统资源的占用很高,导致系统性能下降,并且交互功能也比较弱。IETCP/IPWeb服务器CGI应用DB服务器ODBCINOUTCGI的工作示意图WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术WebAPIWebAPIWebAPIWebAPI技术技术技术技术 目前最主要的WebAPI是微软开发的ISAPI,它以动态链接库(dll)文件的形式存在,不同的程序可以同时调用同一个dll文件完成其功能。一个程序调用dll后,dll就驻留在内存中,方便其
23、他程序调用。因此与CGI程序相比,ISAPI占用的系统资源要少得多。数据仓库技术数据仓库技术数据仓库技术数据仓库技术 ISAPI的缺点是兼容性差,仅适用于windows系统,且有一定开发难度。 ISAPI的工作流程与CGI类似。WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术ASPASPASPASP技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术ASP定义:动态服务器网页(Active Server Pages)。 ASP是一种在服务器端执行的脚本开发工具,其开发出来的脚本文件以.asp为后缀。ASP提供VBScript和JavaScript两种
24、脚本引擎,缺省是VBScript。ASP起源:由微软公司在发布起源:由微软公司在发布Win98时正式推出。目前,在时正式推出。目前,在IIS5.0中中,ASP已成为核心组件之一。已成为核心组件之一。ASPASP的工作方式:的工作方式:的工作方式:的工作方式: 客户端IEHTTP请求Web服务器ASPDB服务器ODBC执行ASP文件动态生成HTML页面返回HTTP页面WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术ASPASPASPASP技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术ASP的优点:的优点:1)完全和)完全和HTML无缝集成;无缝集
25、成;2)任何文本制作工具都可编写,不需要专门的开发环境,也无需编译;)任何文本制作工具都可编写,不需要专门的开发环境,也无需编译;3)面向对象,可直接调用)面向对象,可直接调用ActiveX扩展控件;扩展控件;4)功能强大,具有很好的交互性;)功能强大,具有很好的交互性;5)占用系统资源少,多线程工作方式,能同时响应多个请求;)占用系统资源少,多线程工作方式,能同时响应多个请求;6)源程序保密,由于是在服务器端执行脚本,因此客户端无法获得程)源程序保密,由于是在服务器端执行脚本,因此客户端无法获得程序代码,不存在泄密问题。序代码,不存在泄密问题。ASP适用的开发环境:适用的开发环境:只适用于只
26、适用于windows平台下的各种平台下的各种Web服务器及服务器及Win98以上的操作系统及以上的操作系统及相关组件,比如相关组件,比如IIS5.0。nASP.NET是一个用于Web开发的全新框架,其中包含了许多新的特性。它使用的是成熟的编程语言如:VB.NET(Visual Basic .NET,以下简称VB.NET)和C#;ASP.NET使用编译后的语言,从而提升性能和伸缩性;ASP.NET提供了更易于编写、结构更清晰的代码,这些代码很容易进行再利用和共享;ASP.NET使用Web表单,使开发更直观,利用面向对象的技术,促进了组件的再利用。另外,ASP.NET中还包括有页面事件、Web控件
27、、缓冲技术,以及服务器控件和对数据绑定的改进 WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术Java/JDBCJava/JDBCJava/JDBCJava/JDBC技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术JDBCJDBC定义:定义:定义:定义:JAVA语言访问数据库的API标准,JDBC和ODBC技术类似,是为JAVA语言访问数据库的驱动技术。 JDBCJDBC的构成:的构成:的构成:的构成:JDBC由由Java Soft公司推出。公司推出。JDBC APIJDBC Driver API应用程序DB服务器WebWebWebWeb数据库接
28、口技术数据库接口技术数据库接口技术数据库接口技术Java/JDBCJava/JDBCJava/JDBCJava/JDBC技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术JDBC Driver的工作模式的工作模式JDBC ODBC桥接方式DB服务器直接调用ODBC Driver需要客户端安装ODBC驱动程序Native API/partly-Java Driver方式DB服务器将JDBC调用转成对DBMS的调用需要客户端安装应用程序JDBC/Net pureJava Driver方式DB服务器将JDBC调用转成独立的网络协议,再由服务器转成DBMS协议需要解决防火墙对协议的阻挡W
29、ebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术Java/JDBCJava/JDBCJava/JDBCJava/JDBC技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术JDBC Driver的工作模式的工作模式Native-Protocal/Pure Java Driver方式DB服务器将JDBC调用转成DBMS使用的网络协议,直接访问数据库协议一般由数据库厂商提供JDBC Driver的优点:的优点: 选用适合的选用适合的JDBC Driver可以访问多个异构数据库,为同一台可以访问多个异构数据库,为同一台Web服务器通过统一的应用程序同时访问多
30、个异构数据库提供了解决方案。服务器通过统一的应用程序同时访问多个异构数据库提供了解决方案。WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术JSPJSPJSPJSP技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术JSP定义:在定义:在HTML文件中加入文件中加入Java程序片段(程序片段(Scriptlet)和)和JSP标记(标记(tag),就构成),就构成JSP网页,网页,JSP文件以文件以.jsp为后缀。为后缀。JSPJSP的处理流程:的处理流程:的处理流程:的处理流程: 客户端IEJSP网页Web服务器JSP服务DB服务器JDBC执行JSP程
31、序动态生成HTML页面返回HTTP页面JSP的优点:的优点:1)在一些)在一些Java组件的帮助下能完成功能强大的商务网站的开发;组件的帮助下能完成功能强大的商务网站的开发;2)能在绝大多数操作系统上运行和同时访问大多数主流数据库,所有)能在绝大多数操作系统上运行和同时访问大多数主流数据库,所有程序在服务器端执行,对客户程序在服务器端执行,对客户IE的要求最低,同时保证代码的安全性。的要求最低,同时保证代码的安全性。3)JSP将成为将成为web接口技术未来发展的主流。接口技术未来发展的主流。WebWebWebWeb数据库接口技术数据库接口技术数据库接口技术数据库接口技术PHPPHPPHPPHP
32、技术技术技术技术数据仓库技术数据仓库技术数据仓库技术数据仓库技术PHP起源:起源:PHP(Personal Home Page)最初是一个)最初是一个CGI程序,后来经程序,后来经过多次改写,逐渐发展成目前的过多次改写,逐渐发展成目前的PHP3.0。PHP的特点:的特点:1)支持多种操作系统;)支持多种操作系统;2)具有丰富的数据库操作函数库,可以与绝大多数数据库进行操作;)具有丰富的数据库操作函数库,可以与绝大多数数据库进行操作;3)源代码开放,具有良好的开放性和扩展性;)源代码开放,具有良好的开放性和扩展性;4)如果采用)如果采用Linux系统,最好使用系统,最好使用Apache服务器,否
33、则运行效率不高;服务器,否则运行效率不高;5)PHP也具有较好的发展前景,适合开发个人和小型企业的商务网站。也具有较好的发展前景,适合开发个人和小型企业的商务网站。PHPPHP的语法:的语法:的语法:的语法:以“”结束,例如: Hello, 搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术简单地说,搜索引擎是以一定的策略,在互联网上搜集目标简单地说,搜索引擎是以一定的策略,在互联网上搜集目标简单地说,搜索引擎是以一定的策略,在互联网上搜集目标简单地说,搜索引擎是以一定的策略,在互联网上搜集目标信息,并对提取的信息进行理解、整理和处理并提供给用户信息,并对
34、提取的信息进行理解、整理和处理并提供给用户信息,并对提取的信息进行理解、整理和处理并提供给用户信息,并对提取的信息进行理解、整理和处理并提供给用户的一种检索服务的一种检索服务的一种检索服务的一种检索服务。 搜索引擎技术搜索引擎技术搜索引擎技术搜索引擎技术所谓的策略,最主要的手段就是通过关键字、关键词的定义所谓的策略,最主要的手段就是通过关键字、关键词的定义所谓的策略,最主要的手段就是通过关键字、关键词的定义所谓的策略,最主要的手段就是通过关键字、关键词的定义并搜索。并搜索。并搜索。并搜索。搜索引擎实质上是一个软件系统。搜索引擎实质上是一个软件系统。搜索引擎实质上是一个软件系统。搜索引擎实质上是
35、一个软件系统。 搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎通过网站间的各种链接关系展开网络搜索。每搜到搜索引擎通过网站间的各种链接关系展开网络搜索。每搜到一个新的网页,就把这个网页及关键词存储到数据库中,并一个新的网页,就把这个网页及关键词存储到数据库中,并建立或更新索引库。建立或更新索引库。搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理我们输入关键词去搜索信息时,搜索引擎搜索的对象是引擎我们输入关键词去搜索信息时,搜索引擎搜索的对象是引擎数据库而非真正的网页。数据库而非真正的网页。把搜索到的符合要求的内容通过某种
36、排序组合成搜索页面再把搜索到的符合要求的内容通过某种排序组合成搜索页面再反馈给搜索者。反馈给搜索者。搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎的类型搜索引擎的类型搜索引擎的类型搜索引擎的类型目录式搜索目录式搜索目录式搜索目录式搜索主要以人工的方式进行主要以人工的方式进行主要以人工的方式进行主要以人工的方式进行机器人式搜索机器人式搜索机器人式搜索机器人式搜索以搜索软件系统自动搜以搜索软件系统自动搜以搜索软件系统自动搜以搜索软件系统自动搜索的方式进行索的方式进行索的方式进行索的方式进行元搜索元搜索元搜索元搜索以搜索引擎的数据库系以搜索引擎的数据
37、库系以搜索引擎的数据库系以搜索引擎的数据库系统为目标的搜索方式统为目标的搜索方式统为目标的搜索方式统为目标的搜索方式搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术搜索引擎和全文检索技术全文检索,其搜索依据不再是简单地对关键词进行搜索,而全文检索,其搜索依据不再是简单地对关键词进行搜索,而全文检索,其搜索依据不再是简单地对关键词进行搜索,而全文检索,其搜索依据不再是简单地对关键词进行搜索,而是可以对复杂的段落甚至章节进行全文检索,检索的对象不是可以对复杂的段落甚至章节进行全文检索,检索的对象不是可以对复杂的段落甚至章节进行全文检索,检索的对象不是可以对复杂的段落甚至章节进行全
38、文检索,检索的对象不仅包含文本,还可以包含声音、图象和视频。因此全文检索仅包含文本,还可以包含声音、图象和视频。因此全文检索仅包含文本,还可以包含声音、图象和视频。因此全文检索仅包含文本,还可以包含声音、图象和视频。因此全文检索的功能更强大,要求也更高。的功能更强大,要求也更高。的功能更强大,要求也更高。的功能更强大,要求也更高。 全文检索技术全文检索技术全文检索技术全文检索技术全文检索技术在海量信息处理、数据挖掘、提供个性化服务全文检索技术在海量信息处理、数据挖掘、提供个性化服务全文检索技术在海量信息处理、数据挖掘、提供个性化服务全文检索技术在海量信息处理、数据挖掘、提供个性化服务等方面具有
39、重要作用,是未来商务网站发展的重点技术与服等方面具有重要作用,是未来商务网站发展的重点技术与服等方面具有重要作用,是未来商务网站发展的重点技术与服等方面具有重要作用,是未来商务网站发展的重点技术与服务。务。务。务。网络信息检索技术网络信息检索技术n网络信息检索技术包括常用运算符、高网络信息检索技术包括常用运算符、高级搜索技术、限制检索、特殊检索技术:级搜索技术、限制检索、特殊检索技术:n(1 1)常用运算符)常用运算符n 常用运算符一般用于搜索引擎常用运算符一般用于搜索引擎的简单检索。在网络信息检索中,掌握的简单检索。在网络信息检索中,掌握一些常用的运算符,会使你的检索提问一些常用的运算符,会
40、使你的检索提问更准确,搜索结果更精确。更准确,搜索结果更精确。 加号:加号:+ 格式:格式:+检索词检索词功能:检索词必须出现在搜索结果中。功能:检索词必须出现在搜索结果中。示例:查找有关克林顿与琼斯的网页,检示例:查找有关克林顿与琼斯的网页,检索提问式可以索提问式可以 为:为:+克林顿克林顿 +琼斯,琼斯,表示克林顿与琼斯这两个词必须表示克林顿与琼斯这两个词必须 出现出现在搜索结果网页中。在搜索结果网页中。n减号:减号:-n格式:格式:- 检索词检索词n功能:检索词不能出现在搜索结果中。功能:检索词不能出现在搜索结果中。n示例:查找关于示例:查找关于windows2000的资料,但又不想看到
41、关于的资料,但又不想看到关于Windows 98n 或或Windows 3.1的网页,检索提问可以为:的网页,检索提问可以为:+windows2000 n windows98 -windows3.1。减号的作用在于可以使搜索结果集。减号的作用在于可以使搜索结果集n 中反映你的需求,使你无需为大量无关的搜索结果而头疼。中反映你的需求,使你无需为大量无关的搜索结果而头疼。n管道符:管道符:| n格式:检索词一格式:检索词一 | 检索词二检索词二n功能:一组检索词在搜索结果中只要出现任一个即被命中。功能:一组检索词在搜索结果中只要出现任一个即被命中。n示例:查询有关克林顿或希拉里的资料,检索提问可以
42、为:克林示例:查询有关克林顿或希拉里的资料,检索提问可以为:克林顿顿 |n 希拉里,表示在搜索结果中克林顿与希拉里这两个词只要出希拉里,表示在搜索结果中克林顿与希拉里这两个词只要出现现n 一个都被命中一个都被命中.n引号:引号:“”n格式:格式:“词组词组”,如,如“computer network”n功能:词组检索功能,只检索含有该词组的资功能:词组检索功能,只检索含有该词组的资料料n示例:检索提问示例:检索提问“computer network”,表示,表示只检索含有词组只检索含有词组computer network的网络文档;的网络文档;检索提问检索提问“电脑商情报电脑商情报”,会找出包
43、含电脑商,会找出包含电脑商情报的网站,不会查找有关电脑商情,情报的网站,不会查找有关电脑商情,XX商商情报的内容。情报的内容。n 此外,一些标点符号如此外,一些标点符号如“-”(连字符)(连字符)、“”(斜杠斜杠)、“_”(下划线)、(下划线)、“,”(逗号)、(逗号)、 “ .”(点)等在不同的搜索引擎(点)等在不同的搜索引擎也可作为短语连接符。例如:也可作为短语连接符。例如:mother-in-law尽管没有加引号,仍作为专用语处理。尽管没有加引号,仍作为专用语处理。 截词符:截词符:*(星号)(星号)格式:词干格式:词干*,如,如computer*功能:功能:自动查找具有相同词干的所有单
44、词,自动查找具有相同词干的所有单词,提高检索的全面性,扩大提高检索的全面性,扩大 命中结果的数量,适用于一部分网站命中结果的数量,适用于一部分网站示例:检索提问示例:检索提问computer*,表示可自动查找表示可自动查找computer、computers、 computerised、computerized等单词;又如等单词;又如interne* 会检索出会检索出 interne、internecine、internet 等相关的内容。等相关的内容。 几乎所有主要搜索引擎均支持以上这些检索功能,只是具体使几乎所有主要搜索引擎均支持以上这些检索功能,只是具体使 用时有时符号会有所差别,所以用
45、户在实际使用前可先浏览一用时有时符号会有所差别,所以用户在实际使用前可先浏览一 下下“Help”(帮助页面)。帮助页面)。(2 2)高级搜索技术)高级搜索技术 高高级级搜搜索索技技术术一一般般用用于于搜搜索索引引擎擎的的高高级级检检索索,即即所所谓谓的的“advanced search”。搜搜索索引引擎擎都都有有简简单单检检索索与与高高级级检检索索之之分分,简简单单检检索索是是搜搜索索引引擎擎的的默默认认工工作作状状态态,高高级级检检索索必必须用鼠标点击须用鼠标点击“advanced search”按钮。按钮。 布尔逻辑算符(布尔逻辑算符(Boolean)布尔算符布尔算符 举例举例 功能功能
46、AND A AND B 在搜索结果中,必须同时含有在搜索结果中,必须同时含有A和和B两两 个检索词个检索词 OR A OR B 在搜索结果中,在搜索结果中,A、B两个检索词两个检索词 只要出现一个即可只要出现一个即可 NOT A NOT B 搜索含有检索词搜索含有检索词A但不含有但不含有B的网络信的网络信 息息 位置算符位置算符 位位置置算算符符强强调调检检索索词词与与检检索索词词之之间间的的位位置置关关系系,如如哪哪个个检检索索词词在在前前,哪哪个个检检索索词词在在后后,两两个个检检索索词词相相隔隔多多少少个个单单词词等等。位置算符表示的是两个概念在信息中的实际物理位置关系 Alta Vis
47、ta: near (10个单词)个单词) 优先算符优先算符 优先算符,即括号(优先算符,即括号( ),), 格式:(检索词格式:(检索词) 功能:控制逻辑算式中的优先次序,使括号中的表达功能:控制逻辑算式中的优先次序,使括号中的表达 式先执行。式先执行。 Microsoft or Intel and IBMn 限定查找的起止日期限定查找的起止日期n 在高级检索中,利用文本框在高级检索中,利用文本框下面的日期输入框(一般为下面的日期输入框(一般为FromFrom:ToTo:):)n 控制检索结果的排序控制检索结果的排序n 在高级检索中,只要在文本在高级检索中,只要在文本框下的排序(框下的排序(R
48、ankingRanking、Sort bySort by:等)等)框中输入有关的词语,框中输入有关的词语, 即可对检索获得即可对检索获得的结果进行排序控制,使之按照输入的的结果进行排序控制,使之按照输入的词语排序。词语排序。(3 3)限制检索)限制检索 限限制制检检索索指指缩缩小小和和限限定定搜搜索索引引擎擎的的搜搜索索范范围围,允允许许搜搜索索引引擎擎只只在在网网页页的的某某一一种种元元素素中中,如如标标题题、链链接接、URL等等查查找找结结果果。限限制制检检索索使使检检索索提提问问更更具具体体、准准确确。图图6-1是是Hotpot限制检索的菜单示例限制检索的菜单示例。 主要的限制检索命令:
49、主要的限制检索命令: 搜索标题搜索标题格式:格式:title:text或或t:text (注:注:text指文本文字)指文本文字)功能:检索网页标题中含有指定字或词组的页面功能:检索网页标题中含有指定字或词组的页面示例:示例:title:survey,检索网页标题中含有检索网页标题中含有survey这个单词这个单词 的所有页面。的所有页面。 搜索网站搜索网站格式:格式:domain: domain name 或或host:name 或或site: domain name功能:检索词必须出现在域名、主机名或主机地址中功能:检索词必须出现在域名、主机名或主机地址中示例:示例:domain:UK,检
50、索英国(检索英国(United Kingdom)的网页;的网页; domain:com,检索所有检索所有com网站。网站。 搜索搜索URL格式:格式:url:text或或u:text功能:检索整个功能:检索整个URL中含有指定的字或词组的所有页面。中含有指定的字或词组的所有页面。示例:如果你不知道示例:如果你不知道Intel公司的网址,可通过公司的网址,可通过url:intel查查 询。询。 搜索链接搜索链接格式:格式:link:URL功能:检索与指定功能:检索与指定URL相链接的所有页面。相链接的所有页面。示例:要查询链接到易富网站的所有页面,可使用示例:要查询链接到易富网站的所有页面,可使
51、用 link:查找。查找。 搜索图片、图像搜索图片、图像格式:格式:image:文件名文件名功能:检索含有指定文件名图像的所有网页。功能:检索含有指定文件名图像的所有网页。示例:要检索含有示例:要检索含有“日出日出”图像的所有网页,使用图像的所有网页,使用 images:sunrise查询在具体使用搜索引擎查询时,查询在具体使用搜索引擎查询时, 可参考可参考“Help” 搜索多媒体信息搜索多媒体信息格式:格式:media:text功能:检索文件的名字中含有指定文字的多媒体信息功能:检索文件的名字中含有指定文字的多媒体信息示例:要检索取名为(或名字中含有)示例:要检索取名为(或名字中含有)clo
52、ud的图像、声的图像、声 音音或或录录像像,可可使使用用media:cloud查查询询。在在具具体体使使用用时时,还需参考还需参考“Help”等等。等等。(4 4)特殊检索技术)特殊检索技术 在在简简单单搜搜索索和和复复杂杂搜搜索索过过程程中中还还有有一一些些技技术术也也是是帮帮助助搜索的利器,搜索的利器, 词间空格词间空格 检索词之间的空格在不同的搜索引擎中有不同的定义。检索词之间的空格在不同的搜索引擎中有不同的定义。 Google Baidu: 与,与,AltaVista: 或或 区分首字母大小写(即区分首字母大小写(即case-sensitive,大小写敏感性)大小写敏感性) 首首字字母
53、母大大写写,指指检检索索词词的的第第一一个个字字母母大大写写;首首字字母母小小写写,指指检检索索词词的的第第一一个个字字母母小小写写。它它主主要要是是针针对对检检索索词词中中含含有有人人名名、地地名名等等专专有有名名词词而而言言的的。在在区区分分大大小小写写的的情情况况下下,首首字字母母大大写写,检检索索词词被被当当作作专专有有名名词词看看待待(如如Internet专专指指因特网),可提高检索的准确性;因特网),可提高检索的准确性;google 不敏感不敏感n 自然语言检索自然语言检索n 即直接采用自然语言中的字、词或句即直接采用自然语言中的字、词或句子作提问式进行检索,同一般口语一样。子作提
54、问式进行检索,同一般口语一样。如如“What is WTO?”或或“Who is Clinton?”以这样的自然语言表达式充当检索提问以这样的自然语言表达式充当检索提问式。式。n 多语种检索多语种检索n 即提供多种语言环境供检索者使用,即提供多种语言环境供检索者使用,检索者可根据自己的需要选择一种语言,检索者可根据自己的需要选择一种语言,系统会按指定的语种进行检索并输出检系统会按指定的语种进行检索并输出检索结果。索结果。 搜索结果去重搜索结果去重 在在网网络络搜搜索索中中,有有时时你你会会发发现现搜搜索索结结果果的的前前几几位位似似乎乎都都来来自自同同一一个个网网站站。这这时时你你可可以以使使
55、用用搜搜索索结结果果重重组组功功能能,避免这种情况的出现。避免这种情况的出现。 搜搜索索结结果果去去重重功功能能是是指指一一个个网网站站最最多多只只能能有有一一页页出出现现在在排排名名靠靠前前的的搜搜索索结结果果中中,以以保保证证搜搜索索的的质质量量,同同时时给给用用户更多更好的选择搜索结果的机会。户更多更好的选择搜索结果的机会。 相关搜索相关搜索 在在搜搜索索信信息息时时,相相关关搜搜索索也也是是非非常常有有用用的的功功能能。相相关关搜搜索索功功能能的的作作用用是是锁锁定定搜搜索索条条件件,并并自自动动列列出出与与检检索索词词相相关的词。关的词。Baidu 相似网页搜索相似网页搜索 有有时时发发现现某某个个搜搜索索结结果果特特别别准准确确,正正是是你你所所需需要要的的。“Find Similar”-相相似似网网页页搜搜索索功功能能可可让让搜搜索索引引擎擎将将与与该该网页相似的网页也罗列出来。网页相似的网页也罗列出来。 Word Stemming搜索搜索 Word Stemming是是截截词词的的一一种种,指指的的是是在在查查询询一一个个关关键键词词的的基基础础上上,查查询询由由此此关关键键词词变变化化而而来来的的其它词。其它词。Eg 同一词根