Web技术与网络信息搜索.ppt

资源描述

《Web技术与网络信息搜索.ppt》由会员分享，可在线阅读，更多相关《Web技术与网络信息搜索.ppt（53页珍藏版）》请在金锄头文库上搜索。

1、自我介绍姓名：张浩平办公室：0248手机：13851500344E-mail：QQ：1296014857教材：Internet应用技术与实践共享邮箱： nl_ 中的网盘密码：xinxixueyuan应用篇应用篇第六章 Web技术与网络信息搜索第七章网页设计基础第八章网络通信与交流第九章电子商务第十章网络多媒体应用第十一章移动互联网应用第六章第六章 WebWeb技术与网络信息搜索技术与网络信息搜索6.1 WWW概述6.2 HTTP协议6.3 WWW浏览器6.4 网络信息资源概述6.5 网络信息检索6.6 搜索引擎6.7 文件传输6.8 Web数据挖掘技术6.1 WWW6.1 WWW概述概

2、述 6.1.1 WWW 6.1.1 WWW 6.1.1 WWW 6.1.1 WWW的产生的产生的产生的产生随着互联网的迅猛发展，如何在海量的网络信息中搜索所需要的信息，成为一个急需解决的问题。Gopher 是20世纪90年代初期常用的信息检索系统，它提供了一种向文件和菜单中添加链接菜单的方法。通过这些菜单可利用互联网从其他计算机系统获取文件或抓取新的链接菜单。 www是万维网万维网（World Wide Web）的简称，web的本意是蜘蛛网或网的意思，因此，www又称为“环球网”。 Web技术使用了一种被称为 HTML（超文本标记语言）的文件格式，通过“超级链接”从某一页跳到其它页，“超链

3、接”将分布在网络各处的信息连在一起，形成巨大的WWW，使得互联网成为一片能自由航行的信息海洋。 1990年Web浏览器和Web服务器使用面向对象技术相继在CERN实Berners-Lee 和他的合作伙伴成功引入了构成Web体系结构的基本元素：Web服务器、Web浏览器、浏览器与服务器之间的通信协议HTTPHTTP(Hypertext TransferProtocol 、超文本传输协议)、写Web文档的语言HTMLHTML（Hypertext Markup Language、超文本标记语言)、以及用来标识Web上资源的URLURL（Universal Resource Locator 、统一资源

4、定位器)。 HTMLHTML语言编写网页示例语言编写网页示例（1）用记事本编写如下的文挡：我的第一个 HTML 页面body 元素的内容会显示在浏览器中。title 元素的内容会显示在浏览器的标题栏中。（2）将文档以文件名“myhtml.html”保存。（3）双击myhtml.html文件，在浏览器窗口就可以看到如下内容：6 6 6 6.1.2.1.2.1.2.1.2超文本与超媒体超文本与超媒体超文本与超媒体超文本与超媒体超文本就是一种含有可以链接到其他字段或者文档的超链接的电子文档，通过点击超链接允许从当前阅读位置直接切换到超链接所指向的文挡，这些文档可以在本机，也可以在网络中的其它主机中

5、。超文本通常使用超文本标记语言(Hyper Text Markup Language，HTML)书写，大多数网页都属于超文本。超媒体是超文本和多媒体在信息浏览环境下结合的物，超媒体不仅可以包含文字而且还可以包含图形、图像，动画、声音和电视片断，这些媒体之间也是用超链接连接的。超媒体与超文本的不同之处在于，超文本主要是以文字的形式表示信息，建立的链接关系主要是文句之间的链接关系。6.1.36.1.36.1.36.1.3超文本标记语言（超文本标记语言（超文本标记语言（超文本标记语言（HTMLHTMLHTMLHTML）网络上发布的网页是一种特殊的电子文档，必须要用浏览器打开它，才能够被世界各

6、地的浏览者所阅读，HTML就是万维网上编写超文本的发布语言。 HTML 语言是英文 HyperText Markup Language 的缩写，中文名为超文本标记语言。标记语言是一种基于源代码解释的访问方式，它的源文件由一个纯文本文件组成值得指出的是，HTML语言不是一种程序设计语言，只是一种网页的描述语言。在20世纪90年代WWW刚刚兴起时，多种浏览器同时流行于世界各地，它们支持HTML语言的标准也各不相同，这样限制了HTML标记语言本身的发展。 W3C（万维网联盟），一个负责制订万维网的诸多标准和协议的组织，联手一些较为流行的浏览器开发厂商一同定义了 HTML 标准，并且力推浏览器解释

7、语言和显示方法的统一。 XML（Extensible Markup Language）即可扩展标记语言，它与HTML一样，都是SGML(Standard Generalized Markup Language,标准通用标记语言)。XML与HTML的设计区别是：XML是用来存储数据的，重在数据本身，而HTML是用来定义数据的，重在数据的显示模式。因此，XML不是HTML的替代，而是补充，在大多数 web 应用程序中，XML 用于传输数据，而 HTML 用于格式化并显示数据。6.2 HTTP6.2 HTTP协议协议 Web的应用层协议HTTP是Web的核心。HTTP协议采用客户机/服务器模式，客户

8、机上的浏览器进程通过和服务器进程交换HTTP消息来获得网页资源，HTTP定义这些消息的结构以及交换这些消息的时序。 6.2.1 6.2.1 6.2.1 6.2.1 统一资源定位符统一资源定位符统一资源定位符统一资源定位符统一资源定位符（URL，Uniform / Universal Resource Locator 的缩写）也被称为网页地址，是因特网上标准的资源的地址，给出资源所在的位置。Internet上的每一个网页都具有一个唯一的URL地址，这种地址所标识的资源可以在本机磁盘，也可以在局域网上的某一台计算机上，更多的是在Internet上的某一台网站服务器上。URL地址格式排列为：协议:

9、/主机地址:端口/路径。其中：1.协议：获取服务器上资源所使用的协议，如“http:/”表示WWW资源，“ftp:/”表示FTP资源，“new/:”表示新闻组。2.主机地址：服务器的IP地址或域名。3.端口：服务器进程的TCP端口号，常用的协议都有默认的端口，如HTTP为80，FTP为21，Telnet为23，如果使用的是默认端口号可以省略。4.路径：指明服务器上某资源的位置（结构通常为“目录/子目录/文件名”）。如果是指向服务器的默认网页，则可以省略。例如：http:/http:/ URL是URI命名机制的一个子集，URI（Uniform Resource Identifier）称之为通用资

10、源标志符，用来对Web上可用的每种资源，如HTML文档、图像、视频片段、程序等进行定位。URL则是属于URI标识方法中的一种，也是最常用的方法。6.2.2 HTTP6.2.2 HTTP6.2.2 HTTP6.2.2 HTTP报文报文报文报文 HTTP报文是面向文本的，报文中的每一个字段都是一些ASCII码串，各个字段的长度是不确定的。 HTTP有两类报文：从客户到服务器的请求报文和从服务器到客户的响应报文。每种报文都由五个字段组成，其中第一和第三字段有两种名称，分别用于请求报文或响应报文。第一字段是请求行或状态行。第二字段是通用首部。第三字段是请求首部或响应首部。第四字段是实体首部。第五字

11、段是实体主体。这里的“实体”指的就是报文。上面这五个字段都是完整请求和完整响应的报文结构，其中的实体主体字段是可选的。下面列出请求报文一些常用方法：方法(操作)意义OPTION 请求一些选项的信息GET 请求读取由URI所标识的信息HEAD 请求读取由URI所标识信息的首部POST 给服务器添加信息(例如，注释)PUT 在指明URL下存储一个文档DELETE 删除指明URL所标志的资源TRACE 用来进行回环测试的请求报文CONNECT 用于代理服务器 HTTP/1l规定了在请求报文中的第一个字段是“请求行”。请求行中只有三个内容，即方法，请求资源的URI，以及HTTP的版本。所谓“方法”就

12、是对所请求的对象进行的操作，因此这些方法实际上也就是一些命令。客户端发出请求报文后，服务端返回响应报文，响应报文的第一行就是状态行。状态行包括3项内容，即HTTP的版本，状态码，以及解释状态码的简单短语。状态码都是三位数字的，分为5大类共33种。例如：1xx表示通知信息的，如请求收到了或正在进行处理。2xx表示成功，如接受或知道了。3xx表示重定向，表示要完成请求还必须采取进一步的行动。4xx表示客户的差错，如请求中有错误的语法或不能完成。5xx表示服务器的差错，如服务器失效无法完成请求。下面是一个请求报文的例子：GET /wwwroot/index.htm HTTP/1.1 请求行,GET

13、表示请求读取由URI 所标识的信息Host: 此行是首部行的开始。这行给出主机域名Connection: close 告诉服务器发送完请求的文档后就可释放连接User-Agent: Mozilla/5.0 表明客户端使用何种浏览器Accept-Language: cn 表示用户希望优先得到中文版本的文档请求报文的最后还有一个空行 6.2.3 HTTP6.2.3 HTTP6.2.3 HTTP6.2.3 HTTP通信时序通信时序通信时序通信时序 HTTP协议建立在TCP传输协议之上，HTTP客户首先发起建立与服务器的TCP连接。一旦连接建立，浏览器进程和服务器进程就可以通过TCP进行交互。下

14、面是一个典型的HTTP时序:1. HTTP服务器使用默认端口号80持续监听来自HTTP客户的连接建立请求。2. 客户浏览器进程初始化一个与服务器主机中的HTTP服务进程的TCP连接。3. 浏览器进程经由TCP发出个HTTP请求消息。这个消息中包含所需资源的路径名。4. HTTP服务器接收这个请求消息，再从服务器主机的内存或硬盘中取出资源对象，经由TCP发出包含该对象的响应消息。5. HTTP服务器告知TCP关闭这个TCP连接(不过TCP要到客户收到刚才这个响应消息之后才会真正终止这个连接)。6. HTTP客户接收这个响应消息。TCP连接随后终止。浏览器进程从响应消息中取出资源对象。 HTTP/

15、1.1的默认模式使用带流水线的持久连接，这种情况下，TCP连接建立好以后，HTTP客户可以在不释放TCP连接的情况下，连续发出多个对象的请求。服务器收到这些请求后，也可以连续地发出各个对象。与非持久连接相比，持久连接的效率要高。上面的例子称之为“非持久连接”方式，即每次建立TCP连接后只传递一个对象（如一个jpge格式的图像），而一个网页往往含有多个对象，因此非持久连接方式效率较低。 6.3 WWW6.3 WWW浏览器浏览器6.3.1 6.3.1 6.3.1 6.3.1 浏览器结浏览器结浏览器结浏览器结构构构构浏览器主要由控制模块、HTTP客户端模块和对象解释模块所组成，基本结构如图所示。

16、图62 控制模块是浏览器的核心，负责接受用户键盘输入的信息，并控制和协调各模块的工作；HTTP客户程序负责实现HTTP协议的通信功能，按照控制模块的要求从服务器获得HTML文件和各种对象交给解释模块；解释模块解释各种对象（如图像、文字等），并按照HTML文件中规定的格式通过驱动程序显示出来。浏览器缓存的作用是为了加速浏览，浏览器在用户磁盘上对最近请求过的网页进行存储，当访问者再次请求这个页面时，浏览器就可以直接从本地磁盘取出显示，这样就可以加速页面的阅览，缓存的方式节约了网络的资源，提高了网络的效率。浏览器缓存中有一种特殊的文本文件叫做Cookies， Cookies是一种能够让网站服务器

17、把少量数据储存到客户端的硬盘或内存，或是从客户端的硬盘读取数据的一种技术。 6.3.2 IE6.3.2 IE6.3.2 IE6.3.2 IE浏览器的常用设浏览器的常用设浏览器的常用设浏览器的常用设置置置置1. 更改启动IE 浏览器时的默认主页2.临时文件处理 IE在上网的过程中会在系统盘内自动的把浏览过的图片，动画，Cookies文本等数据信息保留在浏览器临时文件夹缓存中，为了提高浏览网页的效率，当用户在IE地址栏输入网址并回车后，IE首先会在IE的临时文件夹中寻找与该网址对应的网页内容，如果找到就把该网页的内容调出，显示在浏览窗口，然后再连接到网站的服务器读取更新的内容，并显示出来。如果找不

18、到，IE才直接去连接服务器，下载服务器上的网页内容。 Internet临时文件选项组里有三个按钮,单击“删除Cookies”可删除缓存中的Cookies，单击“删除文件”可删除临时文件夹的内容。3.设置历史记录的保存时间在IE 浏览器中，用户只要单击工具栏上的“历史”按钮就可查看所有浏览过的网站的记录，可以在“Internet 选项”对话框中设定历史记录的保存时间，这样一段时间后，系统会自动清除这一段时间的历史记录。方法是在“历史记录”选项组的“网页保存在历史记录中的天数”文本框中输入历史记录的保存天数即可。单击“清除历史记录”按钮，可立即清除已有的历史记录。4.进行Internet 安全设置

19、 IE 浏览器中就提供了对Internet 进行安全设置的功能，用户使用它就可以对Internet 进行一些基础的安全设置。5.设置隐私在Internet 浏览过程中，用户要注意保护自己的隐私，对于自己的个人信息不要轻易让他人获得。通过IE 浏览器，用户可以进行隐私保密策略的设置。6.3.3 IE6.3.3 IE6.3.3 IE6.3.3 IE浏览器使用技巧浏览器使用技巧浏览器使用技巧浏览器使用技巧1.1.在计算机上保存完整的网页内容在计算机上保存完整的网页内容在Internet Explorer中，可以通过“文件”下拉菜单的“另存为”一项将当前页面的内容保存到硬盘上，既能以.HTML文档

20、（.HTM/.HTML）或文本文件（.TXT）的格式存盘，又能实现完整网页的保存。2.2.自动完成功能自动完成功能当用户再次浏览以前曾经浏览过的网站时，只需输入网址的前几个字符，系统就会自动补齐后面的字符。自动完成功能同时还具有表单的自动填充功能、表单的用户名和密码自动保存功能等其他功能。6.3.4 IE6.3.4 IE浏览器安全常浏览器安全常识识 1.浏览器安全隐患（1）病毒（2）漏洞（3）流氓工具2.浏览器安全管理将“Internet区域的安全级别”的默认级别由“中”改为“高”，或者点击“自定义级别”按钮，在弹出“安全设置”对话框，把其中所有ActiveX插件和控件以及与Java相关全

21、部选项选择“禁用”就可以大大减少被网页恶意代码感染的几率。但是，这样做在以后的网页浏览过程中有可能会使一些正常应用ActiveX的网站无法浏览。另外，一定要在计算机上安装杀毒软件和网络防火墙，并要时刻打开“实时监控功能”。6.46.4网络信息资源概述网络信息资源概述网络信息资源就是指可以通过计算机网络获得的各种信息资源的总和。具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在网络中的计算机的存储介质上，通过网络通信获得、并能够在计算机或终端等设备上再现出来的资源。 1.存储数字化2.表现形式多样化 3.以网络为传播媒介4.数量巨大，增长迅速5.信息源复杂 6.结构复

22、杂、分布广泛7. 无序性，不稳定性6.4.1 6.4.1 6.4.1 6.4.1 网络信息资源的概念网络信息资源的概念网络信息资源的概念网络信息资源的概念 6.4.2 6.4.2 6.4.2 6.4.2 网络信息资源的特点网络信息资源的特点网络信息资源的特点网络信息资源的特点信息分类包含内容举例娱乐休闲影视、音乐、游戏、交友工商经济公司、金融投资、商业贸易体育与健身球类、棋牌、健身、气功文学小说、记实传记、外国文学卫生与健康医学、保健养生、疾病治疗国家与地区外国、北京、澳门、台湾计算机与互联网互联网、软件、免费资源新闻与媒体报纸、杂志、标题新闻艺术摄影、绘画、表演艺术教育国内院校、考试、中小

23、学教育生活服务饮食、购物、租赁、天气社会与文化婚恋、民俗神话、人物社会科学经济学、哲学、高教、心理学综合参考百科全书、辞典/字典/年鉴/年刊科学与技术工程、天文学、科技期刊旅游与交通景点、交通、旅游线路政治与法律政府、法律、军事外交个人主页娱乐、电脑、情感6.4.3 6.4.3 网络信息网络信息资源的资源的类型类型6.5 6.5 网络信息检索网络信息检索6.5.1 6.5.1 6.5.1 6.5.1 网络信息检索方法网络信息检索方法网络信息检索方法网络信息检索方法要在因特网上获取信息，用户要找到提供信息源的服务器。首先以找到服务器在网上的地址（URL）为目标，再通过该地址去访问服务器提供的

24、信息。一般的信息检索的方法有：1.随意浏览3.利用搜索引擎2.利用网络资源指南6.5.2 6.5.2 6.5.2 6.5.2 网络信息检索的特点网络信息检索的特点网络信息检索的特点网络信息检索的特点因特网检索与传统的文献检索大不相同，其特点主要表现为：（1）信息检索空间巨大（2）良好的反馈能力和快速响应能力（3）交互式作业方式（4）用户界面友好且操作方便6.5.3 6.5.3 6.5.3 6.5.3 网络信息检索存在的问题网络信息检索存在的问题网络信息检索存在的问题网络信息检索存在的问题（4）多媒体搜索效果不理想（3）冗余信息过多（2）查全率不高（1）查准率不高6.66.6搜索引擎搜索引擎搜

25、索引擎的是指自动从Internet搜集信息，经过一定整理以后，提供给用户进行查询的系统。6.6.16.6.16.6.16.6.1搜索引擎的分类搜索引擎的分类搜索引擎的分类搜索引擎的分类基于“全文检索”的搜索引擎。目录索引非主流搜索引擎元搜索引擎；集成搜索引擎；免费链接列表；开放式分类目录（ODP）； 6.6.26.6.26.6.26.6.2搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理搜索引擎的自动信息搜集功能分两种：一种是自动搜索，另一种是提交网站搜索。一般搜索引擎定期的对因特网进行搜索，即每隔一段时间，搜索引擎采用一种称之为“蜘蛛”的搜索程序，对一定

26、IP地址范围内的因特网的网站进行搜索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。蜘蛛程序（Spider），也称为网络爬虫，是一个自动提取网页的程序，是搜索引擎的重要组成部分。对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接广度和链接深度。抓取网页的方法有广度优先和深度优先两个策略，广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其

27、抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易实现。PageRank 算法（1）如果一个页面被许多其他页面引用，则这个页面很可能就是重要页面;（2）如果一个页面尽管没有被多次引用，但被一个重要页面引用，那么这个页面很可能也是重要页面;（3）一个页面的重要性被均分并将传递到它所引用的页面中。其中页面的重要程度量化后的分数就是 PageRank 值（简称PR值）。搜索引擎的网站信息来源的另一条途径是由网站拥有者主动向搜索引擎提交网址，搜索引擎将主动提交的网址放入搜索引擎数

28、据库，在一定时间内定向向该网站进行扫描，并将有关信息存入数据库，以备用户查询。 6.6.36.6.36.6.36.6.3搜索引擎优化搜索引擎优化搜索引擎优化搜索引擎优化搜索引擎优化（Search Engine Optimization），简称SEO，是指通过采用易于搜索引擎索引的合理手段，使网站各项基本要素适合搜索引擎的检索原则，从而更容易被搜索引擎收录及优先排序。通常采用的方法是：通过总结搜索引擎的排名规律，对网站进行合理优化，使网站在搜索引擎的排名提高，并且返回的检索信息让用户看起来有吸引力，让网站在行业内占据领先地位，从而获得品牌收益。站外SEO 其目的是尽可能地增加外部网站对本网站

29、的超链接数目，特别是一些重要网站对本网站的链接，以影响搜索引擎排名。最有用、功能最强大的外部网站因素就是反向链接，又称为外部链接，所谓反向链接就是采用各种手段，使其它外部网站增加对本网站的链接。站内SEO 是建立在搜索引擎技术的基础上实现站内优化的方法。其实现的途径有丰富网站关键词、实现主题网站、增强网站设计、加强网站与网站的内部链接、进行有规律的更新、实现有效的汇出链接等。 FTP 是File Transfer Protocol（文件传输协议）的英文简称，而中文简称为“文件传输协议”。用于Internet上的控制文件的双向传输。 FTP的主要作用就是让用户连接上一个远程计算机（这些计算机上

30、运行着FTP服务器程序），察看远程计算机有哪些文件，然后把文件从远程计算机上拷到本地计算机，或把本地计算机的文件送到远程计算机去。6.7 6.7 文件传输文件传输6.7.1 FTP6.7.1 FTP6.7.1 FTP6.7.1 FTP概述文件传输概述文件传输概述文件传输概述文件传输6.7.2 FTP6.7.2 FTP6.7.2 FTP6.7.2 FTP工作原理工作原理工作原理工作原理 FTP是基于客户/服务器模型工作的。 FTP在传输文件时，要在客户程序和服务程序之间建立两个TCP连接，一个是Control connection （控制连接）：另一个是Data connection（数据连接）

31、。文件传输不仅提供本地机从远程机拷贝文件，即从远程计算机上传输文件到本地机上，有时还提供反向的文件传输操作，即从本地机上传输文件到远程机上。前者称为下载（download）文件，后者则称为上载（upload）文件。一般来说，一次完整的文件传输过程遵循以下几个基本步骤： 1.启动FTP；2.登录； 3.确定目录位置；4.定义文件传输模式；5.开始数据传输；6.结束数据传输；7.关闭连接； 8.退出FTP。 ftp所传输的文件一般是2 种模式：文本模式和二进制模式。ftp是建立在传输层TCP 协议之上，TCP 是面向连接的协议，负责保证数据从源计算机到目的计算机的传输。TCP 采用校验、确认接

32、收和超时重传等一系列措施提供可靠的传输，所以FTP是一种高可靠性的文件传输协议。6.7.3 FTP6.7.3 FTP6.7.3 FTP6.7.3 FTP文件传输协议文件传输协议文件传输协议文件传输协议 FTP协议中，控制连接均由客户端发起，而数据连接有两种工作方式：PORT方式和PASV方式。 FTP 客户端首先和FTP服务端应用程序的TCP 21端口建立连接，通过这个通道发送命令，客户端需要接收数据的时候在这个通道上发送PORT命令。PORT命令包含了客户端用什么端口(一个大于1024的端口)接收数据。在传送数据的时候，服务器端通过自己的TCP 20端口发送数据。FTP 服务端应用程序必须和

33、客户端建立一个新的连接用来传送数据。 PORT模式(主动方式) 在建立控制通道的时候和PORT模式类似，当客户端通过这个通道发送PASV 命令的时候，FTP服务端应用程序打开一个大于1024的随机端口，并且通知客户端在这个端口上传送数据的请求，然后FTP服务端应用程序将通过这个端口进行数据的传送，这个时候FTP服务端应用程序不再需要建立一个新的和客户端之间的连接传送数据。 PASVPASVPASVPASV模式模式模式模式( ( ( (被动方式被动方式被动方式被动方式) ) ) )6.7.4 FTP6.7.4 FTP6.7.4 FTP6.7.4 FTP操作操作操作操作 FTP的操作可以通过FTP

34、软件，DOS方式，IE浏览器等方式进行，其中，浏览器方式比较简单，只需在地址栏里输入“ftp:/FTP网站的域名或IP地址”即可（如：ftp:/202.119.208.99/），如果需要用户名和密码，则会弹出对话框，如果允许匿名登录，则会在浏览器窗口中直接显示出存储在FTP服务器上的文件名和文件夹，进入FTP共享文件夹，看到需要下载的文件，右击选择“复制”命令，选择本地的一个文件夹，右击选择“粘贴”即可下载该文件或文件夹。如要上传文件，选择需要上传的某一个本地文件，复制该文件，然后在登录的服务器的IE窗体中，右击，选择“粘贴”命令，则出现上传文件传输过程。FTP软件有很多，如：cuteftp,

35、Leapftp,flashFXP等等1、运行CuteFTP，界面如下图打开“FTP站点管理2、FTP站点设置在弹出的站点管理器窗口中点“新建(N.)”就会弹出一个对话框。填写好相应项目就可以连接了。在“站点标签”文本框中输入FTP站点的名称。在“站点地址”文本框中输入站点的地址。在“站点用户名”和“密码”文本框中分别输入登录所需要的用户名和密码如果登录站点不需要密码，则在“注册类型”区域中选择“匿名”单选钮。在“端口”文本框中输入FTP地址的端口，默认值是21。3.上传和下载文件添加了站点之后，在站点管理窗口中选择一个FTP(注意只能选择一个FTP站点)，与之建立连接。连接到服务器以后，

36、CuteFTP的窗口被分成左右两个窗格。左边的窗格显示本地硬盘的文件列表，右边的窗格显示远程硬盘上的文件列表。文件列表的显示方式和Windows的资源管理器完全一样。使用CuteFTP下载或上传文件的具体步骤与方法：1、进入CuteFTP，选择“站点管理”菜单，弹出“站点管理器”窗口。2、选择站点管理器中的一个站点，单击“连接”按钮，登录到FTP服务器上。3、在程序窗口左边的窗格中选择本地硬盘的一个文件夹或者在右边窗格中选择远程硬盘的一个文件夹。4、然后点击工具栏中的上传或下载图标，即可达到上传和下载的目的。5、下载完成以后，在工具栏上单击“断开连接”按钮。6.8 Web6.8 Web数据挖掘

37、技术数据挖掘技术6.8.1 6.8.1 6.8.1 6.8.1 数据挖掘技术数据挖掘技术数据挖掘技术数据挖掘技术数据挖掘技术是在统计学、人工智能（特别是机器学习）和数据库技术等多种技术的基础上发展起来的。数据挖掘强调的是大数据量和算法的可伸缩性，它是一门很接近实用的学科，一出现就被许多部门所应用。由于它的实用性和商业效益，近年来人们研究出许多数据挖掘的新方法，如关联规则发现方法、序列模式挖掘方法、决策树分类方法、贝叶斯分类法、各种聚类方法、Web挖掘等等。6.8.2 Web6.8.2 Web6.8.2 Web6.8.2 Web挖掘技术挖掘技术挖掘技术挖掘技术 Web挖掘是从因特网的Web资源

38、上抽取有用信息或知识的过程，它是将传统的数据挖掘的思想和方法应用于Web。 Web挖掘的有以下几个过程: （1)资源发现。（2)信息选择和预处理。（3)模式发现。（4)模式分析。 6.8.3 Web6.8.3 Web6.8.3 Web6.8.3 Web挖掘技术的应用和发展前景挖掘技术的应用和发展前景挖掘技术的应用和发展前景挖掘技术的应用和发展前景 Web 挖掘在Internet 上有非常广泛的应用,比较常见的有: (1) 帮助搜索用户感兴趣的信息，以在Web 站点中提供个性化服务,吸引更多用户。 (2) 在搜索引擎上对文档进行自动分类，从而减少在搜索引擎上为组织整理Web文档所需花费的人力,

39、也可以对Web 页面进行排序,改进搜索引擎的性能。 (3) Web 日志挖掘在电子商务领域有很广阔的应用前景,如发现顾客的购买习惯和浏览兴趣所在,有针对性调整销售模式,提高业务量。目前，在国内外Web 挖掘的研究处于刚起步阶段，是前沿性的研究领域。将来几个非常有用的研究方向是：（1）Web 数据挖掘中内在机理的研究；（2）Web 知识库（模式库）的动态维护、更新，各种知识和模式的融合、提升，以及知识的评价综合方法；（3）半结构、非结构化的文本数据、图形图像数据、多媒体数据的高效挖掘算法；（4）Web数据挖掘算法在海量数据挖掘时的适应性和时效性；（5）基于Web挖掘的智能搜索引擎的研究；（6）智能站点服务个性化和性能最优化的研究；（7）关联规则和序列模式在构造自组织站点的研究；（8）分类在电子商务市场智能提取中的研究。

展开阅读全文

Web技术与网络信息搜索.ppt

最新文档