http-https协议、内容发布与分发基本机制

资源描述

《http-https协议、内容发布与分发基本机制》由会员分享，可在线阅读，更多相关《http-https协议、内容发布与分发基本机制（14页珍藏版）》请在金锄头文库上搜索。

1、HTTP HTTPS协议、内容发布与分发基本机制1.URI是一类更通用的资源标识符，URL实际上是它的一个子集。URI是一个通用的概念，由两个主要的子集URL和URN构成。URL是通过描述资源的位置来标识资源的，URN是通过名字来标识资源的，与其当前所处位置无关。HTTP规范将更通用的概念URI作为其资源标识符。但实际上HTTP应用程序处理的只是URI的子集URL。2.连接管理：HTTP连接实际上就是TCP连接和一些使用连接的规则。TCP为HTTP 提供了一条可靠的比特传输管道串行连接并行连接持久连接 Keep-alive管道化连接关闭连接3.web服务器服务器应该实现的基本任务：接收客户端连

2、接：处理新连接，识别客户端主机名接收请求报文：从网络连接中中读取请求报文，转换成内部数据结构处理，如字典连接的输入/输出处理结构：单线程web服务器，多进程及多线程web服务器，复用I/O的服务器（同时监听所有连接上的活动，根据状态变化绑定线程和进程），复用的多线程I/O结构web服务器。处理请求：对资源的映射和访问(静态映射访问和动态内容的映射)构建响应：（响应实体，MIME类型，重定向）发送响应：记录事务日志：4.代理：HTTP代理服务器是代表客户端完成事务处理的中间人，既是web服务器，又是web客户端。代理与网关的区别，代理是连接两个或多个使用相同协议的应用程序，而网关连接的是两个

3、或多个使用不同协议的端点，扮演的是协议转换器角色文档访问控制安全防火墙web缓存反向代理：假扮web服务器，被称作替代物或反向代理，接收请求转发给其他服务器的通信，按需定位所请求的内容，提高访问web服务内容的性能内容路由器转码器匿名代理（删除请求身份特性，如user-agent之类的）代理服务器的部署：出口代理访问入口代理反向代理网络交换代理代理如何获取流量的：（使客户端流量流向代理）修改客户端，将客户端配置为使用代理服务器:手工配置pac文件：小型的javascript文件，可以再运行过程中计算代理设置，是一种更动态的代理配置解决方案。访问每个文档时，js函数都会选择恰当的代理服务器。W

4、PAD协议：WPAD协议的算法会使用发现机制的逐级上升策略自动为浏览器查找合适的PAC 文件。修改网络基础设施上的交换设备及路由设备，对HTTP流量进行拦截，导入一个代理（这种代理称为拦截代理）修改DNS的命名空间修改web服务器（重定向到代理上去）Via首部：该字段列出了与报文途径的每个中间节点（代理或网关）有关的信息。报文每经过一个节点，都必须将这个中间节点添加到Via列表的末尾Server响应首部字段对原始服务器使用的软件进行了描述，如果响应报文是代理转发的，一定要确保代理没有修改Server首部TRACE 方法：跟踪经代理链传输的请求报文，观察报文经过了哪些代理，以及每个代理是如何对

5、请求报文进行修改的。TRACE响应的Content-Type为message/http,状态为200 OKMax-Forwards （最大转发次数）首部来限制TRACE和OPTIONS请求所经过的代理跳数缓存：缓存的处理步骤：1.接收：缓存从网络中读取抵达的请求报文2.解析：缓存对报文进行解析，提取首部和URL3.查询：查询是否有本地副本可用，没有，就获取一份副本（并将其保存在本地）4.新鲜度检测：查看已经缓存副本是否足够新鲜，如果不是就询问服务器是否有任何更新5.创建响应：缓存会用新的首部和已缓存的主体来构建一条响应报文6.发送：缓存通过网络将响应发回给客户端7.日志：缓存可选地创建一个

6、日志文件条目来描述这个事务如何保持副本的新鲜：HTTP有一些简单的机制可以在不要求服务器记住有哪些缓存拥有其文档副本的情况下，保持已缓存的数据与服务器的数据之间充分一致。HTTP将这些简单的机制称为文档过期和服务器再验证文档过期：通过特殊的HTTP Cache-Control首部和Expire首部，HTTP让原始服务器向每个文档附加了一个“过期日期”。过期日期首部：Expires 首部 (HTTP/1.0+)Cache-Control : max-age 首部：max-age 最大试用期，第一次生成文档到文档不再新鲜为止，以秒为单位以上两者所做的事情本质上市一样的，但是Cache-Contr

7、ol使用的是相对日期，绝对日期依赖于计算机时钟的正确设置，因此倾向于使用新的Cache-Control首部。缓存只有在文档过期时它才与服务器进行再验证：用条件方法进行再验证：条件请求首部：If-Modified-Since: Date 再验证如果从指定日期之后文档被修改过了，就执行请求的方法，可以与Last-Modified服务器响应首部配合使用If-None-Match：实体标签再验证缓存控制:使用期和新鲜度算法-集成点：网关、隧道及中继网关(gateway)：为了解决单个应用程序无法处理所有这些能想到的资源的问题。开发者提出了网关的概念。网关可以作为某种翻译器使用，它抽象出了一种能

8、够到达资源的方法。网关是资源和应用程序之间的粘合剂。应用程序可以（通过HTTP或其他已定义的接口）请求网关来处理某条请求，网关可以提供一条响应。网关可以向数据库发送查询语句，或者生成动态的内容，就像一个门一样：进去一条请求，出来一个响应。协议网关：HTTP/*:服务器端Web网关，请求流入原始服务器时，服务器端web网关会将客户端HTTP请求转换为其他协议。HTTP/HTTPS:服务器端安全网关HTTPS/HTTP:客户端安全加速器网关，这些网关位于web服务器之前，通常作为不可见的拦截网关或反向代理使用。它们接收完全的HTTPS流量，并对其进行解密，并向web服务器发送普通的HTTPl流量。

9、资源网关：应用程序服务器，是最常见的服务器端网关，会将目标服务器与网关结合在一个服务器中实现，与客户端通过http进行通信，并与服务器端的应用程序相连。应用程序服务器与服务器上的应用程序通过网关应用编程接口相连，例如 wsgi (python web服务器网关接口)CGI：第一个流行的应用程序网关API 就是通用网关接口（Common Gateway Interface CGI），早期的网关接口（CGI）实现过程中，服务器和网关是相互独立的应用程序，因此它们的责任是分得很清楚的，这个简单的协议（输入请求，转交，响应），是最常用服务器扩展接口CGI的本质CGI 应用程序是独立于服务器的

10、，所以可以用任意语言实现。CGI在服务器和众多的资源类型之间提供了一种简单的、函数形式的粘合方式，用来处理各种需要的转换。这个接口还能很好地保护服务器，防止一些糟糕的扩展对它造成的破坏（如果这些扩展直接与服务器相连，造成的错误可能会引发服务器崩溃）但是这种分离会造成性能的崩溃，为每条CGI请求引发一个新进程的开销是很高的，会限制那些使用CGI的服务器的性能，并且会加重服务端机器资源的负担。服务器扩展API，会绑定服务器自身的结构上，如果基于某种协议实现，api才可移植到不同的服务器，如wsgi-HTTP可以作为一种连接应用程序的基础软件来使用，在将应用程序连接起来的过程中，一个更为棘手的问

11、题是在两个应用程序之间进行协议接口的协商，以便应用程序可以进行数据的交换。应用程序之间要配合工作，所要交互的信息比HTTP首部所能表达的信息要复杂得多。web服务 ,就是构建在标准的web技术（比如HTTP）之上的。可以用XML通过SOAP来交换信息。XML 提供了一种创建数据对象的定制信息SOAP 简单对象访问协议，是向HTTP报文中添加XML信息的标准方式-Web机器人：web爬虫：web爬虫是一种机器人，它们会递归地对各种信息性web站点进行遍历，获取第一个页面，然后获取那个页面指向的所有页面，以此类推。递归地追踪这些web链接的机器人会沿着HTML链接创建网络的“爬行”。从根集开始：爬

12、虫开始访问的URL初始集合被称作为根集。HTML的robot-control元标签robot.txt的缺点就是它是web站点管理员所有的，而不是各部分内容的作者所有的，HTML页面的作者有一种更直接的方式可以限制机器人访问那些独立的页面，可以在HTML文档中添加robot-contro元l标签客户端识别与Cookie机制1.http首部（承载用户的相关信息）FromUser-agentReferer2.客户端IP地址（不可靠）3.用户登录（HTTP认证机制）4.胖URL5.cookie(是当前识别用户，保持持久会话的最好方式)cookie的类型：会话cookie 、持久cookie之间的唯一区

13、别在于过期时间cookie的基本思想就是让浏览器积累一组服务器特有的信息，以后每次访问服务器时都将这些信息提供给他。浏览器要负责存储cookie信息cookie的域属性：产生cookie的服务器可以向set-cookie响应首部添加一个Domain属性来控制哪些站点可以看到那个cookie.cookie的路径属性：这个属性列出的URL路径前缀下所有的cookie都是有效的cookie的成分：现在使用的Cooke规范有两个不同的版本，cookies version 0和 cookies version1 ,后者是对前者的扩展，但没有前者应用广泛cookie vesion 0Set-Cookie首

14、部属性，各项用分号隔开NAME=VALUE ,在后继对站点的访问会将其送会给web服务器Expires ,可选，指定一个日期，定义cookie的实际生存期，过期则不在存储或发布这个cookie,不指定，cookie则在用户会话结束时（关闭浏览器）过期Domain, 可选，浏览器只向指定的域中的服务器主机发送cookie,这样服务器就将cookie限制在了特定的域中。如果没有指定，就默认为产生Set-Cookie响应的服务器主机名Path ,可选，可以为服务器上特定的文档分配Cookie，如果Path属性是一个URL 路径前缀，就可以附加一个cookie.如果没有指定路径，就将其设置为产生Set

15、-Cookie响应的URL路径。Secure ，可以，如果包含了这一属性，就只有在http使用SSL安全连接时，才会发送cookieCookie首部：客户端发送请求，会将所有与域、路径和安全过滤器相匹配的未过期Cookie都发送给这个站点，所有的Cookie都被组合到Cookie请求首部字段值中。Cookie version 1这个版本1标准引入了Set-cookie2首部和cookie2首部，但他也能与版本0 进行互操作（详细参考RFC2965）cookie与会话跟踪：可以用cookie在用户与某个web站点进行多项事务处理时对用户进行跟踪。-HTTP基本认证机制（Basic Authentication）HTTP 提供了一

展开阅读全文