云计算框架Hadoop之源码分析

资源描述

《云计算框架Hadoop之源码分析》由会员分享，可在线阅读，更多相关《云计算框架Hadoop之源码分析（83页珍藏版）》请在金锄头文库上搜索。

1、 HadoopHadoop 源代码分析一源代码分析一关键字分布式云计算 Google 的核心竞争技术是它的计算平台 Google 的大牛们用了下面 5 篇文章介绍了它们的计算设施 GoogleCluster Chubby GFS BigTable MapReduce 很快 Apache 上就出现了一个类似的解决方案目前它们都属于 Apache 的 Hadoop 项目对应的分别是 Chubby ZooKeeper GFS HDFS BigTable HBase MapReduce Hadoop 目前基于类似思想的 Open Source 项目还很多如 Facebook 用于

2、用户分析的 Hive HDFS 作为一个分布式文件系统是所有这些项目的基础分析好 HDFS 有利于了解其他系统由于 Hadoop 的 HDFS 和 MapReduce 是同一个项目我们就把他们放在一块进行分析下图是 MapReduce 整个项目的顶层包图和他们的依赖关系 Hadoop 包之间的依赖关系比较复杂原因是 HDFS 提供了一个分布式文件系统该系统提供 API 可以屏蔽本地文件系统和分布式文件系统甚至象 Amazon S3 这样的在线存储系统这就造成了分布式文件系统的实现或者是分布式文件系统的底层的实现依赖于某些貌似高层的功能功能的相互引用造成了蜘蛛网

3、型的依赖关系一个典型的例子就是包 conf conf 用于读取系统配置它依赖于 fs 主要是读取配置文件的时候需要使用文件系统而部分的文件系统的功能在包 fs 中被抽象了 Hadoop 的关键部分集中于图中蓝色部分这也是我们考察的重点 HadoopHadoop 源代码分析二源代码分析二下面给出了 Hadoop 的包的功能分析 Package Dependences tool 提供一些命令行工具如 DistCp archive mapreduce Hadoop 的 Map Reduce 实现 filecache 提供 HDFS 文件的本地缓存用于加快 Map Reduc

4、e 的数据访问速度 fs 文件系统的抽象可以理解为支持多种文件系统实现的统一文件访问接口 hdfs HDFS Hadoop 的分布式文件系统实现 ipc 一个简单的 IPC 的实现依赖于 io 提供的编解码功能参考 io 表示层将各种数据编码解码方便于在网络上传输 net 封装部分网络功能如 DNS socket security 用户和用户组信息 conf 系统的配置参数 metrics 系统统计数据的收集属于网管范畴 util 工具类 record 根据 DDL 数据描述语言自动生成他们的编解码函数目前可以提供 C 和 Java http 基于 Jetty 的 H

5、TTP Servlet 用户通过浏览器可以观察文件系统的一些状态信息和日志 log 提供 HTTP 访问日志的 HTTP Servlet H Hadoopadoop 源代码分析三源代码分析三由于 Hadoop 的 MapReduce 和 HDFS 都有通信的需求需要对通信的对象进行序列化 Hadoop 并没有采用 Java 的序列化而是引入了它自己的系统 org apache hadoop io 中定义了大量的可序列化对象他们都实现了 Writable 接口实现了 Writable 接口的一个典型例子如下 Java 代码 1 public class MyWritable

6、 implements Writable 2 Some data 3 private int counter 4 private long timestamp 5 6 public void write DataOutput out throws IOException 7 out writeInt counter 8 out writeLong timestamp 9 10 11 public void readFields DataInput in throws IOException 12 counter in readInt 13 timestamp in readLong 14 15

7、 16 public static MyWritable read DataInput in throws IOException 17 MyWritable w new MyWritable 18 w readFields in 19 return w 20 21 其中的 write 和 readFields 分别实现了把对象序列化和反序列化的功能是 Writable 接口定义的两个方法下图给出了庞大的 org apache hadoop io 中对象的关系这里我把 ObjectWritable 标为红色是因为相对于其他对象它有不同的地位当我们讨论 Hadoop 的 RPC

8、时我们会提到 RPC 上交换的信息必须是 Java 的基本类型 String 和 Writable 接口的实现类以及元素为以上类型的数组 ObjectWritable 对象保存了一个可以在 RPC 上传输的对象和对象的类型信息这样我们就有了一个万能的可以用于客户端服务器间传输的 Writable 对象例如我们要把上面例子中的对象作为 RPC 请求需要根据 MyWritable 创建一个 ObjectWritable ObjectWritable 往流里会写如下信息对象类名长度对象类名对象自己的串行化结果这样到了对端 ObjectWritable 可以根据对象类名创

9、建对应的对象并解串行应该注意到 ObjectWritable 依赖于 WritableFactories 那存储了 Writable 子类对应的工厂我们需要把 MyWritable 的工厂保存在 WritableFactories 中通过 WritableFactories setFactory HadoopHadoop 源代码分析五源代码分析五介绍完 org apache hadoop io 以后我们开始来分析 org apache hadoop rpc RPC 采用客户机服务器模式请求程序就是一个客户机而服务提供程序就是一个服务器当我们讨论 HDFS 的通

10、信可能发生在 Client NameNode 之间其中 NameNode 是服务器 Client DataNode 之间其中 DataNode 是服务器 DataNode NameNode 之间其中 NameNode 是服务器 DataNode DateNode 之间其中某一个 DateNode 是服务器另一个是客户端如果我们考虑 Hadoop 的 Map Reduce 以后这些系统间的通信就更复杂了为了解决这些客户机服务器之间的通信 Hadoop 引入了一个 RPC 框架该 RPC 框架利用的 Java 的反射能力避免了某些 RPC 解决方案中需要根据某种接口语言如

11、CORBA 的 IDL 生成存根和框架的问题但是该 RPC 框架要求调用的参数和返回结果必须是 Java 的基本类型 String 和 Writable 接口的实现类以及元素为以上类型的数组同时接口方法应该只抛出 IOException 异常参考自既然是 RPC 当然就有客户端和服务器当然 org apache hadoop rpc 也就有了类 Client 和类 Server 但是类 Server 是一个抽象类类 RPC 封装了 Server 利用反射把某个对象的方法开放出来变成 RPC 中的服务器下图是 org apache hadoop rpc 的类图 Had

12、oopHadoop 源代码分析六源代码分析六既然是 RPC 自然就有客户端和服务器当然 org apache hadoop rpc 也就有了类 Client 和类 Server 在这里我们来仔细考察 org apache hadoop rpc Client 下面的图包含了 org apache hadoop rpc Client 中的关键类和关键方法由于 Client 可能和多个 Server 通信典型的一次 HDFS 读需要和 NameNode 打交道也需要和某个某些 DataNode 通信这就意味着某一个 Client 需要维护多个连接同时为了减少不必要的连接

13、现在 Client 的做法是拿 ConnectionId 图中最右侧来做为 Connection 的 ID ConnectionId 包括一个 InetSocketAddress IP 地址端口号或主机名端口号对象和一个用户信息对象这就是说同一个用户到同一个 InetSocketAddress 的通信将共享同一个连接连接被封装在类 Client Connection 中所有的 RPC 调用都是通过 Connection 进行通信一个 RPC 调用自然有输入参数输出参数和可能的异常同时为了区分在同一个 Connection 上的不同调用每个调用都有唯一的 id

14、调用是否结束也需要一个标记所有的这些都体现在对象 Client Call 中 Connection 对象通过一个 Hash 表维护在这个连接上的所有 Call Java 代码 1 private Hashtable calls new Hashtable 一个 RPC 调用通过 addCall 把请求加到 Connection 里为了能够在这个框架上传输 Java 的基本类型 String 和 Writable 接口的实现类以及元素为以上类型的数组我们一般把 Call 需要的参数打包成为 ObjectWritable 对象 Client Connection 会通过 socke

15、t 连接服务器连接成功后回校验客户端服务器的版本号 Client ConnectionwriteHeader 方法校验成功后就可以通过 Writable 对象来进行请求的发送应答了注意每个 Client Connection 会起一个线程不断去读取 socket 并将收到的结果解包找出对应的 Call 设置 Call 并通知结果已经获取 Call 使用 Obejct 的 wait 和 notify 把 RPC 上的异步消息交互转成同步调用还有一点需要注意一个 Client 会有多个 Client Connection 这是一个很自然的结果 HadoopHadoop 源代码

16、分析七源代码分析七聊完了 Client 聊 Server 按惯例先把类图贴出来需要注意的是这里的 Server 类是个抽象类唯一抽象的地方就是 Java 代码 1 public abstract Writable call Writable param long receiveTime throws IOException 这表明 Server 提供了一个架子 Server 的具体功能需要具体类来完成而具体类当然就是实现 call 方法我们先来分析 Server Call 和 Client Call 类似 Server Call 包含了一次请求其中 id 和 param 的含义和 Client Call 是一致的不同点在后面三个属性 connection 是该 Call 来自的连接当然当请求处理结束时相应的结果会通过相同的 connection 发送给客户端属性 timestamp 是请求到达的时间戳如果请求很长时间没被处理对应的连接会被关闭客户端也就知道出错了最后的 response 是请求处理的结果可能是一个 Writable 的串

展开阅读全文