ETCD服务发现

上传人:De****k 文档编号:61566490 上传时间:2018-12-04 格式:DOCX 页数:10 大小:3.47MB
返回 下载 相关 举报
ETCD服务发现_第1页
第1页 / 共10页
ETCD服务发现_第2页
第2页 / 共10页
ETCD服务发现_第3页
第3页 / 共10页
ETCD服务发现_第4页
第4页 / 共10页
ETCD服务发现_第5页
第5页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《ETCD服务发现》由会员分享,可在线阅读,更多相关《ETCD服务发现(10页珍藏版)》请在金锄头文库上搜索。

1、ETCD服务发现-赵Friday, June 29, 201815:54开始1、Etcd介绍Etcd is a distributed, consistentkey-valuestore forshared configurationandservice discovery是一个分布式的,一致的 key-value 存储,主要用途是共享配置和服务发现。Etcd 已经在很多分布式系统中得到广泛的使用。2、为什么需要 Etcd 所有的分布式系统,都面临的一个问题是多个节点之间的数据共享问题,这个和团队协作的道理是一样的,成员可以分头干活,但总是需要共享一些必须的信息,比如谁是 leader, 都有

2、哪些成员,依赖任务之间的顺序协调等。所以分布式系统要么自己实现一个可靠的共享存储来同步信息(比如 Elasticsearch ),要么依赖一个可靠的共享存储服务,而 Etcd 就是这样一个服务。3、Etcd 提供什么能力Etcd 主要提供以下能力,已经熟悉 Etcd 的读者可以略过本段。1. 提供存储以及获取数据的接口,它通过协议保证 Etcd 集群中的多个节点数据的强一致性。用于存储元信息以及共享配置。2. 提供监听机制,客户端可以监听某个key或者某些key的变更(v2和v3的机制不同,参看后面文章)。用于监听和推送变更。3. 提供key的过期以及续约机制,客户端通过定时刷新来实现续约(v

3、2和v3的实现机制也不一样)。用于集群监控以及服务注册发现。4. 提供原子的CAS(Compare-and-Swap)和 CAD(Compare-and-Delete)支持(v2通过接口参数实现,v3通过批量事务实现)。用于分布式锁以及leader选举。更详细的使用场景不在这里描述,有兴趣的可以参看文末infoq的一篇文章。4、Etcd 如何实现一致性的说到这个就不得不说起raft协议。但这篇文章不是专门分析raft的,篇幅所限,不能详细分析,有兴趣的建议看文末原始论文地址以及raft协议的一个动画。便于看后面的文章,我这里简单做个总结:1. raft通过对不同的场景(选主,日志复制)设计不同

4、的机制,虽然降低了通用性(相对paxos),但同时也降低了复杂度,便于理解和实现。2. raft内置的选主协议是给自己用的,用于选出主节点,理解raft的选主机制的关键在于理解raft的时钟周期以及超时机制。3. 理解 Etcd 的数据同步的关键在于理解raft的日志同步机制。Etcd 实现raft的时候,充分利用了go语言CSP并发模型和chan的魔法,想更进行一步了解的可以去看源码,这里只简单分析下它的wal日志。wal日志是二进制的,解析出来后是以上数据结构LogEntry。其中第一个字段type,只有两种,一种是0表示Normal,1表示ConfChange(ConfChange表示

5、Etcd 本身的配置变更同步,比如有新的节点加入等)。第二个字段是term,每个term代表一个主节点的任期,每次主节点变更term就会变化。第三个字段是index,这个序号是严格有序递增的,代表变更序号。第四个字段是二进制的data,将raft request对象的pb结构整个保存下。Etcd 源码下有个tools/etcd-dump-logs,可以将wal日志dump成文本查看,可以协助分析raft协议。raft协议本身不关心应用数据,也就是data中的部分,一致性都通过同步wal日志来实现,每个节点将从主节点收到的data apply到本地的存储,raft只关心日志的同步状态,如果本地存

6、储实现的有bug,比如没有正确的将data apply到本地,也可能会导致数据不一致。5、Etcd v2 与 v3Etcd v2 和 v3 本质上是共享同一套 raft 协议代码的两个独立的应用,接口不一样,存储不一样,数据互相隔离。也就是说如果从 Etcd v2 升级到 Etcd v3,原来v2 的数据还是只能用 v2 的接口访问,v3 的接口创建的数据也只能访问通过 v3 的接口访问。所以我们按照 v2 和 v3 分别分析。Etcd v2 存储,Watch以及过期机制Etcd v2 是个纯内存的实现,并未实时将数据写入到磁盘,持久化机制很简单,就是将store整合序列化成json写入文件。

7、数据在内存中是一个简单的树结构。比如以下数据存储到 Etcd 中的结构就如图所示。/nodes/1/name node1 /nodes/1/ip 192.168.1.1 store中有一个全局的currentIndex,每次变更,index会加1.然后每个event都会关联到currentIndex.当客户端调用watch接口(参数中增加 wait参数)时,如果请求参数中有waitIndex,并且waitIndex 小于 currentIndex,则从 EventHistroy 表中查询index小于等于waitIndex,并且和watch key 匹配的 event,如果有数据,则直接返回。

8、如果历史表中没有或者请求没有带 waitIndex,则放入WatchHub中,每个key会关联一个watcher列表。 当有变更操作时,变更生成的event会放入EventHistroy表中,同时通知和该key相关的watcher。这里有几个影响使用的细节问题:1. EventHistroy 是有长度限制的,最长1000。也就是说,如果你的客户端停了许久,然后重新watch的时候,可能和该waitIndex相关的event已经被淘汰了,这种情况下会丢失变更。2. 如果通知watch的时候,出现了阻塞(每个watch的channel有100个缓冲空间),Etcd 会直接把watcher删除,也就

9、是会导致wait请求的连接中断,客户端需要重新连接。3. Etcd store的每个node中都保存了过期时间,通过定时机制进行清理。从而可以看出,Etcd v2 的一些限制:1. 过期时间只能设置到每个key上,如果多个key要保证生命周期一致则比较困难。2. watch只能watch某一个key以及其子节点(通过参数 recursive),不能进行多个watch。3. 很难通过watch机制来实现完整的数据同步(有丢失变更的风险),所以当前的大多数使用方式是通过watch得知变更,然后通过get重新获取数据,并不完全依赖于watch的变更event。5、Etcd v3 存储,Watch以及

10、过期机制Etcd v3 将watch和store拆开实现,我们先分析下store的实现。Etcd v3 store 分为两部分,一部分是内存中的索引,kvindex,是基于google开源的一个golang的btree实现的,另外一部分是后端存储。按照它的设计,backend可以对接多种存储,当前使用的boltdb。boltdb是一个单机的支持事务的kv存储,Etcd 的事务是基于boltdb的事务实现的。Etcd 在boltdb中存储的key是reversion,value是 Etcd 自己的key-value组合,也就是说 Etcd 会在boltdb中把每个版本都保存下,从而实现了多版本机

11、制。举个例子: 用etcdctl通过批量接口写入两条记录:etcdctl txn put key1 v1 put key2 v2 再通过批量接口更新这两条记录:etcdctl txn put key1 v12 put key2 v22 boltdb中其实有了4条数据:rev=3 0, key=key1, value=v1 rev=3 1, key=key2, value=v2 rev=4 0, key=key1, value=v12 rev=4 1, key=key2, value=v22 reversion主要由两部分组成,第一部分main rev,每次事务进行加一,第二部分sub rev,

12、同一个事务中的每次操作加一。如上示例,第一次操作的main rev是3,第二次是4。当然这种机制大家想到的第一个问题就是空间问题,所以 Etcd 提供了命令和设置选项来控制compact,同时支持put操作的参数来精确控制某个key的历史版本数。了解了 Etcd 的磁盘存储,可以看出如果要从boltdb中查询数据,必须通过reversion,但客户端都是通过key来查询value,所以 Etcd 的内存kvindex保存的就是key和reversion之前的映射关系,用来加速查询。然后我们再分析下watch机制的实现。Etcd v3 的watch机制支持watch某个固定的key,也支持wat

13、ch一个范围(可以用于模拟目录的结构的watch),所以 watchGroup 包含两种watcher,一种是 key watchers,数据结构是每个key对应一组watcher,另外一种是 range watchers, 数据结构是一个 IntervalTree(不熟悉的参看文文末链接),方便通过区间查找到对应的watcher。同时,每个 WatchableStore 包含两种 watcherGroup,一种是synced,一种是unsynced,前者表示该group的watcher数据都已经同步完毕,在等待新的变更,后者表示该group的watcher数据同步落后于当前最新变更,还在追赶

14、。当 Etcd 收到客户端的watch请求,如果请求携带了revision参数,则比较请求的revision和store当前的revision,如果大于当前revision,则放入synced组中,否则放入unsynced组。同时 Etcd 会启动一个后台的goroutine持续同步unsynced的watcher,然后将其迁移到synced组。也就是这种机制下,Etcd v3 支持从任意版本开始watch,没有v2的1000条历史event表限制的问题(当然这是指没有compact的情况下)。另外我们前面提到的,Etcd v2在通知客户端时,如果网络不好或者客户端读取比较慢,发生了阻塞,则会

15、直接关闭当前连接,客户端需要重新发起请求。Etcd v3为了解决这个问题,专门维护了一个推送时阻塞的watcher队列,在另外的goroutine里进行重试。Etcd v3 对过期机制也做了改进,过期时间设置在lease上,然后key和lease关联。这样可以实现多个key关联同一个lease id,方便设置统一的过期时间,以及实现批量续约。相比Etcd v2, Etcd v3的一些主要变化:1. 接口通过grpc提供rpc接口,放弃了v2的http接口。优势是长连接效率提升明显,缺点是使用不如以前方便,尤其对不方便维护长连接的场景。2. 废弃了原来的目录结构,变成了纯粹的kv,用户可以通过前缀匹配模式模拟目录。3. 内存中不再保存value,同样的内存可以支持存储更多的key。4. watch机制更稳定,基本上可以通过watch机制实现数据的完全同步。5. 提供了批量操作以及事务机制,用户可以通过批量事务请求来实现Etcd v2的CAS机制(批量事务支持if条件判断)。7、Etcd,Zookeeper,Consul 比较这三个产品是经常被人拿来做选型比较的。 Etcd 和 Zookeeper 提供的能力非常相似,都是通用的一致性元信息存储,都提供watch机制用于变更通知和分发,也都被分布式系统用来作为共享信息存储,在软件生态中所处的位置也几乎是一样的,可以互相替代的。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号