iMaster NCE-WAN V100R020C00 可靠性技术白皮书

上传人:添*** 文档编号:189762857 上传时间:2021-08-07 格式:DOC 页数:16 大小:747.59KB
返回 下载 相关 举报
iMaster NCE-WAN V100R020C00 可靠性技术白皮书_第1页
第1页 / 共16页
iMaster NCE-WAN V100R020C00 可靠性技术白皮书_第2页
第2页 / 共16页
iMaster NCE-WAN V100R020C00 可靠性技术白皮书_第3页
第3页 / 共16页
iMaster NCE-WAN V100R020C00 可靠性技术白皮书_第4页
第4页 / 共16页
iMaster NCE-WAN V100R020C00 可靠性技术白皮书_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《iMaster NCE-WAN V100R020C00 可靠性技术白皮书》由会员分享,可在线阅读,更多相关《iMaster NCE-WAN V100R020C00 可靠性技术白皮书(16页珍藏版)》请在金锄头文库上搜索。

1、iMaster NCE-WAN V100R020C00可靠性技术白皮书文档版本01发布日期2019-05-23华为技术有限公司CloudCampusAC-Campus 可靠性技术白皮书目 录目 录1 简介12 前言22.1 大容量高可靠的诉求22.2 大容量高可靠的职责23 软件可用性34 NCE-WAN控制器整体架构与可靠性方案44.1 NCE-WAN控制器分布式架构54.1.1 ACM集群架构64.1.2 ACC集群架构74.2 可靠性方案介绍74.2.1 控制器集群与负载均衡机制74.2.1.1 集群技术74.2.1.2 设备连接负载均衡84.2.2 分布式数据库集群84.2.3 服务节

2、点可靠性部署94.2.4 异地容灾94.2.5 故障预防104.2.5.1 故障信息采集104.2.5.2 健康度检查105 缩略语表/Acronyms and Abbreviations10CloudCampusAC-Campus 可靠性技术白皮书1 简介1 简介关键词:大容量、高可靠、分布式架构摘要:本文从NCE-WAN控制器的发展趋势为切入点,结合大容量高可靠的关键技术架构方案、典型应用场景,从整体架构来介绍华为公司iMaster NCE-WAN控制器(后面统称为NCE-WAN控制器)产品大容量高可靠性的功能与特点,突出产品的独特亮点。最后结合主要应用场景的介绍,重点讲述为客户带来的价值

3、。CloudCampusAC-Campus 可靠性技术白皮书2 前言2 前言随着设备管理规模、租户管理规模增长,传统的单机网管架构已经不能支撑大容量的业务需求。为了解决这些问题,NCE-WAN控制器中引入分布式的架构,负责大规模设备、租户的管理,并提供高可靠性的机制来保证分布式系统的稳定运行。2.1 大容量高可靠的诉求2.2 大容量高可靠的职责2.1 大容量高可靠的诉求随着网络技术的飞速发展,企业网络规模也在不断扩大,大中型企业客户需要管理和维护少则几百台多则上千台的设备,NCE-WAN需要管理很多租户的设备,设备的总规模可达一万台以上,设备上报的性能相关的数据量非常庞大,大容量管理的诉求非常

4、迫切。另一方面,随着企业信息化水平的提升,为了满足用户接入企业网络,通常会把网络铺设到办公区的每个角落。公司内大量流动的办公人员和合作伙伴经常会带着笔记本电脑接入公司的局域网,这将给公司的信息安全带来很大的挑战。2.2 大容量高可靠的职责NCE-WAN通过分布式集群架构帮助企业完成大容量下设备、租户的管理,并提供高可靠性的方案机制来保证系统的稳定运行,主要解决如下大容量高可靠的问题:l 可伸缩的集群以管理不同的在线设备规模,最小集群1万在线设备管理规模;l 可伸缩的集群以管理不同的在线租户规模,最小集群300个最大在线租户帐号管理规模;l 大规模设备上报性能数据的处理。CloudCampusA

5、C-Campus 可靠性技术白皮书3 软件可用性3 软件可用性NCE-WAN平台的软件可用性可达到3个9,即99.9%。l NCE-WAN平台支持冗余部署:云平台支持集群部署,支持异地容灾。l NCE-WAN平台支持故障检测自愈机制。l NCE-WAN平台支持故障预防。文档版本01 (2019-05-23)版权所有 华为技术有限公司4CloudCampusAC-Campus 可靠性技术白皮书5 缩略语表/Acronyms and Abbreviations4 NCE-WAN控制器整体架构与可靠性方案NCE-WAN控制器采用分布式架构来解决大容量高可靠性的架构问题,主要包括设备配置管理节点集群、

6、数据采集节点集群、数据分析存储节点集群、分布式数据库节点集群。下面分别从整体架构以及各类集群的关键机制来介绍NCE-WAN控制器的分布式架构技术方案。4.1 NCE-WAN控制器分布式架构图4-1 分布式架构整体部署视图l 管理的设备类型:路由器AR;l ACM集群:NCE-WAN控制器租户面的管理节点集群,主要租户管理、设备管理、设备监控、设备配置管理、性能告警等;l ACC集群:NCE-WAN控制器大数据采集节点集群,主要包括对设备上的性能、日志、应用分析数据等进行采集和处理;l 分布式数据库:NCE-WAN控制器分布式数据库集群,主要持久化租户面的业务数据;l 分布式缓存:NCE-WAN

7、控制器分布式缓存集群,主要存储一些对性能要求非常高的业务数据,用于提升系统并发性能。4.1.1 ACM集群架构南向设备连接到NCE-WAN控制器ACM集群时先经过软负载节点,由软负载节点进行负载分担后分配到ACM集群中的一个节点;l ACM集群支持不同的在线设备管理规模,最小集群1万在线设备管理规模,集群规模可扩展;l 租户面的业务请求先经过软负载节点,再负载均衡到ACM集群节点上;4.1.2 ACC集群架构l ACM节点通过Netconf下发性能相关数据的订阅配置;l 南向设备连接到NCE-WAN控制器ACC集群;l ACC集群支持南向1万设备的性能数据的上报处理,最小集群1万设备长连接;l

8、 ACC将南向设备上报的数据解析后发送给ACC集群管理进行分析出来。4.2 可靠性方案介绍4.2.1 控制器集群与负载均衡机制4.2.1.1 集群技术NCE-WAN控制器集群节点之间相互独立处理业务,单节点故障后业务可以自动切换到其它节点,控制器集群可以持续正常提供服务。NCE-WAN控制器可靠性是通过集群技术来解决节点故障时业务不中断。主要包含ACM集群、ACC集群、分布式数据库集群、分布式缓存集群。以下介绍集群可靠性:l ACM集群:当某个设备配置管理节点故障时,租户管理面的业务操作请求会通过前置的负载均衡器自动分发到集群中其他节点,同时设备也会自动检测到管理节点故障,能够自动将连接切换到

9、集群中其他节点,从而集群中某些节点故障不影响NCE-WAN控制器的设备配置管理业务。l ACC集群:当某个数据采集节点集群故障时,设备自动检测到数据采集节点故障,能够重新与新的ACC节点建立长连接,并将上报数据切换到集群中其他节点,从而集群中某些节点故障不影响NCE-WAN控制器的性能数据采集的业务。l 分布式数据库集群:NCE-WAN控制器的分布式数据库支持数据进行分片存储,同时支持数据的一主多备的可靠性模式。当分布式数据库集群中某个节点故障时,备份的节点能够立刻接管其业务,从而确保其对外提供正常的功能。l 分布式缓存集群:NCE-WAN控制器的分布式缓存支持数据进行分片存储,同时支持数据的

10、一主多备的可靠性模式。当分布式缓存集群中某个节点故障时,备份的节点能够立刻接管其业务,从而确保其对外提供正常的功能。4.2.1.2 设备连接负载均衡南向设备连接附着采用软负载集群实现,设备的TCP连接请求经由软负载节点按照负载策略直接转发给后台控制器集群节点。南向软负载节点主要转发两类TCP请求:l 设备与ACM集群节点建立Netconf长连接,设备注册时连接请求会由软负载集群负载到ACM集群中的任一节点,由端口确定负载列表;l 设备与ACC集群建立长连接,设备触发建连时连接请求会由软负载集群负载到ACC集群中的任一节点,由端口确定负载列表。该方案特点如下:l 无状态化ACM集群、ACC集群所

11、有节点无状态化,都具备设备分片处理能力,均能够承担设备分片任务的处理,不存在单点性能瓶颈及串行约束。l 高可靠性设备连接任务指派给某个控制器节点后,当该控制器节点故障时,软负载集群节点会感知集群节点故障,设备重新发起注册请求时会负载到新的集群节点,相关任务会由其他控制器节点来承担,消除单点故障。l 负载均衡设备注册时,软负载节点会以在线控制器节点负载较低的优先分配,并且会动态刷新在线控制器节点负载信息,保证所有控制器节点的设备连接负载整体上均衡。4.2.2 分布式数据库集群分布式数据库集群采用一主多备形式部署,实时进行数据的冗余备份,正常情况下主数据库节点提供数据存储服务,当主节点异常后,主备

12、倒换软件检测到该异常并执行数据库主备切换,将集群内数据库备节点升级为主节点,原主节点降级为备节点。4.2.3 服务节点可靠性部署服务集群可靠性部署,考虑节点的可靠性:1. 服务主备或者集群部署,无单点服务故障问题;2. 主备和集群服务分节点部署;3. 单节点故障不影响整个集群服务功能;4. 物理机虚拟化部署场景,相同功能集群服务节点反亲和部署,即单物理机故障不影响整个集群服务功能。最小集群部署视图如下:4.2.4 异地容灾NCE-WAN控制器容灾方案在两个地域部署两套独立的NCE-WAN控制器系统,系统之间建立心跳、数据通信链路,依赖数据库的能力把主集群的数据实时备份到备集群。在主集群发生重大

13、故障无法恢复的时候,用户可以把备集群恢复成新的主集群,从而继续提供业务服务。容灾指标容灾指标是指在当系统发生灾难(地震、洪水等)或长时间无法恢复的故障(如核心磁阵损坏等)时,NCE-WAN控制器在灾难过程中的最大数据丢失量及从灾难状态恢复到可运行状态所需的时间,用于衡量容灾系统的数据冗余备份能力和业务恢复能力。指标项指标项描述限制条件配置类业务数据实时同步(同步机制)RPO=0minNA设备告警类业务数据实时同步(异步机制)RPO=1minNA异地容灾倒换切换时间(min)RTO=故障发现时间+15min(切换时间)+设备上线时间125Mbps主备通信带宽,时延20ms。首次容灾配置数据同步时

14、间(min)RTO=130 min125Mbps主备通信带宽,1W设备的数据量(GaussDB (68GB)+HDFS(4GB)。4.2.5 故障预防4.2.5.1 故障信息采集支持在NCE-WAN控制器集群纳管的所有节点执行故障信息收集,可以收集集群节点的“常见信息”和“高级信息”。在运维人员没有要求的情况下默认收集对应时间段的“常见信息”,在运维人员明确要求下根据以下内容来区分需要收集的日志:l 常见信息:Karaf日志,集群系统信息包括当前告警、运行日志、操作日志、各进程状态、数据库状态等。建议所有故障场景都收集此类日志。l 高级信息:包括系统故障日志、南北向服务日志、异地容灾&集群管理

15、日志等系统日志。当出现NCE-WAN控制器系统类故障(如NCE-WAN控制器无法访问、南北向服务异常、异地容灾异常等)时,建议收集此类日志。在运维面进行线上故障信息收集,不再依赖其他独立的工具,及时发现故障问题,提升了故障信息收集效率,保证了集群系统的可靠性,减少了维护人员的时间投入。4.2.5.2 健康度检查健康度检查是一种预防性的维护,指维护人员在设备正常运行过程中,开展检查和维护工作,及时发现并消除设备中的故障隐患。系统支持在运维面进行线上健康度检查,不依赖于其他独立的工具,提升了检查效率,便于维护人员操作和使用。5 缩略语表/Acronyms and Abbreviations表5-1 缩略语清单英文缩写英文全称中文全称ACMAgile Controller ManagerNCE-WAN控制器管理服务ACCAgile Con

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 网络与通信

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号