科研大数据平台项目

资源描述

《科研大数据平台项目》由会员分享，可在线阅读，更多相关《科研大数据平台项目（25页珍藏版）》请在金锄头文库上搜索。

1、科研大数据平台项目 Revised as of 23 November 2020 科研大数据平台项目技术建议书目录 1. 概述 1.1. 项目背景通过本项目的实施与建设，在以服务科研工作为主导的原则下，基于高性能大数据软硬件设施，构建多样化、专业化、柔性化的科研数据服务应用平台。利用大数据技术，满足不同层级用户的需求，达到改善我校的科学研究环境与学科建设、提升我校的科研管理水平、提升我校针对物流行业的科研服务能力等目标。本项目分阶段实施，初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。 1.2. 需求分析要构建多样化、专业化、柔性化

2、的科研数据服务应用平台，现有架构很难承担日益增长的数据分析需求。迫切需要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。并有效利用数据的价值，提高系统安全、系统高可用等。需求分析如下：寻求新的系统架构，从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。从全局及用户长远利益考虑，规划先进的大数据平台底层架构，满足大数据时代的业务需求。保护用户现有资源，考虑系统现状以及现有资源利用等，在系统建设中，充分考虑现有资源利旧。系统多平台整合，建设统一的底层平台，提高系统安全等保级别，规避系统单点风险。 1.3. 方案简述根据对背景及需求的分析，为了帮助我校能够更好地在大数

3、据时代支撑大规模数据的应用，分别从物理架构及数据架构建设科研大数据平台系统。物理架构：采用虚拟化技术，为客户打造IaaS 底层系统架构。数据架构：采用与客户习惯使用的 SQL这种更易于理解的、交互性更好的访问接口，架构需要以 MPP 数据库及计算框架为核心，将 MPP 运算调度引擎完全融入非关系型运算调度框架，实现可以同时调度关系运算和非关系运算的调度引擎，构建统一的结构化信息提取和数据类型转换框架，将非结构化数据映射为关系模型，实现面向关系模型的全数据统一视图，从而平滑的实现 MPP 数据库和 Hadoop的统一调度和处理，为新型的基础软件平台和上层应用提供数据服务。 1.4. 方案价值

4、弹性扩展采用虚拟化技术做为底层资源抽象技术，为科研大数据平台动态提供基础计算、存储、网络资源，同时运用云平台计算技术为云数据中心提供统一的管理和运维平台，实现资源弹性服务、流转和管理。动态资源分配云计算被认为是分布式处理、并行处理以及网络计算的进一步发展，其使用虚拟机力度方式，根据应用的动态对资源进行增删。快速响应以并行计算为核心,按需调度计算任务分配和计算资源，并提供从数据导入整合处理、计算模型设定到计算结果输出、多形式展现、应用 API等完整的数据处理服务。高可用采用分布式存储系统，数据互备，快速备份和恢复。支持各种数据处理、计算模型，满足不同领域、不同特点的计算需求。多副

5、本容错，数据安全无忧。数据分析构建大数据存储应用平台，围绕大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合，以及实现不同类型数据处理模式的整合。单一的 MPP 数据库或 Hadoop 产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。应用云云计算并不是一个突兀全新的理念，云计算的快速发展，是需求驱动、技术进步和商业模式转变共同发展和促进的结果。随着我校大规模计算和海量数据存储需求的出现，使得科研大数据平台对 IT 基础设施的需求也随之增长。云计算技术的应用能够给我校在节约投资、节省空间、简化管理、数据高度共享和系统高度可靠等方面提供帮

6、助。因此，本方案的核心价值在于将这两种方式的界限在实际应用部署中打破，形成以全数据处理为核心，垂直整合操作系统、MPP 数据库、Hadoop、统一数据服务的基础软件平台解决方案。 2. 设计方案 2.1. 设计原则为保证科研大数据平台项目建设的成功，在技术方案中我们主要遵循了以下几个原则：先进性与成熟技术的集合：在设备选型设计中，我们要考虑采用当今业界的主流技术，同时要选用在众多关键领域中已经得到充分验证的产品，以保证系统的更高的可靠性和可用性；高效的可管理性：对于日益复杂的 IT 系统架构，对系统的管理要求越来越重，浪潮所推荐的解决方案整体的设计思想是利于以后的管理；性能价格比

7、：保证充分满足用户的性能的同时，考虑最优的性价比；坚持系统建设投资经济合理性的原则；高可靠性：全冗余设计，避免任何的单点故障，以保证系统的可靠性，同时便于维护，减少计划内停机次数；高安全性：保证系统数据的安全，做到重要数据冗余存储，提供备份、容灾及应急设计；平滑扩展性：基于统一标准设计的硬件平台架构，具有平滑扩展的能力，可在未来方便的根据客户需求增添新的硬件；开放性与标准化：采用标准的技术以保证与其他厂家的产品相兼容；产品利用率：考虑现有设备的使用情况，提高产品的利用率。降低总体拥有成本、提升服务水平、管理系统风险是整个硬件平台方案的设计战略思想。本次设计满足当前阶段应

8、用需求的同时，具备升级扩容能力，继续满足下一阶段的应用需求。 2.2. 系统架构 2.3. 分布式数据库系统 2.3.1. MPP + Share Nothing 架构分布式数据库采用完全并行的 MPP + Share Nothing 的分布式扁平架构，这种架构中的每一个节点（ Node ）都是独立的、自给的、节点之间对等，而且整个系统中不存在单点瓶颈，具有非常强的扩展性。 2.3.2. 核心组件分布式数据库产品总共包含三大核心组件，即GCluster、GCware 和 GNode。 GCWare 用于各节点 GCluster和 GNode实例间共享信息，GCluster负责集群调度，每个

9、 GNode就是最基本的存储和计算单元。 GCluster： GCluster负责 SQL的解析、SQL优化、分布式执行计划生成、执行调度。 GCWare： GCWare用于各节点 GCluster和 GNode实例间共享信息(包括集群结构，节点状态，节点资源状态等信息)，以及控制多副本数据操作时，提供可操作节点，并在多副本操作中，控制各节点数据一致性状态。 GCWare对于集群的管理工作是以节点为基本单位的。 GNode： GNode是 GCluster 中最基本的存储和计算单元。 GNode是由 GCWare 管理的一个 8a实例，每个 GCluster节点上有一个 GNode实例运行。

10、GNode负责集群数据在节点上的实际存储，并从 GCluster 接收和执行经分解的SQL执行计划，执行结果返回给 GCluster。数据加载时，GNode直接从集群加载服务接收数据，写入本地存储空间。 2.3.3. 高可用分布式数据库通过 SafeGroup组内冗余机制来保证集群的高可用特性：每个 SafeGroup 可提供 1 个或 2个副本数据冗余; SafeGroup 内数据副本自动同步; 复制引擎自动管理数据同步; 采用扁平架构，每一个节点都可以充当主控节点，避免了 Master节点产生的瓶颈以及当 Master与 Stand-by宕机产生的整个集群不可用。 2.3.4. 高性

11、能在线扩展分布式数据库具备在线扩展技术：通过 SafeGroup 动态扩展集群节点，实际可扩展到 64 3（192）个节点；每个节点可以处理 100 TB有效数据，同时提供计算和存储能力； GCware 负责新节点的数据同步。因为浪潮分布式数据库采用高性能单节点的 MPP 扁平架构，因此进行集群扩展时，可以保证平滑扩展和性能的线性增长特性。 2.3.5. 高性能数据加载数据加载功能作为浪潮分布式数据库的一部分而存在，目的是将用户从其他数据源得到的原始数据文件，按照某种加载规则分发至集群节点，集群各节点接收数据入库保存到本地磁盘。分布式数据库支持数据高效并行加载，数据加载速度随节点的

12、扩展而呈现线性增加。集群加载采用 C/S 架构，包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后，服务器端负责原始数据文件切分和数据文件的下发；各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。 2.3.6. OLAP 函数分布式数据库提供OLAP 函数，用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持。可根据分析人员的要求，快速灵活地进行大数据量的复杂查询处理，以便他们准确掌握企业的经营状况，了解被服务对象的需求，制定正确的方案。 2.4. Hadoop 集群 Hadoop技术给客户提供稳定的、可靠的、易用的大数据设计架构

13、，其组件包括:：Hadoop企业版，HIVE分布式内存分析引擎，HBASE 分布式实时在线数据处理引擎和 Stream 流处理引擎。其特点如下： 2.4.1. Hadoop 企业版 Hadoop企业版具有高模块化和松耦合的五层架构，针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。数据存储层：基于 HDFS 的大数据存储和在线服务体系，支持 Erasure Code，在副本数降低至倍的情况下，提高了可靠性，可同时容忍四个数据块丢失，支持可靠存储 TB级到数十 PB级的数据量。资源管理层：缺省采用下一代资源管理框架 YARN进行资源的分配和调度，支持同时运行多个计算

14、框架。计算引擎层：采用 Map/Reduce 2 完成大部分离线批处理计算任务。数据分析与挖掘层：支持离线批量 SQL统计，支持 R 语言以及机器学习算法库 Mahout。数据集成层： Sqoop 支持从 DB到 Hadoop 的数据迁移，Flume支持从日志系统采集数据。 2.4.2. HIVE 分布式内存分析引擎 HIVE内存分析引擎提供大数据的交互式 SQL统计和 R 语言挖掘能力。它具有以下一些特点：高性能： HIVE支持将二维数据表缓存入独立的分布式内存（或 SSD）中，建立列式存储、分区/分块和索引，采用改进后的 Apache Spark作为执行引擎，SQL执行性能比A

15、pache Hadoop/Hive 快 10100 倍左右。更强的 SQL支持： HIVE同时兼容 Oracle PL/SQL和 HiveQL语法，自动识别不同语法，支持存储过程和函数，支持常用 Oracle扩展函数。完整的 SQL支持帮助用户平滑地从原有关系数据库迁移到大数据平台。更强的统计分析能力：用户可以通过 RStudio或者 R 命令行访问存储在分布式内存中的数据，R 语言中数千个统计算法可以和浪潮 HIVE提供的分布式并行数据挖掘算法交替混合使用，为各行业进行大数据挖掘提供了易用而强大的分析工具。支持广泛的 BI和报表工具： HIVE可以和常用的 BI工具对接，包括 Tab

16、leau, SAP Business Objects, Oracle OBIEE等，用户无需编程就可以方便地为大数据创建美丽的报表，通过浪潮 HIVE提供的高速大数据统计分析能力提高决策效率；高扩展能力： Inceptor可以随着集群规模的扩展，线性扩展处理能力，可以支持从 GB到数百TB的数据处理。 2.4.3. HBASE 分布式实时在线数据处理引擎 HBASE 实时在线数据处理引擎以 Apache HBase为基础，是企业建立高并发的在线业务系统的最佳选择。它有以下特点：多种数据类型支持： HBASE 支持从 GB到数十 PB数据的处理，支持广泛的数据类型，包括对结构化记录、半结构

17、化文本、图数据、非结构化数据（图片、音频、二进制文档等）的存储、搜索、统计和分析。高速数据处理能力： HBASE 支持高速的数据检索、搜索和统计；根据索引进行检索的延时在数毫秒到数百毫秒量级；支持上亿的并发用户同时进行数据插入、修改、查询和检索；支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。高效 OLAP 和批量统计： HBASE 为 HIVE 引擎提供高效数据扫描接口，通过 HIVE的扩展 SQL语法，充分利用浪潮 HBASE 的内部数据结构以及全局/辅助索引进行 SQL执行加速，可以满足高速的 OLAP 数据分析应用需求；同时也支持高速的 SQL离线批处理，性能接近于存储在

18、HDFS 上的相同数据的统计。高效图计算： HBASE 提供构造图形的 API，帮助用户构造由上亿顶点组成的复杂大图，同时提供专有的高效图算法，包括关联网络的高速分析。 2.4.4. Stream流处理引擎 Stream 实时流处理引擎以 Spark Streaming 为基础。Spark Streaming提供了强大的流计算（Streaming）表达能力，支持 DAG（有向无环图）计算模型；而 Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理，系统复杂而低效。 Streaming中的复杂应用逻辑以 DAG形式的服务常驻在集群内存中，生产系统的消息通过实时消

19、息队列进入计算集群，在集群内以 Pipeline 方式被依次处理，完成 ETL、特征提取、策略检查、分析告警等复杂服务计算，最终输出到HBase等存储集群、告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点，成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。 Streaming支持 Kafka, Flume 等常见消息队列或采集工具。 2.5. 服务器虚拟化 2.5.1. 设计理念浪潮云海服务器虚拟化系统是浪潮云计算解决方案的核心基础，主要负责完成底层物理资源的虚拟融合、按需分配与高效管理，可以显着提高资源交付的敏捷性和灵活性，提升资源的使用效率，为

20、上层业务提供不间断地资源保障与可伸缩的资源供给。浪潮云海服务器虚拟化系统为计算、存储和网络提供了完整的虚拟化解决方案，支持资源的灵活分配、动态组合、在线调整与智能调度，并以虚拟机或虚拟集群的形式将最终资源呈现给用户。该系统既可以单独使用，也可以配合浪潮云计算管理平台来构建更大范围的云数据中心或者IaaS 系统，同时本系统还提供了开放接口，支持二次开发，方便与其他管理平台整合。在设计理念上，整个系统遵循了以下几个原则：命令查询职责分离（CQRS） CQRS 原则基于一个简单的事实：资源（对象）的行为只有两种，即命令（Command）和查询（Query）。命令可以改变资源的状态，而查询不会。基

21、于这一原则，系统可以分为两个部分，命令部分和查询部分，并采用不同的技术加以实现和优化，简化整个系统的设计，提升整个系统的性能和可维护性。独立的认证服务服务器虚拟化是一个复杂的软件系统，由多个不同功能的模块组合而成，安全认证是每个模块必须的逻辑。独立的认证服务从系统层面划分出来一个切面，实现集中式的认证管理，其他模块只需与认证服务交互，将复杂的认证过程交由认证服务处理，这一过程对模块而言是透明的。独立的认证服务对于实现SSO 和系统集成具有重要的意义。独立的监控服务系统状态是进行决策的数据基础，这些数据多数是由监控服务提供的，监控服务几乎存在于任何大型的软件系统之中。浪潮服务器虚拟化系统

22、将监控服务剥离出来，以易复用、易扩展、轻量级为目标独立发展，使其可以在不同的系统中提供监控服务。监控服务为服务器虚拟化系统监控资源状态提供了极高的灵活性和扩展性，大大缩短了系统故障的排查时间。业务数据与监控数据分离业务数据与监控数据的分离，主要体现在存储、UI显示以及持久化三个方面。从存储方面来说，业务数据和监控数据的分离主要体现在存储方式，前者存到关系数据库，后者存到 NOSQL数据库。从 UI显示来说，UI显示的主要是业务数据，通过查询关系数据库获取，而对于监控数据，则通过查询 NOSQL数据库中获取告警信息。从持久化方面的讲，业务数据具有关系性强和逻辑紧密，体现用户的业务需求，需要较

23、高的可靠性和稳定性，因此需要持久化到关系型数据库中较为合适，这样既保证了业务关系又确保了数据的稳定性；而监控数据强调实时性，体现被监控对象的当前状况，数据关系性不强，结构单一，而且不需要进行持久化，因此使用易扩展、可用性高的内存型数据库来存储这类数据比较合适，以最大程度保证数据的实时性。资源操作与资源状态维护分离资源操作与资源状态维护分离主要体现在虚拟机的管理上，资源操作基于业务流程，而资源状态维护基于事务的原子操作实现，例如通过监控数据更新虚拟机状态，并维护数据的一致性。这种机制在虚拟机管理中体现最为明显，主要包括状态切换和虚拟机并发操作处理。首先，对于状态切换失败处理，如果当前存在其他

24、工作流正在处理当前虚拟机，将终止整个工作流并记录失败原因；否则强制同步业务状态，使之与监控状态相同，然后终止整个工作流并记录失败原因。其次，阻止对同一个虚拟机的并发操作，以避免上述的第一个可能分支出现。 2.5.2. 系统结构服务器虚拟化系统可分为四个层次，分别为虚拟层、应用层、展示层、运维层，虚拟层是整个系统的基础，在虚拟层之上构建了应用层，实现高级的业务逻辑，展示层用于对外交互，为了便于系统运维，专门划分了运维层，涵盖系统的安装、部署和安全管理。虚拟层直接构建在物理硬件之上，在功能上主要是完成物理资源的池化与重新组合：基于 Hypervisor 实现计算资源的池化，基于分布式存储/集中

25、式存储实现存储资源的池化，基于虚拟交换机和虚拟路由器实现网络资源的池化，经由这几种技术形成了统一的计算池、存储池和网络池，在此基础之上通过按需组合构建虚拟主机和虚拟集群对外提供服务。虚拟层同时提供了资源调度(DRS/DPM/HA)、镜像管理和资源管理等功能，为上层实现高级功能提供支持。应用层基于虚拟层构建高级功能，通过组合虚拟层的功能模块支撑系统的业务逻辑实现，这些主要的业务逻辑包括系统任务管理、物理资源管理（主机、存储、网络）、系统配置、虚机、模板管理以及容灾备份等，这些高级功能全部封装在应用层实现。展示层是系统对外的交互接口，提供 WEB GUI界面和 API接口两种形式，方便系统集成

26、和二次开发；在运维层，提供资源访问控制、PXE安装和在线升级等功能，简化系统运维。 2.5.3. 服务器虚拟化系统组成管理员管理节点计算节点SAN光纤通道以太网用户VMVMVMVMVM控制网数据网业务网iSCSI一级存储- 本地二级存储一级存储- 共享服务器虚拟化系统上图中计算资源和存储资源均由控制中心统一控制与管理。服务器虚拟化系统包括三条通信链路：控制网，用于控制中心与各计算节点、存储节点及文件系统主控间传输资源信息与控制指令；数据网，连接计算节点与存储系统，用于传输虚拟机正常所需的存储数据；业务网，资源租户及云业务用户通过此网访问虚拟机及部署在虚拟机里的业务，业务网通过 VLAN等技

27、术实现隔离。 2.6. 云管理平台浪潮云海 OS 是浪潮自主设计的系统架构，自主研发的国产云资源管理平台，支持底层 VMWare vSphere平台及浪潮自研虚拟化产品 iVirtual的异构虚拟资源池，对已部署的 vSphere环境无需停机即可被云海 OS 接管，实现对现有 vSphere 环境的无缝兼容，实现安全可控。浪潮云海 OS 的架构秉承模块化设计理念，结合浪潮对云数据中心客户需求的理解，以超越用户所想，提供超值的用户体验而完成的系统设计。 2.6.1. 浪潮云海 OS 架构图 2.6.2. 浪潮云海 OS 实现的功能云资源管理（1）资源池管理：通过添加 vCenter/i

28、Virtual 将多个异构资源池整合成一个更大的资源池，进行统一管理和资源分配。资源池管理包括对资源池的扩充和缩减，暂停使用某些资源等操作。（2）资源池集群管理：集群是云资源的载体，是资源池分配的组成单位。通过集群管理功能实现为不同用户提供不同等级的资源服务，扩充资源池容量。可重新导入资源池的新增集群，也可暂停在某些集群上新建虚拟数据中心及应用服务。（3）虚拟数据中心管理：虚拟数据中心(vdc)界定了组织能够使用资源的范围，组织管理员可将 vdc资源分配给组织内用户。虚拟数据中心管理包括创建、导入，暂停使用、重新启用等操作。（4）虚拟网络管理：虚拟网络允许组织及组织用户像定义物理网

29、络一样定义组织自己内部的网络，以及与组织外网络的连接方式，包括直连、NAT等，组织内部网络的地址分配、VLAN划分等。（5）应用服务管理：应用服务(vApp)是指提供某种服务的一个或多个通过特定网络连接在一起的虚拟机集合。可通过服务模板、新建虚拟机 2 种方式创建应用服务。操作包括开启、关闭、重启、删除、复制、更改所有者、导出为模板等操作。（6）虚拟机管理：单独对组成 vApp的虚拟机操作。功能包括虚拟机控制台、开启、关闭、重启、挂起、恢复、删除、快照、复制、移动至其他应用服务中、导出为模板等操作。（7）模板/镜像管理：通过 FTP 方式将应用服务模板或操作系统安装镜像上传至组织存储

30、空间下，用于部署应用服务和安装操作系统，也可将服务模板和镜像文件共享给其他组织使用。业务管理（1）业务审批：审批系统用户提交的虚拟数据中心(vdc)、虚拟网络、虚拟应用(vApp)申请。（2）业务流程管理：审批流程引擎实现虚拟数据中心、虚拟网络、虚拟应用服务审批流程的自定义。（3）审批历史查询：查询每个订单的详细信息，包括订单内容，审批流程上的各节点的审批情况，包括审批人、审批时间和是否通过等。计费管理（1）计费设置：设置用户帐户余额的提醒周期及提醒方式（邮件、短信）；定义资源单价（元/资源度量单位/小时）。（2）计费等级：资源按一定标准分为不同的等级，各等级的资源计费

31、系数不同，组织分为不同的等级，不同等级的组织计费系数也不同；系统可自行设置资源等级、组织等级对应的折扣率，从而为不同的用户提供不同的等级的服务。（3）组织账户充值：为组织账户充值，并可查询充值历史。（4）查询组织账户余额：查询各组织的帐户余额。（5）查询组织账单：查询组织每月的消费金额及费用明细。管理监控（1）监控视图：显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源组及组内各节点的状态统计信息。（2）资源管理：开启、关闭、重启服务器组内所有机器或某些服务器；配置服务器 BMC 信息；获取并显示网络设备、数据库、web服务、操作系统、虚拟化资源的相关状态参数信

32、息。（3）节能管理：节能管理在不影响正常业务的情况下，通过降低服务器CPU频率来降低服务器组或服务器的能耗。功能包括节能策略制定及服务器组或服务器的能耗曲线显示。（4）告警分析：分时段显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源等的各监测器返回的异常告警信息。（5）报表中心：图表显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源等的资源状态统计、各监测项状态。（6）系统配置：监控管理功能模块的基础性配置。如添加资源（服务器、网络设备、操作系统、web服务、数据库、虚拟化资源、），为资源选择添加监测项，通知时间表设置，告警通知联系人设置，备份与恢复当

33、前的监控管理配置信息。系统管理（1）组织管理：组织是用户的集合，是虚拟数据中心（VDC）及 vApp 的所有者，也是资源使用费用的承担者。组织管理功能包括添加组织、编辑、启用、禁用、删除等操作。（2）用户管理：系统管理员管理各组织的组织管理员，各组织管理员管理其组织内部的组织用户。用户管理操作包括：添加、删除、修改基础信息、重置密码、启用、禁用等操作。（3）角色管理：角色是系统操作的集合，界定了相同角色的用户拥有的操作权限范围。角色管理包括：添加、编辑、删除等操作。（4）日志查询：根据时间、组织、用户、操作对象等条件查询相关联的操作记录。（5）系统设置：配置系统发送提醒、告

34、警类信息的邮件、短信信息。导出、删除日志，设置日志停留时长。（6）序列号管理：系统序列号分为正式序列号和试用期序列号，序列号到期后，系统将无法使用，需重新注册。（7） LDAP 管理：云管理平台可与用户现有的 LDAP 系统集成，实现基于LDAP 的身份验证访问机制，LDAP 的用户可作为云平台的用户来管理或使用云资源。云管理平台为客户带来的收益使用浪潮云海云数据中心操作系统，客户可以获得以下收益：节约软件采购及服务成本浪潮提供云数据中心整体解决方案，减少项目集成费用。全国产的云管理平台，相对于国外产品价格相对较低，相对于基于开源的云管理平台，浪潮云海云数据中心管理平台更加安全、

35、稳定。管理运营效率提升云数据中心管理平台集成虚拟化管理及服务器、网络设备等硬件设备和操作系统、web服务、数据库等中间件的监控与管理功能，几乎涵盖了数据中心所有的可管理对象范畴，一套系统即可运营整个云数据中心。云数据中心管理平台能够实现对多虚拟化平台的统一管理。通过将多虚拟化平台集中到统一管理门户，形成一个大的资源池，有效解决异构资源池管理问题。服务水平提高浪潮云海云数据中心管理平台实现基础设施资源的服务化(IaaS)，以应用服务形式对外提供服务，利用服务模板可实现业务的快速部署，显着缩短应用系统上线时间，帮助客户快速实现自身价值。 2.7. 爬虫软件 2.7.1. 建设网络爬虫私有

36、云 GooSeeker网络爬虫软件由两部分组成：网络爬虫云服务器、网络爬虫执行单元。 2.7.2. 高效的分布式、协同化数据采集模式集搜客 GooSeeker用户无论分布在哪里，都可以享受集搜客网络爬虫的服务，在线版用户可以创立一个工作组，邀请其他在线版用户加入工作组，为相同的采集目的协同完成数据采集任务。企业版将这个能力完全开放，可以完全控制和管理分布式和协同化数据采集模式。在企业内部可以划分成多个工作组工作组可以用后台管理程序随时根据工作目标直接创建工作组大小不受限制工作组的划分和管理完全受控 GooSeeker网络爬虫可以由服务器统一调度，企业版可以用定制开发的更周密的负荷分

37、担算法控制每个网络爬虫的运行，而且根据网络爬虫的运行状态合理调配工作量，对于失败的网络爬虫可以及时予以隔离，甚至在其他网管系统的辅助下，监控网络爬虫计算机各个层面的运行状况。 2.7.3. 爬虫路线规划能力集搜客 GooSeeker网络爬虫沿着线索扩展爬行范围，而且。免费在线版用户在MS 谋数台的爬虫路线工作台上规划爬虫路线，主要能力就是：从抓取到的网址上建立下一级线索，这是深度方向，同时抓取到的下级线索不只一个，那么就是在广度方向进行扩展。总之，网络爬虫抓取网页数据的时候，把一些网址作为广度或者深度方向扩展的线索。免费在线版只能在定义抓取规则的时候规划爬虫路线；而企业版可以有更多规划爬虫

38、路线的选择。在抓取结果清洗和入库的时候在深度和广度方向生成线索，这是企业版常用的方式，此时，企业版 GooSeeker具有最大的灵活性和控制力，比如，可以用入库脚本程序任意控制爬虫路线的生成，可以替换 URL中的参数，可以根据 URL地址规律批量生成网址，可以在一批网址中根据一定规则进行筛选等等。最大的灵活性在于爬虫路线的生成时间。当网页抓取用于探索性研究的时候，可以根据需要随时延伸爬虫深度和广度范围，不必在第一次数据清洗过程就把所有线索都生成好了，其实那时可能还不知道是否有必要做爬行范围延展。而且也容易实现同一个网址用于多个，分别为不同的研究目的服务。 2.7.4. 爬虫调度和负荷规划能

39、力集搜客 GooSeeker网络爬虫是一款，多台计算机可为同一目标协同工作，同一台计算机上能运行多个线程并行抓取网页。那么就需要规划每个网络爬虫线程的工作内容和工作负荷，以及启动和停止时间等等。免费在线版 GooSeeker 网络爬虫主要依赖管理网络爬虫，比如，一台计算机上启动多少个线程，每个线程在什么时间启动，每一批包含多少网页，抓取什么主题，按照什么顺序等等。文件是预先生成好的，比如，使用。预先生成的缺点是调度爬虫不够灵活，如果爬几十个网站，这个缺点并不显着，如果要爬几百上千个网站，要把所有的网站目标都编制到 crontab文件，将是十分繁琐的。企业版 GooSeeker网络爬虫可以

40、接受服务器下发的任务安排，也就是 crontab文件中的每个 step 都可以通过云服务器下发下来，那么在云服务器上可以实现一个复杂的调度和负荷规划程序，配以爬虫管理程序，能够细致地为每个爬虫安排合适的抓取任务。 2.7.5. 极致的开放兼容平台 2.7.5.1. 为什么需要开放的可集成的网页抓取软件如果网络爬虫只是大型 IT系统的一个模块，集搜客 GooSeeker网络爬虫能否无缝地集成到各种 IT 系统中此类 IT系统对网络爬虫的需求主要包括： IT 系统可以控制网络爬虫的爬行范围 IT 系统可以控制网络爬虫什么时候启动，每次抓取的批次大小等 IT 系统需要及时获得爬取结果，由 IT

41、系统负责内容管理、数据挖掘等信息处理过程 IT 系统能够监控爬虫的成功率，可及时修正失败状态，比如，重新启动抓取失败的线索 2.7.5.2. 集搜客网络爬虫的开放接口显然，一个封闭的网络爬虫软件不能满足上述需求，而集搜客网络爬虫提供标准的开放的 API接口，也可以直接从数据库层面进行对接，完美解决无缝集成问题。 3. 方案优势 3.1. 浪潮 MPP 数据库优势 3.1.1. 高性能列存储技术在大大减少 I/O 的同时,能显着提高查询性能；智能索引大幅提高查询性能；高速的数据加载性能；高效的并行 SQL 执行计划。 3.1.2. 高性价比采用多种压缩技术，减少存储数据所需的空间，

42、可以将所用空间减少 1 20倍，并相应地提高了 I/O 性能；采用高压缩技术，能显着减少存储开销，从而帮助客户减少了数据库整体投入成本。 3.1.3. 高易用性易于实施和管理，只需要传统数据库 1/10 的管理成本，与主要商业智能工具兼容，如 Cognos、SAP BO、BIEE、SAS、SPSS。 3.2. 浪潮 Hadoop 优势支持高性能交互式数据分析，无需等待，实时生成统计结果。性能比开源Hadoop产品快 10 到 100 倍；提供 PL/SQL以及 R 语言，支持更强的统计分析能力,应用迁移非常方便；支持广泛的 BI和报表工具，无需编程，方便应用迁移。 3.3. 浪潮云计

43、算优势方案中虚拟化软件采用浪潮云海Incloud Sphere，国产自主研发，并具备当下最主流先进的虚拟化功能。云管理平台部分采用浪潮云海 Incloud Manager，全自主知识产权，突破了云数据中心资源管理、调度、多资源池融合等多项核心技术，实现了真正的安全可控。 3.3.1. 运营效率提升通过云海实现系统的搭建与部署，大大提高运营效率。其工作效率的提升不是以百分之多少来衡量的，而是几倍甚至数十倍的提升。传统的一个操作系统的准备物理环境可能需要几个小时甚至几天，而虚拟化的环境只需要十几分钟。事实上，只需要人工的几个鼠标点击。其余的时间都是系统自动工作而不需要人工的干预。最快的时候，

44、搭建一个数百操作系统的应用人工也只需要配置十几分钟。虚拟层会自动的根据模版生成你需要的工作环境。 3.3.2. 服务水平提高云计算环境可以很容易的帮助企业建立业务和IT资源之间的关系，使各种应用和企业的苛刻的业务条件能一一对应。从整个数据中心的视图来看，云数据中心管理平台可以将所有的物理服务器作为一个大的资源池进行统一的管理，并可以按需的自动进行所有运算资源的人工或自动调度。因为所有的硬件资源与客户的应用及操作系统隔离，今后不论是物理主机的更换还是存储的升级，均可以实现应用的零宕机。也许以前的维护需要几天甚至几周的时间变更管理准备。但现在这个时间被大大的缩减甚至不需要了，我们所有的资源都

45、可以无中断的按需扩容。 3.3.3. 实现数据中心的绿色节能云海的节能控制功能，能够根据业务负载，自动调整虚拟资源在物理资源上的分布，实现物理资源的动态伸缩，有效降低数据中心的能耗，实现数据中心的绿色低碳和节能环保。 3.3.4. 分工细化使得终端用户只需专注自身业务云海使得普通用户无需自行构建数据中心，即可在线申请并使用数据中心的资源，减少了固定资产的投资，使其专注于自身业务，确保企业的核心竞争力。 3.3.5. 降低总体拥有成本(TCO) 许多应用均在未得到资源充分利用的独立物理服务器上运行，造成投资浪费。借助浪潮虚拟化解决方案，一个硬件平台可以运行不同操作系统的多个任务，其中每个任务

46、均在自己的隔离区(VM)内运行，并共享对硬件资源的访问。采用桌面虚拟化技术，用户可以将自己的多个应用系统整合至一个硬件平台中，大大降低需要投入的软件、硬件、维护等成本。 3.3.6. 可靠性提高虚拟化技术将大大提高了业务及桌面端系统的服务可用性。在实施虚拟化技术之前，如果桌面端发生硬件故障，通常要停用12天的时间，来进行硬件更换。如果运行虚拟系统的服务器发生硬件故障，我们只需要将备份好的虚拟桌面的配置文件和虚拟硬盘镜像文件还原到新的服务器上，并恢复最近一次数据备份，就可以恢复桌面端系统的正常使用。 3.3.7. 性能强大本方案中涉及的设备和配件全部是当前最高端的选型，拥有强大的计算性能、I

47、/O性能、和存储性能。充分满足关键应用对内存带宽和性能需求；同时，内存的镜像功能，让内存板上的对应内存形成良好的备份，确保内存数据的可靠。 3.3.8. 扩展性好本方案充分考虑用户对未来业务扩展的需求，从性能和容量等方面预留充分的扩展空间。 3.3.9. 可管理性通过将整个系统作统一的规划和部署，通过有效的服务器，实现服务器的远程管理、故障预警和状态监控，降低管理工作强度，提升管理效率。采用服务器高级管理模块，搭配服务器套件，具备KVM-OVER-IP 功能，提供全面的远程系统监测、维护、管理、控制功能，确保系统管理轻松自如，降低高昂的 IT 架构维护成本。 4. 推荐配置名称推荐参数

48、 Hadoop集群管理节点：2颗 Intel Xeon E5-2620 V3（6核）处理器，128GB DDR4 内存，4块 600GB 15k SAS 寸计算节点：2颗 Intel Xeon E5-2620 V3（6核）处理器，64GB DDR4 内存，12 块寸 4TB 7200 转 SAMPP 集群 2 颗 Intel Xeon E5-2650 V3（10核）处理器，64GB DDR4内存，8块 600GB 15k SAS 寸硬盘，1+1虚拟化服务器 4 颗 E7-4830v210c)处理器；64G 内存；高性能八通道 SAS RAID 卡（1GB 缓存）；2 块寸 300G卡；4 个

49、高性能千兆网卡；2+1 冗余电源；BMC 管理芯片，可实现 KVM over IP 功能备份一体机标配 2 个千兆备份接口，支持万兆备份接口。标配 20TB 备份裸容量（最大支持 576TB）和相应的磁盘阵列 2U24 盘位；冗余双控制器；配置 8GB 高速缓存；配置 8个 8Gb 光纤接口；配置 24 块 10000 转 SA光纤交换机 8Gb 光纤交换机，20 端口，8端口激活虚拟化软件 InCloud Sphere iCenter 企业版 InCloud Sphere iNode 企业版专业安装、配置服务云管理平台高级版，包括基本模块、云资源管理、计费管理、业务管理、监控&管理爬虫软件集搜客

展开阅读全文

科研大数据平台项目

最新文档