云数据采集中心与大数据计算平台建设方案详细

上传人:壹****1 文档编号:495854096 上传时间:2023-08-05 格式:DOC 页数:81 大小:4.97MB
返回 下载 相关 举报
云数据采集中心与大数据计算平台建设方案详细_第1页
第1页 / 共81页
云数据采集中心与大数据计算平台建设方案详细_第2页
第2页 / 共81页
云数据采集中心与大数据计算平台建设方案详细_第3页
第3页 / 共81页
云数据采集中心与大数据计算平台建设方案详细_第4页
第4页 / 共81页
云数据采集中心与大数据计算平台建设方案详细_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《云数据采集中心与大数据计算平台建设方案详细》由会员分享,可在线阅读,更多相关《云数据采集中心与大数据计算平台建设方案详细(81页珍藏版)》请在金锄头文库上搜索。

1、 . . . CC云数据采集中心及大数据计算平台建设方案中蓝信息技术有限责任公司 / 目录1 引言51.1 项目背景51.2 项目目标51.3 建设原则61.4 参考规71.5 名词解释92 云数据采集中心102.1 需求概述102.2 总体设计132.3 核心技术及功能182.3.1 分布式文件存储技术182.3.2 分布式并行计算技术272.3.3 分布式数据库技术312.3.4 负载均衡342.3.5 数据采集392.3.6 开放平台452.4 部署方案482.5 实施计划503 大数据计算平台523.1 需求概述523.2 总体设计523.3 应用建设573.3.1 收视率统计573.

2、3.2 智能推荐603.3.3 拍立购633.4 部署方案693.5 实施计划724 性能及成本分析734.1 运营商网络性能分析734.2 服务器网卡性能分析734.2 服务器存性能分析734.3 服务器硬盘性能分析744.4 服务器 RAID 模式分析744.5D2B 性能分析754.4DMQ 平台性能分析755 存储空间规划表766 机房选型777 安全设计788 风险分析811引言1.1项目背景根据 CC智能战略的规划:做强终端、云平台建设、大数据商业模式,CC正 迈向大数据时代,当前正面向所有智能终端提供优质的服务,同时通过终端传感 器或数据采集服务能够获取海量的数据,并且数据量会以

3、TB级剧增。因此CC迫切需要建设一套高性能、高安全性、高可靠性,可扩展性的云数据采集中心,并搭建一个数据中心支撑平台,以满足当今高速增长的数据存储、管理、计算的 需求,同时便于将来拓展和进一步的改造。目前CC数据中心是主要基于CC黑电、白电、浏览器等产品终端传感器采集的海量文本、图片数据以及用户数据,为CC后续其他数据分析挖掘项目提供数据支撑的信息平台。对应方针终端容服务、云服务支撑与数据挖掘、个 性化数据价值探索。建立统一有效的云数据采集中心有利于CC大数据的管理,符合CC新的发展战略,CC黑电和白电产品终端传感器采集的数据有用户行为的文本数据(log)、 台标等图片数据以及自建的影视知识库

4、的结构化数据、电商平台的海量镜像数据。 当 CC的用户量和采集的数据量与日俱增的时候,数据中心必须能通过添加更多 服务节点来扩展性能和负载能力,保证高可扩展性和高可用性从而满足CC业务 发展的需要。1.2项目目标l搭建分布式存储平台(能够存储海量非结构化数据和结构化数据)、分布式并行计算平台等等,满足海量数据的采集、存储、计算的需要,平台必须具备高可用性,高扩展性,高可靠性要求。l为 CC后面的产品(收视率统计,智能推荐系统,拍立购,开放平台等等) 的应用和实施打下坚实的基础,为集团 CC 的大数据提供运营支撑。l云中心初期建立至少保证可以正常运营12年,硬件选型,软件开始要 考虑到今后大规模

5、扩容的要求。l技术平台要有能力支持数据量最高1000W终端数量的数据存储、数据计 算、信息推荐等的能力。1.3建设原则基于本项目的建设要求,本项目将遵循以下建设原则:l前瞻性和高标准 整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻性。l经济性和实用性 整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。l先进性和成熟性 为了确保项目具有较长的生命周期,应充

6、分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。l高性能和安全性 规地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的性和完整性。1.4参考规lGB 9361-88计算站场地安全要求lGB 50173-93电子计算机机房设计规lGB 2887-89计算站场地技术条件lGB 50174-2008电子信息系统机房设计规lGB 50462-2008电子信息系统机房施工及验收规lGB 50311-2007综合布线工程设计规lGB 50312-200

7、7综合布线系统工程验收规lGB 50395-2007视频安防监控系统设计规lGB 50263-2007气体灭火系统施工及验收规lGB 50394-2007入侵报警系统工程设计规lGB/T20269-2006信息安全技术信息系统安全管理要求lGB/T20984-2007信息安全技术信息安全风险评估规lGB/T22239-2008信息安全技术信息系统安全等级保护基本要求lGB/T22240-2008信息安全技术信息系统安全等级保护定级指南lGA/T388-2002B计算机信息系统安全等级保护管理要求lGB/T8567-1988计算机软件产品开发文件编制指lGB/T11457-1995软件工程术语l

8、GB/T11457-2006信息技术 软件工程术语lGB/T16260.1-2006软件工程 产品质量第1部分:质量模型lGB/T16260.2-2006软件工程 产品质量第2部分:外部度量lGB/T16260.3-2006软件工程 产品质量第3部分:部度量lGB/T16260.4-2006软件工程 产品质量第4部分:使用质量的度量lGB/T14394-2008计算机软件可靠性和可维护性管理lGB/T17544-1998信息技术软件包质量要求和测试lGB/T18221-2000信息技术程序设计语言、环境与系统软件借口 独立于语言的数据类型lGB/T18491.1-2001信息技术 软件测量 功

9、能规模测量 第1部分:概念定义lGB/T18492-2001信息技术系统及软件完整性级别lGB/Z18493-2001信息技术软件生存周期过程指南lGB/T20157-2006信息技术软件维护lGB/T20272-2006信息安全技术 操作系统安全技术要求lGB/T20008-2005信息安全技术 操作系统安全评估准则lGB/T20009-2005信息安全技术 数据库管理系统安全评估准则lGB/T20918-2007信息技术软件生存周期过程 风险管理lGB/T8566-2007信息技术 软件生存周期过程lSJ/T10367-1993计算机过程控制软件开发规程lSJ/T11234-2001软件过

10、程能力评估模型l SDO(ServiceDataObject) forJavaSpecificationV2.1l SCA (ServiceComponent Architecture)JavaEEIntegrationSpecificationV1.00l Java2Platform,EnterpriseEditionl CapabilityMaturity ModelIntegration(CMMISM),Version1.1l Extensible MarkupLanguage (XML) 1.0(FifthEdition)l WebServicesBusinessProcessExec

11、utionLanguagev2.01.5名词解释l S2DFS:简单存储分布式文件系统(Simple Storage Distributed File System)l D2B:分布式数据库(Distributed Database)l JSS:作业调度服务(JobSchedulerService)l DCS:数据计算服务(DataComputerService)l MPS:消息处理服务(MessageProcessService)l SDS:流数据处理服务(StreamDataService)l DMQ:分布式消息队列(Distributed Message Queue)l JGS:作业生成

12、服务(JobGenerationService)l ACS:自动清理服务进程(AutomaticCleaningServices)l HTTP:超文本传输协定(HyperText TransferProtocol)l SMB:服务器信息块协议(ServerMessageBlock)2云数据采集中心2.1需求概述根据 CC的阶段规划,第一期云数据采集中心的建立至少满足1至 2年的数据存储和计算规模,需要满足200万台各种智能终端的数据存储和计算规模。今后整个云数据采集中心的技术平台和架构需要轻松扩展到支持1000万台规模的各种智能终端的数据存储和计算规模。以下的数据为预估数据(基于小围的实验数据

13、为依据):数据类别文件(记录)大小1文件(记录)数量1文件(记录)大小2文件(记录)数量2台标数据(原始数据,1天周期)约16KB/台/天(由200Kb/台/天而得)约36个文件/台/天约32GB/200万台/天约7200万个/200 万台/天行为数据(原始数据,1天周期)约60KB/台/天(记录)(由400Kb/台/天而得,加上了10KB的索引记录)约50KB/台/天(文件)(由400Kb/台/天而得)(平均估值)约100条记录/台/天(记录)约100个文件/台/天(文件)(平均估值)约120GB/200万台/天(记录)约100GB/200万台/天(文件)(平均估值)约2 亿条/200万台/

14、天(记录)约2 亿个/200万台/天(文件)(平均估值)行为数据(原始数据,永久保存,压缩处理)约60KB/台/天(记录)(由400Kb/台/天而得,加上了10KB的索引记录)约50KB/台/天(文件)(由400Kb/台/天而得)(平均估值)约100条记录/台/天约100个文件/台/天(平均估值)约45TB/200万台/1 年(文件,加上元数据描述文件)(平均估值) 注:记录的大小约为10GB约35万条/200万台/1 年(记录)约35万个/200万台/1 年(文件)(平均估值) 注:128MB/1个文件行为分析/收视率统计/推荐/电商索引等记 录约10KB/1条(记录)(平均估值)约10TB/1年(记录)(平均估值)约10-15亿条记录/1 年(记录)(平均估值)至少6大电商的镜像数据约30KB/1个(文件)(平均估值)约10亿个/1 年(文件)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号