面向天文大数据实时存储查询研究

资源描述

《面向天文大数据实时存储查询研究》由会员分享，可在线阅读，更多相关《面向天文大数据实时存储查询研究（3页珍藏版）》请在金锄头文库上搜索。

1、- 28 -面向天文大数据实时存储查询研究面向天文大数据实时存储查询研究国家重点研发项目国家重点研发项目“科学大数据管理系统科学大数据管理系统”一、一、研究研究背景背景全球科技创新已进入一个前所未有的科学大数据时代。大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据。仅我国科学家参与的世界大型巡天望远镜 LSST（Large Synoptic Survey Telescope），将每三天完成对南半球的天空巡天一次，每 15 秒记录 3 幅 10 亿像素图像（每幅图像包含百万个天体），每晚需对 30TB 原始数据准实时的分析，生成的大规模星表数据需及

2、时插入到分布在多个数据中心的超大规模关系型数据库中，并在入库过程中快速完成天体分类及与其它巡天数据库的交叉认证。该数据库系统需具备存储约 3 万亿行点源星数据，和约 370 亿行目标星数据（每行超过 200 个属性）；同时对转瞬即逝的千万级突发天体事件，需在 60 秒之内完成数据分析、插入和分发，并向全世界发出预警。这一典型的科学大数据应用挑战着当今所有数据管理系统的极限，也成为当下科学界和数据管理领域携手攻坚的“难题”。由此可见，科学大数据已成为科学发现的新型战略资源，而且一个国家的科学研究水平将直接取决于其在科学大数据的优势以及将数据转换为知识的能力。为了抢占科

3、技竞争的至高点，世界各国已纷纷把科学大数据纳入国家战略，并开始重点部署。美国国立卫生研究院 2013 年启动了“从大数据到知识” (BD2K)计划，总投资达到 6.56 亿美元。欧盟 “地平线 2020”计划将科学大数据关键技术和基础设施列为了重点支持领域。欧盟刚刚宣布，将投资 65 亿欧元用于建设 “欧洲开放科学云”（Europe Open Science Cloud），重点支持大数据驱动的科学发现。在我国发布的大数据发展行动纲要中，首次将科学大数据上升到国家战略层面，明确提出“发展科学大数据”的战略目标。中国科学院在“十三五”发展规划中，也提出将实施科学大数据工程，全面提升

4、大数据驱动的科技创新能力。在“十二五”期间，中国科学院通过信息化专项项目“科技数据资源整合与共享工程”，在国内率先建成了科学数据云，形成了 52PB 云存储和上万个虚拟机的云计算环境，实现对全国 12 个分中心资源统一管理与调度；面向科学数据全生命周期的管理，形成了较为完善的标准规范体系和数据管理云服务技术体系，研发部署了科学数据管理软件 TeamDR、数据发布与集成软件 VDBVDBCloud、数据服务注册系统 RSR、可视化服务平台 DVIZ 等 20 余项软件工具；整合形成了多学科融合的约 10PB 的科学数据资源，并开放共享，在基础与前沿研究方面取得了一系列的

5、成果，在支撑国家战略与社会发展等方面发挥了重要作用。但是，面对源源不断快速产生的大量数据文件以及从中分析生成的千亿级科学对象的管理，我们还面临着一系列的挑战，包括 EB 级文件和千亿行关系数据的高效率、低成本、一体化存储和管理，科学大数据快速索引，以支持大规模、交互式的查询和处理；海量多源、多学科数据的自动关联与融合；瞬时产生的海量数据实时或准实时的高效分析；以流水线的方式实现海量数据资源与科学模型的快速融合与并行处理等。针对科学大数据管理问题，国际上一些相关的研究也刚刚开始，如 SkyServer 项目是一个基于 MonetDB 实现 TB 量级天文管理的探索， LS

6、ST 刚启动研发可管理百亿级天文对象的数据库 Qsever，俄亥俄州立大学提出了构化/半结构化数据存储结构 RCFileORC File 等。在我国，针对科学大数据管理研究工作尚未系统展开，但在结构化/半结构化数据存储、半结构化数据库、 RDF 数据管理以及科学大数据处理技术等方面，已经开展了相关研究工作，- 29 -具备了良好的基础。综上所述，科学大数据已经成为科技创新的引擎。一个国家的科研水平及在国际上的科技竞争力，将越来越取决于其在数据的优势及数据管理的能力。本项目针对科学大数据的特点和需求，将重点解决超大规模关系数据管理、多源异构数据关联和知识发现、高效数据处理等

7、关键技术，进而研发开源的科学大数据管理系统，为确保我国国际科技竞争力奠定基础。二、二、研究目标研究目标科学观测数据的抽取，将会产生千亿级别的科学对象（事例、星系天体、事件等），关系型数据管理系统作为科学对象信息描述的重要载体必将面临重要挑战。本课题针对超大规模关系型数据的管理问题，重点研究如何实现超大规模关系型数据存储与索引，如何实现超大规模关系数据动态管理，如何实现跨区域数据分布与备份，以及如何实现关系型数据加工、分析过程的流程化与精细化管理。三、三、研究研究内容内容针对如上研究目标，本课题将从分片策略和索引机制入手，研究千亿级别时空数据存储与索引策略，实现超大规模关系

8、型数据动态管理，支持数据中心级分布式存储、查询及副本策略，并通过流水线处理机制加速超大规模数据分析与系统性调优。主要内容如下：（1）研究千亿级关系数据存储策略与索引机制）研究千亿级关系数据存储策略与索引机制研究可靠与可扩展的超大规模关系数据的存储方法与机制。研究超大关系数据分片存储策略。结合科学领域关系型数据主要特点，研究千亿级超大规模关系数据划分方法。研究分片物理分布策略，设计高可靠性、易扩展分布方案。研究分片间共享策略，设计低网络开销、少冗余、快速备份共享方案。研究超大规模关系数据层次索引方法，设计低内存消耗的索引存储方案。针对不同层次数据，设计不同索引策略加速大规模数据索引过程

9、。结合数据分片与存储策略，研究片内、片间的数据索引方法。（2）研究超大规模关系型数据动态管理与关键技术）研究超大规模关系型数据动态管理与关键技术研究科学大数据对象特点，根据科学数据内容、应用范围、处理特点设计大规模关系数据的模式。研究切实、有效的分割方法，满足科学大数据处理过程中高精度、高查询频率的要求。研究超大关系数据表分割策略与实际应用需求、物理存储之间约束关系，设计可动态伸缩分割策略。研究基于分片数据深度融合与优化方法。设计并研制具有可验证数据库模式与表分割方法的原型系统。（3）研究跨数据中心分布式查询与副本调度策略）研究跨数据中心分布式查询与副本调度策略设计自动化数据副本保证方案，研究机器学习副本策略，在副本调度过程中快速检测异常点与错误数据。研究启发式副本放置与查询调度算法，设计低延迟、高可靠性副本存放策略。研究跨地域的数据副本放置问题，提出网络感知的大规模云数据的跨数据中心优化部署算法。- 30 -（4）研究基于流水线的准实时数据提取方法）研究基于流水线的准实时数据提取方法针对特定科学数据任务，研究流水线处理方法进行科学实验数据的精准、快速提取。研究流水线任务中提高数据处理准确度方法。研究模型、算法、体系结构、数据划分、放置多角度优化方法，设计全流水过程性能优化策略。

展开阅读全文

面向天文大数据实时存储查询研究

最新文档