大规模知识图谱数据存储-Final

资源描述

《大规模知识图谱数据存储-Final》由会员分享，可在线阅读，更多相关《大规模知识图谱数据存储-Final（114页珍藏版）》请在金锄头文库上搜索。

1、链接数据洞察价值 LINKED DATA Apache Drill schemaless SQL presto federate d multi DBMS SQL 市场需求程序应用可以自行判断数据流的激活状态并快速集成数据进行实时分析处理 Translytical database与 Transaction and analytical database 进入人们的关注视野比如 VoltDB version5 6 2012 2014 2012 2012 2013 2014 2015 2015 2015 作为基于云数据仓库的服务亚马逊Redshift 发布 Impala是Clou

2、dera公司主导开发的新型查询系统它提供SQL 语义能查询存储在Hadoop的 HDFS和HBase中的PB级大数据 Impala完全抛弃了MapReduce 这个不太适合做SQL查询的范式而是像Dremel一样借鉴了MPP 并行数据库的思想另起炉灶因此可做更多的查询优化从而省掉不必要的shuffle sort等开销相比已有的Hive系统虽然也提供了SQL语义眼但由于Hive底层执行使用的是MapReduce引擎仍然是一个批处理过程难以满足查询的交互性大数据处理作为云服务体系接入到企业应用值得注意的是UC柏克莱为加州大学系统中历史最悠久的学校 Spar

3、k是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架 Spark 拥有Hadoop MapReduce所具有的优点但不同于Hadoop MapReduce的是Job中间输出结果可以保存在内存中从而不再需要读写 HDFS 因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法 Spark是在Scala语言中实现的它将Scala用作其应用程序框架与Hadoop不同 Spark和Scala 可以像操作本地集合对象一样轻松地操作分布式数据集亚马逊 Redshift发布 Impala查询系统数据存储的发展

4、历史网状数据库层次数据库关系数据库面向对象数据库 NoSQL 大数据存储与处理框架网状数据库网状模型中以记录为数据的存储单位记录包含若干数据项网状数据库的数据项可以是多值的和复合的数据每个记录有一个惟一地标识它的内部标识符称为码 DatabaseKey DBK 它在一个记录存入数据库时由 DBMS自动赋予 DBK可以看作记录的逻辑地址可作记录的替身或用于寻找记录第一个网状数据库管理系统也是第一个DBMS是美国通用电气公司Bachman等人在1964年开发成功的IDS IntegratedDataStore 层次数据库层次数据库也是按记录来存取数据的层次数据

5、模型中最基本的数据关系是基本层次关系它代表两个记录型之间一对多的关系也叫做父子关系 PCR 数据库中有且仅有一个记录型无父亲称为根节点其他记录型有且仅有一个双亲最著名最典型的层次数据库系统是IBM公司的IMS Information Management System 关系数据库关系数据模型是以集合论中的关系概念为基础发展起来的关系模型中无论是实体还是实体间的联系均由单一的结构类型关系来表示在实际的关系数据库中的关系也称表一个关系数据库就是由若干个表组成 1974年 SQL语言被提出功能包括查询操纵定义和控制是一个综合的通用的关系数据库语言同时又是

6、一种高度非过程化的语言只要求用户指出做什么而不需要指出怎么做典型代表 Oracle MySQL SQL Server 面向对象数据库关系数据库的能很好地处理所谓的表格型数据却对越来越多复杂类型的数据无能为力面向向对象的关系型数据库系统对数据提供了理论上的完美性但是并未带来市场的反应失败原因企图用新型数据库系统来取代现有的数据库系统对许多已经运用数据库系统并积累了大量工作数据的客户来说无法承受新旧数据间的转换而带来的巨大工作量及巨额开支另外其查询语言极其复杂 NoSQL 1 NoSQL Not Only SQL 随着web2 0的快速发展非关系型分

7、布式数据存储得到了快速的发展它们不保证关系数据的ACID特性 NoSQL概念在2009年被提了出来解决关系数据库的性能及扩展性瓶颈优势大数据量高性能高可用灵活的数据模型 NoSQL 2 NoSQL四大家族键值 Key Value 数据库列存储数据库文档型数据库图形 Graph 数据库 NoSQL适用场景数据模型比较简单需要灵活性更强的IT系统对数据库性能要求较高不需要高度的数据一致性 NoSQL 键值存储数据库使用到一个哈希表表中有一个特定的键和一个指针指向特定的数据相关数据库 Redis Tokyo Cabinet Tyrant Voldemort B

8、erkeley DB 典型应用内容缓存适合混合工作负载并扩展大的数据集数据模型一系列键值对优势快速查询劣势存储的数据缺少结构化 NoSQL 列存储数据库应对分布式存储的海量数据键仍然存在但是指向了多个列这些列是由列家族来安排的相关数据库 Cassandra HBase Riak 典型应用分布式的文件系统数据模型以列簇式存储将同一列数据存在一起优势查找速度快可扩展性强更容易进行分布式扩展劣势功能相对局限 NoSQL 文档型存储数据库以半结构化的文档作为数据模型文档以特定的格式存储如JSON 可看作是键值数据库的升级版允许之间嵌套键值相关

9、数据库 MongoDB CouchDB 典型应用 Web应用数据模型半结构化的文档优势数据结构要求不严格劣势查询性能不高而且缺乏统一的查询语法 NoSQL 图形数据库与其他行列以及刚性结构的SQL数据库不同图形数据库使用灵活的图形模型能够扩展到多个服务器上相关数据库 Neo4J InfoGrid InfiniteGraph AllegroGraph Cayley Stardog Titan OrientDB ArangoDB OpenLink Virtuoso VertexDB 典型应用社交网络推荐系统等专注于构建关系图谱数据模型图结构优势利用图结构相关算

10、法劣势需要对整个图做计算才能得出结果不容易做分布式的集群方案大数据存储与处理框架知识图谱数据存储知识图谱最适合处理关联密集型的数据因此首先需要需要存放的是节点和边的数据用图数据库是否所有的事物都作为实体放入到知识图谱中去呢视数据需求而定对于不需要进行关系延伸计算的数据不放入图谱这些数据可使用适应的存储并与知识图谱中实体作链接对于结构固定实体属性信息丰富的实体类使用其它数据库存储更能体现优势知识图谱数据存储数据思维在现实应用中还有一些不适合放入知识图谱中的数据日志事件需要频繁统计计算怎么办使用其它的存储和计算框架进行存储和处理同时实

11、现与知识图谱中数据的链接知识图谱数据存储 No Size Fits All 知识图谱数据存储使用图数据库 TIPS 图数据存储知识图谱是基于图的数据结构其存储方式主要有两种方式 RDF存储和图数据库 Graph Database A triplestore or RDF store is a purpose built database for the storage and retrieval of triples through semantic queries A triple is a data entity composed of subject predicate o

12、bject Wikipedia A graph database has a more generalized structure than a triplestore using graph structures with nodes edges and properties to represent and store data Wikipedia RDF存储和图数据库的发展趋势图数据存储从零开始构建灵活不受约束基础维护的难度和工作量巨大基于现有关系数据库或NoSQL数据构建可以基础存储实现的强大功能不需要分心管理底层的数据存储可按数据和应用的需求采用不同的底层存储基于

13、现有数据库存储三元组表 S P O 问题大量自连接操作的开销巨大 3store Harris03 基于现有数据库存储属性表属性相似的主语聚为一张表问题 1 RDF灵活性 2 属性未定查询 Jena property table Wilkinson06 基于现有数据库存储垂直分割以谓语划分三元组表问题 1 大量数据表 2 删除属性代价大 Vertical partitioning Abadi07 VLDB Native RDF 存储方案六重索引 SPO SOP PSO POS OSP OPS 优点三元组模式查询 triple pattern 的高效执行任意两个三元组模式的高

14、效归并连接 merge join 问题 1 6倍空间开销如果是 S P O C 四元组呢 2 更新维护代价大 Hexastore Weiss08 VLDB RDF 3X Neumann08 VLDB 使用列数据模型存储三元组表建立六重索引 RDF列式存储优于行式存储三元组表列式存储六重索引 Native RDF 存储方案 Wang10 DBTA 图数据模型节点边节点属性边属性 Neo4j 节点存储 node store 关系存储 relationship store 属性存储 property store 优点图查询语言图挖掘算法缺点分布式存储实现代价高数据更新速度

15、慢大节点处理慢图数据库原生图存储应用多节点分布式服务器集群系统将三元组数据分布式存储商业 AllegroGraph Microsoft Trinity Zeng13 VLDB OpenLink Virtuoso BigOWLIM 开源 Bigdata 分布式B 树动态分片 dynamic sharding triple store SPO POS OSP quad store SPOC POCS OCSP CSPO PCSO SOPC 分布式存储方案 Jingwei分布式大规模RDF数据服务器 Wang12 APWeb 分布式存储方案海翼知大规模三元组解决方案大规模知识图谱存

16、储解决方案数据思维依据数据特点进行数据存储结构选择与设计 No Size Fits All 没有一种通用的存储方案能够解决所有问题基础存储支撑灵活基础存储可扩展高可用按需要进行数据分割适时使用缓存和索引善于利用现有成熟存储保持图形部分数据的精简不在图中作统计分析计算在应用中进行扩充迭代指导思想整体原则海翼知大规模三元组解决方案大规模知识图谱存储最佳实践 1 1 基础存储 2 数据分割可按数据场景选择使用关系数据库 NoSQL数据库及内存数据库基础存储保证可扩展高可用属性表依据数据类型划分大属性单独列表例如数量超过10M的属性单独列表基本类型整数表浮点数表日期类型表集合类型 List型表 Range型表 Map型表海翼知大规模三元组解决方案大规模知识图谱存储最佳实践 2 3 缓存与索引使用分布式 Redis 作为缓存按需对数据进行缓存对三元组表按需进行索引最多情况下可建立九重索引 SPO SOP PSO POS OSP OPS SPO POS OSP 4 善于使用现在成熟存储使用ElasticSearch实现数据的全

展开阅读全文