大规模知识图谱数据存储-Final

上传人:ahu****ng1 文档编号:130786195 上传时间:2020-05-01 格式:PDF 页数:114 大小:4.05MB
返回 下载 相关 举报
大规模知识图谱数据存储-Final_第1页
第1页 / 共114页
大规模知识图谱数据存储-Final_第2页
第2页 / 共114页
大规模知识图谱数据存储-Final_第3页
第3页 / 共114页
大规模知识图谱数据存储-Final_第4页
第4页 / 共114页
大规模知识图谱数据存储-Final_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《大规模知识图谱数据存储-Final》由会员分享,可在线阅读,更多相关《大规模知识图谱数据存储-Final(114页珍藏版)》请在金锄头文库上搜索。

1、链接数据 洞察价值 LINKED DATA Apache Drill schemaless SQL presto federate d multi DBMS SQL 市场需求程序应用可 以自行判断数据流的 激活状态并快速集成 数据进行实时分析处 理 Translytical database与 Transaction and analytical database 进入人们的关注视野 比如 VoltDB version5 6 2012 2014 2012 2012 2013 2014 2015 2015 2015 作为基于云数据仓库的 服务 亚马逊Redshift 发布 Impala是Clou

2、dera公司主导开 发的新型查询系统 它提供SQL 语义 能查询存储在Hadoop的 HDFS和HBase中的PB级大数据 Impala完全抛弃了MapReduce 这个不太适合做SQL查询的范式 而是像Dremel一样借鉴了MPP 并行数据库的思想另起炉灶 因 此可做更多的查询优化 从而省 掉不必要的shuffle sort等开销 相比已有的Hive系统虽然也提供 了SQL语义 眼但由于Hive底层 执行使用的是MapReduce引擎 仍然是一个批处理过程 难以满 足查询的交互性 大数据处理 作为云服务 体系接入到 企业应用 值得注意的是UC柏克莱为加州 大学系统中历史最悠久的学校 Spar

3、k是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架 Spark 拥有Hadoop MapReduce所具有的优点 但 不同于Hadoop MapReduce的 是Job中间输出结果可以保存在 内存中 从而不再需要读写 HDFS 因此Spark能更好地适 用于数据挖掘与机器学习等需要 迭代的MapReduce的算法 Spark是在Scala语言中实现的 它将Scala用作其应用程序框架 与Hadoop不同 Spark和Scala 可以像操作本地集合对象一样轻 松地操作分布式数据集 亚马逊 Redshift发布 Impala查询系统 数据存储的发展

4、历史 网状数据库 层次数据库 关系数据库 面向对象数据库 NoSQL 大数据存储与处理框架 网状数据库 网状模型中以记录为数据的存储单位 记录包含若干数据 项 网状数据库的数据项可以是多值的和复合的数据 每 个记录有一个惟一地标识它的内部标识符 称为码 DatabaseKey DBK 它在一个记录存入数据库时由 DBMS自动赋予 DBK可以看作记录的逻辑地址 可作记 录的替身 或用于寻找记录 第一个网状数据库管理系统也是第一个DBMS是美国通用 电气公司Bachman等人在1964年开发成功的IDS IntegratedDataStore 层次数据库 层次数据库也是按记录来存取数据的 层次数据

5、模型中最 基本的数据关系是基本层次关系 它代表两个记录型之间 一对多的关系 也叫做父子关系 PCR 数据库中有且 仅有一个记录型无父亲 称为根节点 其他记录型有且仅 有一个双亲 最著名最典型的层次数据库系统是IBM公司的IMS Information Management System 关系数据库 关系数据模型是以集合论中的关系概念为基础发展起来的 关系模型中无论是实体还是实体间的联系均由单一的结 构类型 关系来表示 在实际的关系数据库中的关系也称 表 一个关系数据库就是由若干个表组成 1974年 SQL语言被提出 功能包括查询 操纵 定义和 控制 是一个综合的 通用的关系数据库语言 同时又是

6、 一种高度非过程化的语言 只要求用户指出做什么而不需 要指出怎么做 典型代表 Oracle MySQL SQL Server 面向对象数据库 关系数据库的能很好地处理所谓的 表格型数据 却对 越来越多复杂类型的数据无能为力 面向向对象的关系型 数据库系统对数据提供了理论上的完美性 但是并未带来 市场的反应 失败原因 企图用新型数据库系统来取代现有的数据库系 统 对许多已经运用数据库系统并积累了大量工作数据的 客户来说 无法承受新旧数据间的转换而带来的巨大工作 量及巨额开支 另外 其查询语言极其复杂 NoSQL 1 NoSQL Not Only SQL 随着web2 0的快速发展 非关 系型 分

7、布式数据存储得到了快速的发展 它们不保证关 系数据的ACID特性 NoSQL概念在2009年被提了出来 解决关系数据库的性能及扩展性瓶颈 优势 大数据量 高性能 高可用 灵活的数据模型 NoSQL 2 NoSQL四大家族 键值 Key Value 数据库 列存储数据库 文档型数据库 图形 Graph 数据库 NoSQL适用场景 数据模型比较简单 需要灵活性更强的IT系统 对数据库性能要求较高 不需要高度的数据一致性 NoSQL 键值存储数据库 使用到一个哈希表 表中有一个特定的键和一个指针指向 特定的数据 相关数据库 Redis Tokyo Cabinet Tyrant Voldemort B

8、erkeley DB 典型应用 内容缓存 适合混合工作负载并扩展大的数据集 数据模型 一系列键值对 优势 快速查询 劣势 存储的数据缺少结构化 NoSQL 列存储数据库 应对分布式存储的海量数据 键仍然存在 但是指向了多 个列 这些列是由列家族来安排的 相关数据库 Cassandra HBase Riak 典型应用 分布式的文件系统 数据模型 以列簇式存储 将同一列数据存在一起 优势 查找速度快 可扩展性强 更容易进行分布式扩展 劣势 功能相对局限 NoSQL 文档型存储数据库 以半结构化的文档作为数据模型 文档以特定的格式存储 如JSON 可看作是键值数据库的升级版 允许之间嵌 套键值 相关

9、数据库 MongoDB CouchDB 典型应用 Web应用 数据模型 半结构化的文档 优势 数据结构要求不严格 劣势 查询性能不高 而且缺乏统一的查询语法 NoSQL 图形数据库 与其他行列以及刚性结构的SQL数据库不同 图形数据库 使用灵活的图形模型 能够扩展到多个服务器上 相关数据库 Neo4J InfoGrid InfiniteGraph AllegroGraph Cayley Stardog Titan OrientDB ArangoDB OpenLink Virtuoso VertexDB 典型应用 社交网络 推荐系统等 专注于构建关系图谱 数据模型 图结构 优势 利用图结构相关算

10、法 劣势 需要对整个图做计算才能得出结果 不容易做分布式的集 群方案 大数据存储与处理框架 知识图谱数据存储 知识图谱最适合处理关联密集型的数据 因此首先需要需 要存放的是节点和边的数据 用图数据库 是否所有的事物都作为实体放入到知识图谱中去呢 视数据需求而定 对于不需要进行关系延伸计算的数据不放入图谱 这些 数据可使用适应的存储并与知识图谱中实体作链接 对于结构固定 实体属性信息丰富的实体类 使用其它 数据库存储更能体现优势 知识图谱数据存储 数据思维 在现实应用中 还有一些不适合放入知识图谱中的数 据 日志 事件 需要频繁统计 计算 怎么办 使用其它的存储和计算框架进行存储和处理 同时 实

11、现与知识图谱中数据的链接 知识图谱数据存储 No Size Fits All 知识图谱数据存储 使用图数据库 TIPS 图数据存储 知识图谱是基于图的数据结构 其存储方式主要有两种方 式 RDF存储 和 图数据库 Graph Database A triplestore or RDF store is a purpose built database for the storage and retrieval of triples through semantic queries A triple is a data entity composed of subject predicate o

12、bject Wikipedia A graph database has a more generalized structure than a triplestore using graph structures with nodes edges and properties to represent and store data Wikipedia RDF存储和图数据库的发展趋势 图数据存储 从零开始构建 灵活不受约束 基础维护的难度和工作量巨大 基于现有关系数据库或NoSQL数据构建 可以基础存储实现的强大功能 不需要分心管理底层的数据存 储 可按数据和应用的需求采用不同的底层存储 基于

13、现有数据库存储 三元组表 S P O 问题 大量自连接操作的开销巨大 3store Harris03 基于现有数据库存储 属性表 属性相似的主语聚为一张表 问题 1 RDF灵活性 2 属性未定查询 Jena property table Wilkinson06 基于现有数据库存储 垂直分割 以谓语划分三元组表 问题 1 大量数据表 2 删除属性代价大 Vertical partitioning Abadi07 VLDB Native RDF 存储方案 六重索引 SPO SOP PSO POS OSP OPS 优点 三元组模式查询 triple pattern 的高效执行 任意两个三元组模式的高

14、效归并连接 merge join 问题 1 6倍空间开销 如果是 S P O C 四元组呢 2 更新维护代价大 Hexastore Weiss08 VLDB RDF 3X Neumann08 VLDB 使用列数据模型存储三元组表 建立六重索引 RDF列式存储优于行式存储 三元组表 列式存储 六重索引 Native RDF 存储方案 Wang10 DBTA 图数据模型 节点 边 节点属性 边属性 Neo4j 节点存储 node store 关系存储 relationship store 属性存储 property store 优点 图查询语言 图挖掘算法 缺点 分布式存储实现代价高 数据更新速度

15、慢 大 节点处理慢 图数据库 原生图存储 应用多节点分布式服务器集群系统将三元组数据分布式存储 商业 AllegroGraph Microsoft Trinity Zeng13 VLDB OpenLink Virtuoso BigOWLIM 开源 Bigdata 分布式B 树 动态分片 dynamic sharding triple store SPO POS OSP quad store SPOC POCS OCSP CSPO PCSO SOPC 分布式存储方案 Jingwei分布式大规模RDF数据服务器 Wang12 APWeb 分布式存储方案 海翼知大规模三元组解决方案 大规模知识图谱存

16、储解决方案 数据思维 依据数据特点进行数据存储结构选 择与设计 No Size Fits All 没有一种通用的存储方案能够解决 所有问题 基础存储支撑灵活 基础存储可扩展 高可用 按需要进行数据分割 适时使用缓存和索引 善于利用现有成熟存储 保持图形部分数据的精简 不在图中作统计分析计算 在应用中进行扩充迭代 指导思想 整体原则 海翼知大规模三元组解决方案 大规模知识图谱存储最佳实践 1 1 基础存储 2 数据分割 可按数据场景选择使用关系数据库 NoSQL数据库及内存数据库 基础存储保证可扩展 高可用 属性表 依据数据类型划分 大属性单独列表 例如数量超过10M的属性单独列表 基本类型 整数表 浮点数表 日期类型表 集合类型 List型表 Range型表 Map型表 海翼知大规模三元组解决方案 大规模知识图谱存储最佳实践 2 3 缓存与索引 使用分布式 Redis 作为缓存 按需对数据进行缓存 对三元组表按需进行索引 最多情况下可建立九重索引 SPO SOP PSO POS OSP OPS SPO POS OSP 4 善于使用现在成熟存储 使用ElasticSearch实现数据的全

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 计算机应用/办公自动化

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号