POcean 海量数字资源系列产品白皮书

上传人:n**** 文档编号:37432290 上传时间:2018-04-16 格式:DOCX 页数:21 大小:6.29MB
返回 下载 相关 举报
POcean 海量数字资源系列产品白皮书_第1页
第1页 / 共21页
POcean 海量数字资源系列产品白皮书_第2页
第2页 / 共21页
POcean 海量数字资源系列产品白皮书_第3页
第3页 / 共21页
POcean 海量数字资源系列产品白皮书_第4页
第4页 / 共21页
POcean 海量数字资源系列产品白皮书_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《POcean 海量数字资源系列产品白皮书》由会员分享,可在线阅读,更多相关《POcean 海量数字资源系列产品白皮书(21页珍藏版)》请在金锄头文库上搜索。

1、使命:为政府及企业用户解决新媒体时代海量数字资源管理与利用的问题。愿景:成长为优秀的面向数字资源领域的大数据技术提供商,充分挖掘数字资源内在价值。产品白皮书POCEAN 海量数字资源系列=海量数字资源系列产品=新媒体 大数据 定制服务1大数据带来的机遇大数据带来的机遇随着信息技术特别是信息通讯技术的发展,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。政府中大量非结构化数据的存量,企业内部大量数据的处理需求产生了大数据发展的驱动力。大数据的包容性推进我国新媒体行业发展进度,打开传统的电视、广播、报纸等媒体之间的边界,消解国家之间

2、、社群之间、产业之间的边界,消解信息发送者与接收者之间的边界,政府各部门间、政府与市民间的边界,同时又能通过大数据应用提升新媒体行业服务水平。东软集团股份有限公司(以下简称东软)凭借在非结构化数据管理、互联网技术应用和海量数字资源处理方面的优势,基于分布式技术,结合政府和企业在新媒体时代海量数字资源采集、存储、搜索、分析利用方面的具体需求,开发出了针对海量数字资源相关的系列产品。图 业务蓝图2分布式资源采集系统分布式资源采集系统分布式资源采集系统是东软在大数据环境下,为满足海量数字资源搜集的要求而倾力打造的一款具有革命性架构设计的产品。系统面向不同数据类型,如日志文件、音频、视频、图片,网络资

3、源,社会化数据,提供不同的采集配置,充分满足大数据时代客户对多样化数据类型搜集的需求,针对不同数据级别的存储可灵活选择合适的存储方案。采用高可扩展性架构设计,完美支持新类型数据来源的采集及新类型的数据存储,为客户量身定制海量数字资源采集服务。全面全面大数据环境下,数据类型早已不再单一,包括以文本为主的结构化数据,网络日志、音频、视频、图片等等多类型的数据,同时还包括机器数据、社会化数据,面对这些多样性的数据来源,系统从采集、处理、存储整个流程提供全面的解决策略,包括不同类型数据源采集配置、多种数据存储方案、不同数据量级的采集任务。大数据大数据企业数据随着大数据时代的到来,越来越多以非结构化数据

4、的形式存在,未来可能会产生更多的数据类型,数据量也在不断剧增。针对多类型数据来源、不同数据量级的特点,以组件方式提供灵活的数字资源采集方案;基于弹性扩展架构实现海量 PB 级数据的高性能存储。基于分布式技术实现亿级数据的高性能采集。扩展性扩展性为了保障未来业务增长对采集扩展的新需求,以组件化的方式支持新类型数据源采集扩展、新类型存储方式的存储扩展;以分布式技术支持采集规模的扩展,提供可定制的采集服务,同时能够满足业务随需而变。3分布式资源采集系统分布式资源采集系统系统结构系统结构INTERNET信信息息采采集集DNS解析DNS解析DNS解析DNS解析HTTPDNS解析DNS解析DNS解析FTP

5、DNS解析DNS解析DNS解析CopherRISRISRIS URL 边界连接监控DNS解析DNS解析DNS解析链接抽取DNS解析DNS解析DNS解析标签连接DNS解析DNS解析DNS解析GiF状态文档指纹URL过滤URL监控LogLogURL缓存企 业 内 部 信 息 系 统Web管理控制端数数据据缓缓存存DBFile System内存信信息息加加载载集集群群管管理理性能监控告警故障恢复自动部署自扩展份负载均衡插插件件系系统统管理员管理终 端数据有效性识 别加载任务调度LogDNS解析DNS解析DNS解析Slave模块搜索引擎集群 插件仓储插件数据库插件信息系统插件文件系统插件主要功能主要功

6、能网络资源抓取,按照一定的规则自动的抓取互联网信息。对不同领域,不同背景的用户按照其关心的信息提供检索目录,过滤用户不关心的数据。更好的发现和获取图片、数据库、音频、视频多媒体等信息量密集且具有一定结构的数据。ETL 工具,用来描述将数据从来源端经过抽取(extract) 、转换(transform) 、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。集群,通过集群技术可以在付出较低成本的情况下获得在性能、可靠性、灵活性

7、方面的相对较高的收益,其任务调度则是集群系统中的核心技术。集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。集群具有提高性能,降低成本,提高扩展性,增强可靠性等特点。4分布式资源仓储系统分布式资源仓储系统基于 OAIS 标准和各组织机构数字资源特点形成的数字资源模型,采用高可靠架构设计,提供了面向海量数字资源的长期存储与管理,解决了资源的多样化展现、多层次关联、版本化管理等问题。实现了数字资源的组织管理、资源转换、资源存储以及资源分析等一系列管理功能。系统不绑定任

8、何底层存储结构,可根据业务特点定制存储模式。通过横向可扩展的弹性存储技术,支持 PB 级的海量资源存储,是一种全新的稳定、高效的数字资源存储解决方案。海量资源海量资源针对分布广泛、表现形式多样化的海量数字资源,我们采用了批量处理、分布式技术实现高效的存储。长期保存长期保存具有完整性、可读取、可移植等特性,有效的解决了资源多样性、资源多版本、资源多层次、资源间多关联的问题,为海量数字资源的长期存储提供保障。弹性存储弹性存储提供突破性的数据存取速度、更简易的管理以及随着数据量的增加,更加快速、经济地扩展技术基础架构的能力。5分布式资源仓储系统分布式资源仓储系统系统结构系统结构分布式资源仓储系统统一

9、资源 模型管理元数据管理专题库管理存储管理日志查询数据统计资源 模型 管理解 析 器资源 查询资源 出入 库管 理多维 度浏 览资源 流向 跟踪资源 多版 本管 理资源 审核回 收 站专题 库维 护专题 库权 限管 理存储 区域 管理存储 监控入库 日志出库 日志任务 日志接口 访问 日志统计 总览综合 统计6分布式资源仓储系统分布式资源仓储系统资源入库资源入库将资源以标准格式存储到仓储系统中进行长期保存,入库需要将资源按规则制作成 sip 包,给仓储中心管理员,由管理员执行入库。资源入库是按照批次入库的,资源入库前系统会为每一个新入库的资源分配一个唯一标识符。资源入库功能支持入库日志记录,记

10、录入库成功数量、失败数量。图 资源入库页面资源管理资源管理资源管理将形式多样的数字资源,基于统一数字资源模型进行管理,实现唯一标识符的生成、资源查看、检索、基本信息维护、删除功能。图 资源查询页面7图 资源详情页面资源综合统计资源综合统计根据选择的开始时间、结束时间和筛选条件,按选择的统计指标统计资源的数量、容量、时长,并以图表形式展现。图 资源综合统计页面8分布式资源搜索系统分布式资源搜索系统东软分布式资源搜索系统主要用于海量数字资源的搜索与展现。系统基于稳定的分布式架构,具有极高的可操作性、可扩展性和强大的容错性。系统专注于智能化与个性化的搜索,同时展现部分采用可定制的模板化技术,能够给用

11、户带来全新的搜索体验。东软分布式资源搜索系统为用户提供了一个功能更强大、效率更高、安全性更强的海量分布式搜索平台。极速极速系统基于分布式的计算体系,采用先进的搜索算法以及合理的索引结构,让用户能够在海量数字资源中,对资源进行快速精准的定位,为用户带来畅快的搜索体验。智慧智慧系统拥有一套智慧云服务,可以根据用户输入的关键字、检索结果内容,以及用户的检索行为信息,为用户提供更加便利的智能化检索服务,包括各种智能辅助查询功能以及个性化的搜索推荐等。一站式一站式系统提供一站式的搜索服务,包括对多个资源库的统一搜索、对多种资源类型的资源的统一搜索、对结构化与非结构化资源的统一搜索,以及聚合了互联网海量资

12、源的统一搜索。真正实现简单、高效、便捷的搜索服务。9分布式资源搜索系统分布式资源搜索系统系统结构系统结构分布式资源搜索系统公众服务后台管理大 众 检 索专 家 检 索自 动 补 全智 能 纠 错相 关 搜 索自 定 义 排 序分 类 导 航全 媒 体 播 放检索 条件 配置聚类 维度 配置排序 字段 配置排序 权重 配置聚类 维度 配置检索 词管 理模板 管理网站 统计 分析10分布式资源搜索系统分布式资源搜索系统全文搜索全文搜索支持对结构化数据和非结构化数据的统一索引,能够实现一键搜索索引数据的全部内容。图 全文搜索列表页图 全文搜索详细页专家搜索专家搜索支持多个字段的布尔查询,支持与、或、

13、非查询组合,使专家用户可以根据自己的需要更准确的查找定位信息。11图 专家搜索列表页图 资源详细信息页语义关联搜索语义关联搜索产品支持基于本体知识库的关联搜索,使用户在关键字外也能搜索到想要的信息。12图 关联搜索智能辅助查询智能辅助查询产品提供完善的智能辅助查询功能,包括自动补全、智能纠错、相关搜索等,减少用户思考量,提升用户的搜索体验。图 智能纠错13图 相关搜索定制展现定制展现产品为前台用户提供定制化的展现,管理员可通过简单的配置,灵活切换前台的展现风格。图 图片列表展现模板14图 图片列表展现模板统计分析统计分析产品提供对网站运营状态的实时统计分析功能,包括网站的访问量、下载量,网站访

14、问的地域信息等,帮助网站及时调整运营策略。图 网站概况统计15关系网络探索系统关系网络探索系统关系网络探索系统主要应用于资源及资源间的关系挖掘和关系发现,产品的核心由知识图谱、社会关系网络、关系探索与发现及知识挖掘组成。系统涵盖数据存储、数据编辑、数据资源统计、数据查询及数据可视化等功能。核心功能是对数据集中的大量数据做数据关系的探索和挖掘,用以支撑海量数据资源的知识挖掘、关系发现,并提供资源知识图谱。支持支持 RDF 数据查询数据查询/存储存储系统采用先进的数据查询及数据存储技术,能够快速分析和挖掘资源及资源间的关联关系。支持数据可视化功能支持数据可视化功能关系网络探索系统利用大数据可视化技

15、术将大型数据集中的数据以图形图像形式展现出来,并利用数据分析技术进行资源及资源间关系挖掘和关系发现。支持数据发现与关系探索支持数据发现与关系探索通过资源间的关系描述从海量的、复杂的数据资源中发现潜在的知识及资源间潜在的关联关系。 16关系网络探索系统关系网络探索系统系统结构系统结构主要功能主要功能关系网络探索系统涵盖数据存储、数据编辑、数据资源统计、数据查询及数据可视化等功能。核心功能是对数据集中的大量数据做数据关系的探索和挖掘。关系网络探索系统采用先进的数据存储技术和数据查询技术,能够快速分析和挖掘资源及资源间的关联关系;并结合数据可视化技术进行数据的清晰呈现。关系网路探索系统是基于用户对大

16、量数据资源的数据探索和关系发现而开发的一套系统。系统通过可视化的配置页面,协助用户对大量资源及资源间的关联关系进行分析和发现。基于数据可视化技术,帮助用户快速、清晰地展现数据资源及资源间的关系。17关系网络探索系统关系网络探索系统数据探索数据探索对系统中的数据集进行查询,探索数据与数据之间潜在的某种关系,并将其展示出来。系统支持条件过滤功能,可以根据事物之间的关系进行过滤。图 数据探索页关系发现关系发现对系统中的数据集进行查询,发现数据与数据之间存在的某种关系,并将其展示出来。系统支持按照关系深度进行查询,用以查询事物之间按不同深度存在的潜在关系。图 关系发现页 18案例案例-数字图书馆项目数字图书馆项目1.国家数字图书馆数字资源发布与服务系统软件开发项目:以资源为中心、服务为宗旨。本项目集读者门户、特色资源门户、统一检索、面向读者个性化服务与定

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号