第5章-可视化关键技术-.pptx

上传人:bao****ty 文档编号:136318642 上传时间:2020-06-27 格式:PPTX 页数:42 大小:4.75MB
返回 下载 相关 举报
第5章-可视化关键技术-.pptx_第1页
第1页 / 共42页
第5章-可视化关键技术-.pptx_第2页
第2页 / 共42页
第5章-可视化关键技术-.pptx_第3页
第3页 / 共42页
第5章-可视化关键技术-.pptx_第4页
第4页 / 共42页
第5章-可视化关键技术-.pptx_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《第5章-可视化关键技术-.pptx》由会员分享,可在线阅读,更多相关《第5章-可视化关键技术-.pptx(42页珍藏版)》请在金锄头文库上搜索。

1、,高级大数据人才培养丛书之一,大数据挖掘技术与应用,何光威 主编 郑志蕴 梁英杰 朱琼琼 副主编,BIG DATA,刘 鹏 张 燕 总主编,大数据可视化,高级大数据人才培养系列丛书,of,45,2,习题,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,3,对于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数

2、据类型和价值密度低四大特征。 ITU Y.3600标准首先明确给出了大数据的定义:一种允许可能在实时性约束条件下收集、存储、管理、分析和可视化具有异构特征的大量数据集的模式。 国内普遍接受的定义:具有数量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的数据。因此大数据的内涵不仅是数据本身,还包括大数据技术和大数据应用。,。,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,4,大数据的数据特征,有4V、5V、7V或11V特征等来描述。 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息(量); 速度(Velocity):指获得数据的速度,实

3、时获取需要的信息(速); 种类(Variety):结构化数据、半结构化数据和非结构化数据(类); 价值(value):价值密度低;合理运用大数据,以低成本创造高价值(价); 真实性(Veracity):数据的质量,数据清洗,去伪存真(真); 可视化(Visualization):可视化可推动大数据的普及应用(普); 粘性(Viscosity):改善用户体验,增加用户对媒体的粘性(粘); 上述定义都有一定的道理,特别是5V定义,目前已经被越来越多地接受。大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注相关关系。也就是说,只要知道“是什么”,而不需要知道“为什么”。 哪5V?,。,第5

4、章 大数据可视化的关键技术,of,45,5,5.1大数据架构,一个概念体系,二个价值链维度,指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色-活动-功能组件”,用于描述参考架构中的逻辑构件及其关系,“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。,大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,6,大数据参考架构图的整体布局按

5、照代表大数据价值链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,7,参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,8,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,9,第5章 大数据可视化的关键技术,of,45,10,收集活动用于处理与数据提供者的接口。它可以是一般服务,也可以是特定于应用的服务。 预处理活动执行的任务类似于ETL的转换(trans

6、formation)环节,包括数据验证、消洗、去除异常值、标准化、格式化或封装。 分析活动的任务是实现从数据中提取出知识。分析活动还可以使用大数据框架提供者的消息和通信框架在应用逻辑中传递数据和控制功能。 可视化活动的任务是将分析活动结果以最利于沟通和理解知识的方式展现给数据消费者。可视化的功能包括生成基于文本的报告或者以图形方式渲染分析结果。可视化的结果可以是静态的,存储在大数据框架提供者中供以后访问。可视化活动可以完全由应用程序实现,也可以使用大数据框架提供者提供的专门的可视化处理框架实现。 访问活动主要集中在与数据消费者的通信和交互,访问活动与数据消费者的接口可以是同步或异步的,也可以使

7、用拉或推软件机制进行数据传输。,5.1大数据架构,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,11,第5章 大数据可视化的关键技术,of,45,12,基础设施为其他角色执行活动提供存放和运行大数据系统所需要的资源。 数据平台通过相关的应用编程接口(APl)或其他方式,提供数据的逻辑组织和分发服务。 处理框架提供必要的基础软件以支持实现的应用能够处理具有4V特征的大数据。 消息和通信框架为可水平伸缩的集群的结点之间提供可靠队列、传输、数据接收等功能。它通常有2种实现模式,即点对点(point-to-point)模式和存储-转发 (store-and-forward)模式。 资源

8、管理活动负责解决由于大数据的数据量和速度特征而带来的对CPU、内存、I/0 等资源管理问题。有两种不同的资源管理方式,分别是框架内(intra-framework)资源管理和框架间(inter-framework)资源管理。,5.1大数据架构,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,13,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,14,5.1大数据架构,第5章 大数据可视化的关键技术,of,45,15,5.2大数据核心技术,第5章 大数据可视化的关键技术,of,45,16,数据收集,1,大数据时代,数据的来源及其广泛,数据有不同的类型和格式,同时呈现爆

9、发性增长的态势,这些特性对数据收集技术也提出了更高的要求。 数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。,5.2大数据核心技术,第5章 大数据可视化的关键技术,of,45,17,数据预处理,2,数据预处理的引入,将有助于提升数据质量,并使得后继数据处理、分析、可视化过程更加容易、有效,有利于获得更好的用户体验。 数据预处理形式上包括数据清理、数据集成、数据归约与数据转换等阶段。,第5章 大数据可视化的关键技术,of,45,18,数据清理技术包括数据不一致性检测技术、脏数据识别技术、数据过滤技术、数据修正技术、数据噪声的识别与平滑技术等

10、。 数据集成把来自多哥数据源的数据进行集成,缩短数据之间的物理距离,形成一个集中统一的(同构/异构)数据库、数据立方体、数据宽表与文件等。 数据归约技术可以在不损害挖掘结果准确性的前提下,降低数据集的规模,得到简化的数据集。归约策略与技术包括维归约技术、数值归约技术、数据抽样技术等。 经过数据转换处理后,数据被变换或统一。数据转换不仅简化处理与分析过程、提升时效性,也使得分析挖掘的模式更容易被理解。数据转换处理技术包括基于规则或元数据的转换技术、基于模型和学习的转换技术等。,5.2大数据核心技术,5.2大数据核心技术,第5章 大数据可视化的关键技术,of,45,19,数据存储,3,分布式存储与

11、访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。 目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。,第5章 大数据可视化的关键技术,of,45,20,不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。,1.分布式文件系统 分布式文件系统是由多个网络节点组成的向上层应用提供统一的文件服务的文件系统。 使用分布式文件系统时,无需关心数据存储在哪个节点上,只需像本地文件系统一样管理和存储文件系统的数据。目前常用的分布式磁盘文件系统有HDFS(

12、Hadoop分布式文件系统)、GFS(Google分布式文件系统)、KFS(Kosmos distributed file system)等;常用的分布式内存文件系统有Tachyon等。,5.2大数据核心技术,2.文档存储 文档存储支持对结构化数据的访问,不同于关系模型的是,文档存储没有强制的架构。事实上,文档存储以封包键值对的方式进行存储且文档存储模型支持嵌套结构 与键值存储不同的是,文档存储关心文档的内部结构。这使得存储引擎可以直接支持二级索引,从而允许对任意字段进行高效查询。主流的文档数据库有MongoDB、CouchDB、Terrastore、RavenDB等。,第5章 大数据可视化的

13、关键技术,of,45,21,3.列式存储 列式存储将数据按行排序,按列存储,将相同字段的数据作为一个列族来聚合存储。 按列存储还可以承载更大的数据量,获得高效的垂直数据压缩能力,降低数据存储开销。使用列式存储的数据库产品有传统的数据库仓库产品,如Sybase IQ、InfiniDB、Vertica等,也有开源的数据库产品,如Hadoop Hbase、Infobright等。,5.2大数据核心技术,4.键值存储 键值存储,即Key-Value存储,简称KV存储,它是NoSQL存储的一种方式。它的数据按照键值对的形式进行组织、索引和存储。键值存储一般不提供事务处理机制。主流的键值数据库产品有Red

14、is、Apache Cassandra、Google Bigtable等。,5.图形数据库 图形数据库是主要用于存储事物以及事物之间的相关关系,这些事物整体上呈现复杂的网络关系,可以简单的称之为图形数据。图形数据库可用于对真实世界的各种对象进行建模,如社交图谱,以反应这些事物之间的相互关系,主流的图形数据库有Google Pregel、Neo4j、Infinite Graph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等。,第5章 大数据可视化的关键技术,of,45,22,6.关系数据库 关系模型是最传统的数据存储模型,它使用记录(由元组组成)

15、按行进行存储,记录存储在表中,表由架构界定。表中的每个列都有名称和类型,表中的所有记录都要符合表的定义。SQL是专门的查询语言,提供相应的语法查找符合条件的记录 统的关系型数据库厂商结合其它技术改进关系型数据库,比如分布式集群、列式存储,支持XML,Json等数据的存储。,5.2大数据核心技术,7.内存存储 内存存储是指内存数据库(MMDB)将数据库的工作版本放在内存中,由于数据库的操作都在内存中进行,从而磁盘I/O不再是性能瓶颈,内存数据库系统的设计目标是提高数据库的效率和存储空间的利用率。内存存储的核心是内存存储管理模块,其管理策略的优劣直接关系到内存数据库系统的性能。基于内存存储的内存数

16、据库产品有Oracle TimesTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等产品。,5.2大数据核心技术,第5章 大数据可视化的关键技术,of,45,23,数据处理,4,分布式数据处理技术一方面与分布式存储形式直接相关,另一方面也与业务数据的温度类型(冷数据、热数据)相关。目前主要的数据处理计算模型包括MapReduce计算模型、DAG计算模型、BSP计算模型等。,5.2大数据核心技术,第5章 大数据可视化的关键技术,of,45,24,数据分析,5,大数据分析技术包括已有数据信息的分布式系统技术,以及未知数据信息的分布式挖掘和深度学习技术。 分布式统计分析技术基本都可由数据处理技术直接完成,分布式统计分析技术基本都可由数据处理技术直接完成。 分布式挖掘和深度学习技术则可以进一步细分为: 1.聚类 2.分类 3.关联分析 4.深度学习,5.2大数据核心技

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号