大数据回报需要明确的问题

上传人:新** 文档编号:562641998 上传时间:2023-05-28 格式:DOC 页数:14 大小:237KB
返回 下载 相关 举报
大数据回报需要明确的问题_第1页
第1页 / 共14页
大数据回报需要明确的问题_第2页
第2页 / 共14页
大数据回报需要明确的问题_第3页
第3页 / 共14页
大数据回报需要明确的问题_第4页
第4页 / 共14页
大数据回报需要明确的问题_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《大数据回报需要明确的问题》由会员分享,可在线阅读,更多相关《大数据回报需要明确的问题(14页珍藏版)》请在金锄头文库上搜索。

1、.大数据回报需要明确的问题老实说,大数据是一桩大生意, Wikibon预计其将以每年31%的速度增长,并在2017年达到50亿美元的销售额。虽然迄今为止,大量砸入大数据的投资都犹如石沉大海。今年早些时候,InfoChimps的调研结果显示55%的大数据项目都遭受失败。大数据思辨( Think Big Analytics)公司的CEO Bodkin指出,大部分大数据项目的失败都可以归结到几点原因:无明确的商业目标,未结合实际业务需求、不足的预算、缺少规划以及未指定项目的实施X围。(数据分析技术的缺乏只会让大数据在未来五年内的前景更不乐观。)就算是那些现在成功的大数据项目,也很可能因未能给业务运营

2、带来实时效益,而不被IT部门之外的人理解,最终导致失败。大数据项目的花费来源于销售业绩,但它创造的价值存在于物流和金融。据塔塔咨询服务的调研报告最新的大数据回报形式显示,全球各地的企业主要把大数据的投资放在销售、市场和用户服务上。但其实说为的大数据金矿,是分布在企业业务的各个角落里的。例如,最有潜力的利益回报就包括发掘客户需求和客户价值,产品质量、活动效果和存货追踪。如何用大数据来减少客户流失Bodkin着重提到了两点。首先是关于互联网的,在这里我们可以从智能终端和联网设备上搜集到必须的数据信息,来促进销售、提供项目管理决策、提高生产率、减少浪费和驱动通用公司谈到的“工业互联网”。其次是医疗保

3、健,也就是常常被人谈论到的健康产业的“口袋发明”,基因研究和穿戴设备技术都将在医患关系中起到核心的改变。“可穿戴设备其实已经有很多,但最大的挑战还是在于将分散的设备中的数据集成起来,构建出一个综合的图表,来显示病人的健康状况。”Bodkin 如是说。但有这些还远远不够,下一步是再将个人的心率、饮食习惯、运动、睡眠习惯数据整合进来,描绘出一幅完整的健康图表。“医疗保健科技的难点在于其信息互通和集成,但精确的个人健康状况报告和建议所带来的价值将远远超过与一年一度的体检。这将是大数据价值的重要体现。”Bodkin说道。犯规来,这也将大大提升人们参与到数据收集的工作中去。大数据的下一步该怎么走Bodk

4、in告诉我们,大数据项目的下一步应该不仅仅是将数据搜集起来,而是要迅速将其转化为预测性分析、自动商务决策并把它当成一种资本投入到商业中。同时,在不同的渠道提供相同的消费体验,也更加有利于客户关系的维护。他们会真心感谢公司能够360度地照顾到他们的感受,无论是在网上、手机上或者实体的活动中。随着大数据技术在接下来的五年里日趋成熟,为了让数据分析能更上一层楼,我们需要加速集成大数据的”单点应用“。他们需要进行比现在更复杂得多的数学运算,Bodkin说道。可喜的是,这种技术讲越来越普及,就像基本的计算机操作一样。浪擎科技作为国内最大的备份容灾软件厂商,始终致力于各种数据实时备份、数据库实时复制技术研

5、发的厂商,具备完整的技术架构和多系列的产品。既有高端的基于应用层的、备端在线的镜像系统,以及基于私有云架构的大型灾备中心方案,又有基于逻辑卷层的实时数据复制产品,还有容错CDP级的产品线。下面就浪擎科技的各种核心技术在大数据方面的应用来展开说明。一、 浪擎现有的、核心的数据复制、传输技术浪擎科技基于已有的结构化数据和非结构化数据的复制传输技术来探讨大数据传输的实现按。浪擎现有的核心关键技术:1)分布式并行传输,后续“静态的非结构化数据的复制、移动”说明。并行传输的工作原理其实是先分后合的数据处理方式。分解:把海量数据分割成了若干部分,分给多台处理器并行传输;合并:把各台处理器传输后的结果进行汇

6、总操作以得到最终结果。2)重复数据删除,后续“静态的非结构化数据的复制、移动”说明)。浪擎科技的基于文件块的增量传输技术可以在源端删除90% 的冗余备份和归档数据,这种方式将目标端存储中的重复数据删除,将网络中发送的数据量锐减90%,藉此显著加快将大量备份或归档数据迁移的速度。3)结构化数据的实时感知与捕捉,后续“动态的结构化数据的实时复制、移动”章节说明。4)活动的、结构化数据的追逐式复制,后续“动态的结构化数据的实时复制、移动”章节说明。通过使用分布式并行传输控制、镜像复制技术、重复数据删除等技术,可以显著缩短了迁移大量数据所需的时间。以下章节详细说明非结构化数据和结构化数据复制、移动。二

7、、 静态的非结构化数据的复制、移动非结构化数据一般指文件类型数据,如音视频文件、office文件、网页文件、CAD制图文件、科研数据等等,以及现在互联网各种应用产生的数据大多以文件形态来存储。浪擎科技的文件传输通信协议(OFTP),是浪擎科技为满足大规模的数据传输历经四年自主研发的一种高效传输协议,简称OFTP,可应用在长距离、低可靠性的窄带网络上进行数据传输复制。1. 浪擎的文件传输通信协议(OFTBP)协议具备以下技术特性: 并行优化增量传输 数据压缩 传输一致性校验 网络断开自动重连 数据包丢失自动重排重发等目前,一般的数据传输协议,如传统的 FTP协议或RCP协议,在进行网络传输的过程

8、中存在着很多弊端。如传输的数据量、性能、准确性等都不能达到TB设置PB级要求。与这些传统的传输协议相比较,在安全性、可靠性、承载能力、扩展性上具有明显的优势。OFTBP协议包含消息头和消息主体两个部分。消息头对消息主体进行描述,包括文件名称、大小、文件属性集合、传输算法等字段;消息主体存放需要传输的数据包。为减少不必要的传输量,在编码时可对数据包进行压缩;为确保在传输过程中的一致性和准确性,必需对数据包进行传输一致性校验。校验码是根据传输数据按特定摘要算法生成,附在数据包后。镜像服务器收到数据包再按照摘要算法生成一个校验码,与传送来的校验码进行比较,从而确定数据的一致性和准确性。如果不匹配,则

9、要求重传。OFTBP协议与算法必需满足这样的需求: 网络传输缓冲区自适应管理能力,根据文件大小自动调节网络传输窗口大小。 多连接并行传输,可支持多个连接传输。 增量传输,两端相同的文件不需要传输,仅传输不同文件块。 网络连接重连技术,当网络连接失败时重新连接。 智能分块技术,使得传输流量均分到每个连接上。 文件分块传输(部分文件传输),可支持并行传输和断点续传。 文件滑动摘要计算技术,使计算负荷和文件I/O符合降到最低。 文件完整性校验,保证传输完成后两端文件一致。2. 并行优化增量传输技术(POIT)文件传输采用复杂的并行优化增量传输算法实现大规模的文件系统复制。该算法对传输任务智能分解成更

10、小的任务,然后并行控制传输,最大限度的利用可利用的网络带宽;其次,对于已经镜像过的文件在以后镜像时,将采用优化增量传输,仅复制不同的数据块,尽量降低网络流量,极大的提升传输速度。增量传输算法采用基于文件块的比较,即在滑动窗口控制下对文件分块和对块作摘要运算,然后逐块比较摘要,只传输不同文件块。增量传输示意图增量传输算法主要的过程如下:分块checksum将目标端的数据按照定量分块,比如512字节一块。并且对每一块分别进行checksum。然后将所有checksum传回到源端。哈希checksum查找比对源端将目标端传输过来的checksum放入哈希 Table。并且同样开始进行分块checks

11、um,在每一块checksum结果产生后在哈希Table中查找。如果找到对应记录,那么表明这一块数据两边完全一致,无需传输。反之表明这一块数据中有不相同的数据,需要传输。3. 文件变化实时感知检测(FRP)镜像代理内嵌各种操作系统的虚拟文件系统驱动程序。在Winows操作系统上根据WDM驱动程序模型实现文件系统过滤驱动程序;在Linux、AIX、Solaris等操作系统上通过内核模块实现虚拟文件系统过滤驱动程序。在运行时,镜像代理向操作系统注册并请求加载该驱动程序。在载入操作系统后,该驱动程序实时捕获文件系统的操作动作,从而使得文件镜像可以实时感知文件的变化,而无需极耗资源的轮询文件系统来获取

12、变化。4. 支持功能并行传输对于文件或目录均可实现传输任务智能分解,然后并行控制传输。增量传输采用基于文件块的优化增量传输技术,仅传输和目标文件不同的文件块,尽量减少在网络上的传输流量。重复数据删除在数据传输之前或之后对数据进行分析,将传输或存储一份相同的数据。减少数据传输量以及数据存储占用量。断点续传支持断点续传功能,当传输某文件失败,下一次重新传输时,在优化增量传输控制下,将从上一次的传输点开始传输后续的文件块。文件变化实时感知检测镜像代理内嵌各种文件系统的驱动程序。在运行时,该驱动程序实时捕获文件系统的操作动作,从而使得文件备份可以实时感知文件的变化,而无需极耗资源的轮询文件系统来获取变

13、化。可选定文件或目录来复制或移动系统支持仅备份指定的文件或目录;也可采用修改时间、大小、文件或目录名组成正则表达式进行过滤。并可过滤指定的文件动作,例如过滤删除动作,不删除目标文件或目录。支持各种文件格式支持Office文档格式、HTML、TXT、PDF;支持音视频文件格式;支持其他二进制文件格式;支持大文件备份系统采用64位表达文件长度尺寸,支持超过2GB的大文件传输备份,例如500GB大小的文件。支持异构操作系统平台之间的传输备份系统支持在不同操作系统之间的传输备份和存储。例如,将Windows的Office文档传输备份至AIX;或将Solaris的二进制数据文件传输备份至AIX。数据传输

14、一致性和准确性校验确保文件在传输后与源端的文件一致相同。5. 应用场合 拥有TB级别以上数据的医疗系统(如PACS) 档案文档中心 互联网的非结构化数据(NOSQL)移动三、 动态的结构化数据(数据库)的实时复制、移动动态变化的数据通常指在线业务系统的存储数据,例如,证券交易的数据、社交网络的聊天数据、电信的计费数据、医疗的HIS数据、电子商务的交易数据等等。这些业务系统都非常关键,支撑国民经济的正常运行,因此要保障其自身的安全与稳定。但是,这些业务系统的要求非常苛刻,必需要有适合这些用户群体的技术才能满足其需求。浪擎科技的双活数据复制技术正是满足这样的需求。一般而言,这些关键业务系统都把数据

15、放到后台的关系数据库中,因此可以称这些数据为结构化数据。浪擎科技的双活数据复制技术其实质就是动态的、实时的从一个关系数据库复制或迁移到另外一个关系数据库。当然,目标关系数据库可以放置到异地。关系数据库的数据复制、移动必需满足这样的要求: 适应业务系统724小时不间断运行的特点; 必须保证源端数据库与目标端数据库的一致性和完整性; 无需停止业务、无需申请停机时间; 数据的丢失控制在60秒以内; 必须支持两端硬件环境的异构,目标端的服务器选型、磁盘阵列选型不受现有源端的限制; 可实现分布复制,即多对一的复制、移动;数据库复制采用ACA(应用捕获与分析)引擎,实时捕获源端生产系统的生产数据,然后解析成数据库记录,然后再通过目标端存储进程保存到目标数据库中,且保持目标数据库实例的可用性。6. 浪擎科技的核心技术ACA引擎工作原理1)复制引擎架构数据库复制引擎包括代理、复制服务器软件两大部件。代理包含操作系统驱动程序、事务日志实时捕获器、事务日志分析器、传输控制器和任务队列等;复制服务器包含接收队列、SQL应用机构等。2)复制流程事务日志实时捕获器通过操作系统内核驱动驱动程序实时监控源数据库事务日志文件和捕获其变化数据;事务日志分析器通过数据字典将日志数据解析还原成数据库记录,并过滤不需要复制的表或其他数据库对象;传输控制器从任

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号