{管理信息化大数据分析}大数据技术导论32

上传人:卓****库 文档编号:140935397 上传时间:2020-08-02 格式:PPTX 页数:32 大小:7.48MB
返回 下载 相关 举报
{管理信息化大数据分析}大数据技术导论32_第1页
第1页 / 共32页
{管理信息化大数据分析}大数据技术导论32_第2页
第2页 / 共32页
{管理信息化大数据分析}大数据技术导论32_第3页
第3页 / 共32页
{管理信息化大数据分析}大数据技术导论32_第4页
第4页 / 共32页
{管理信息化大数据分析}大数据技术导论32_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《{管理信息化大数据分析}大数据技术导论32》由会员分享,可在线阅读,更多相关《{管理信息化大数据分析}大数据技术导论32(32页珍藏版)》请在金锄头文库上搜索。

1、大数据技术 导论,周 可 华中科技大学,1,内 容,什么是大数据 研究背景 深入思考,2,3,什么是大数据,定义1: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义) Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture, curate, manage, and process the data within a tolerable elapsed time. - Wiki,4,什么是大

2、数据,定义2:3V Big Data are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization - Gartner,大数据的4V特性,5,大数据及其4V特征 海量数据规模(volume):TB级 PB级 快速处理(velocity):快速数据流转和动态数据体系 多样数据类型(vari

3、ety):数据类型繁杂 巨大数据价值(value):价值稀疏、多样、不确定,值得关注的大数据的若干研究方向 分布式数据存储与管理:对大数据进行存储与管理 数据挖掘与商务智能:对大数据规律进行挖掘与发现 物联网与CPS:产生与形成大数据 云计算及服务平台:存储和处理大数据及其业务 关注点:海量数据处理 = 分布式存储与管理 = 云计算 = 数据挖掘与分析 = 海量业务处理 = 大服务,7,什么是大数据,定义3: 当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据 不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度 以目前计算机硬件的发展水平看

4、 针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据 针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据,8,什么是大数据,定义4: 大数据有两个基本特征不同于传统的数据集: 1.大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间 2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。,内 容,什么是大数据 研究背景 深入思考,9,克强指数(Li keqiang index): 耗电量 铁路货运量 银行贷款发放量,英国著名政经杂志经济学人认为:克强指数比官方GDP数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为40%、25%和35%

5、。,12,大数据涉及诸多不同的领域,用户生成数据,Deep Web数据,多模态内容数据,天文,气象,基因,医学,经济,物理,其他领域,网络与关系数据,13,大数据的价值,科研价值 1998 年图灵奖得主、数据库技术奠基人Jim Gray认为数据驱动的研究将是第四种科学研究范式 ”The Fourth Paradigm: Data-Intensive Scientific Discovery” 大数据已为多个不同学科的研究工作提供了宝贵机遇 经济价值 麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益 著名Gartner公司:到20

6、15年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20% 工业价值 分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解 二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式 社会价值 例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态 其他价值,Data is the next Intel Inside. The future belongs to the companies and people that turn data in

7、to products. -著名出版公司OReilly的创始人Tim OReilly,深网挖掘,深空探索,2012年我国神州九号进入太空,深海探测,2012年我国蛟龙号探测水下7000米,实现大数据价值的深度挖据和高度利用!,大数据的战略意义,大数据的深度资源挖掘与价值利用是国家战略 从 深空 + 深海 深网,14,大数据的现实需求:感知现在,15,感知现在:历史数据与当前数据的融合, 潜在线索与模式的挖掘, 事件、群体与社会发展状态的感知,问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨 现有数据处理方法感知度量难、特征融合难、模式挖掘难,15,大数据的现实需求:预测未来,联合国“全球

8、脉动”(Global Pulse): 利用网络大数据预测失业率与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目。,问题与挑战:数据交互性强、实时性强、动态演变,导致传统数据计算方法: 数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测,基于Twitter 数据的选举结果预测: 通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。,预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测,16,17,美国的大数据规划-大数据上升为国家意志,2012年3月29日,美国

9、联邦政府整合6个部门宣布2亿美元的“Big Data Research and Development Initiative” 促进采集、存储、维护、管理、分析和共享海量数据的核心技术; 利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习; 培养开发和使用大数据技术的人力资源。,Core Technologies for Advancing Big Data Science & Engineering,Data to Decisions,1000 Genomes Project Data Available on Cloud,Scientific Discovery Thro

10、ugh Advanced Computing,Big Data for Earth System Science,XDATA,18,欧盟的大数据规划-基础设施是先导,Horizon 2020 - The Framework Programme for Research and Innovation 面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域 GRDI 2020 - Global Research Data Infrastructures 建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合 FP7 Call

11、8 Intelligent Information Management - Big Data 预算5千万欧元,2012-1-17截止 目标: 提升发现、分析、开采、使用大数据及其基础设施的能力 通过对大数据收集与分析创造更大价值 探索基于大规模互联数据资源与专用基础设施的新型科学研究 面向大数据的人力资源开发,19,学术界对大数据的关注,2012年1月,Nature Physics上出版专刊“Complexity” 特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇,2008年,Nature出版专刊“Big Data” 从互联网技术、互联网经济学、超级计算、环境科学、生物医

12、药等多个方面介绍了大数据所带来的技术挑战,2011年,Science刊登专刊“Dealing with Data” 讨论了数据洪流(Data deluge)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,2012年4月,欧洲信息学与数学研究协会会刊ERCIM News上出版专刊“Big Data” 讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展,20,大数据会议/Workshop,学术会议,工业会议,内 容,什么是大数据 研究背景 深入思考,22,24,

13、大数据总量增长态势,25,目前大数据的规模,IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB (1021 ) 。 IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量 2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。 数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据

14、类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。,26,目前大数据规模示例,天文观测数据: Sloan Digital Sky Survey: 2000年部署 几周收集的数据比历史上收集的数据还多 每晚收集200G的数据,已收集了140TB=1.4x105GB的数据 Large Synoptic Survey Telescope: 2016年完成部署 每5天可收集105GB的数据 物理实验数据: Large Hadron Collider: 2010年一年产生13PB =1.3x107GB数据 互联网数据: Facebook:用户超7亿,每月上传10亿照片,每天生成3x10

15、5GB日志数据 淘宝:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生2x104GB数据 IBM估计: 全球每天生成2.5EB=2.5x109GB数据,90%的已有数据是过去两年生成的 Cisco预测: 到2013年,互联网上的数据将达到667EB = 6.67x1011GB,27,收集的数据还没有实现高度共享和深度利用 2.超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量 3.时空属性:包含时间与位置信息 4.模糊高维:数据未必精确和完整:传感器误差,网络中断 5.数据维度高:例如一次体检可以得到数百项生命体征数据,大数据特点,28,大数据与常规数据的对比,常规

16、数据,范围广,模态多,增长快,关联繁,数据规模较小,模态属性受限,增长速度较慢,关联相对简单,稠密与稀疏共存,冗余与缺失并在,动态与静态互现,显式与隐藏均有,特性,问题,描述与存储的挑战,分析与理解的挑战,挖掘与预测的挑战,挑战,大数据,应用目标 相对比较明确,数据结构相对比较简单,时序长,持续时间较短,处理方法通常为模型化、参数化,钱学森“综合集成”理论的启示一个科学新领域- 开放的复杂巨系统及其方法论,钱学森-戴汝为:“综合集成”(meta-synthesis) 科学方法论 “综合集成”可以解读为从定性到定量的科学研讨厅(hall for workshop) “综合集成”方法论: 1 + 1 2 J.自然杂志,1990,大数据时代的软件服务工程拓新“综合集成的迭代整合”科学方法论,“综合集成”可拓展为以科研社交网络的民主形式,从定性到定量的科研整合 “定性”:是指面向领域或主题、运用专家的定性智慧,建立大数据处理知识的聚类,形成少数几种可能的大数据价值服务的基本解决方案

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号