大数据技术导论课件

上传人:des****85 文档编号:293631565 上传时间:2022-05-17 格式:PPT 页数:31 大小:6.11MB
返回 下载 相关 举报
大数据技术导论课件_第1页
第1页 / 共31页
大数据技术导论课件_第2页
第2页 / 共31页
大数据技术导论课件_第3页
第3页 / 共31页
大数据技术导论课件_第4页
第4页 / 共31页
大数据技术导论课件_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《大数据技术导论课件》由会员分享,可在线阅读,更多相关《大数据技术导论课件(31页珍藏版)》请在金锄头文库上搜索。

1、内内 容容1.1.什么是大数据什么是大数据2.2.研究背景研究背景3.3.深入思考深入思考1什么是大数据什么是大数据v定义定义1 1: 大数据是指无法在一定时间内用常大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)和处理的数据集合(维基百科定义) Big data usually includes data sets with Big data usually includes data sets with sizes beyond the ability of commonly-used sizes beyond

2、the ability of commonly-used software tools to capture, curate, manage, software tools to capture, curate, manage, and process the data within a tolerable and process the data within a tolerable elapsed time. - Wikielapsed time. - Wiki2什么是大数据什么是大数据v定义定义2 2:3V3V Big Data are Big Data are high-volume,

3、 high-high-volume, high-velocity, and/or high-variety velocity, and/or high-variety information assets that require information assets that require new new forms forms of processing to enable enhanced of processing to enable enhanced decision making, insight discovery and decision making, insight di

4、scovery and process optimization - process optimization - GartnerGartner 3大数据的4V特性VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天4q大数据及其大数据及其4V4V特征特征海量数据规模(海量数据规模(volume):):TBTB级级 PB PB级级快速处理(快速处理(velocity):):快速数据流转和动

5、态数据体系快速数据流转和动态数据体系多样数据类型(多样数据类型(variety):):数据类型繁杂数据类型繁杂巨大数据价值(巨大数据价值(value):):价值稀疏、多样、不确定价值稀疏、多样、不确定q值得关注的大数据的若干研究方向值得关注的大数据的若干研究方向分布式数据存储与管理:分布式数据存储与管理:对大数据进行存储与管理对大数据进行存储与管理数据挖掘与商务智能:数据挖掘与商务智能:对大数据规律进行挖掘与发现对大数据规律进行挖掘与发现物联网与物联网与CPSCPS:产生与形成大数据产生与形成大数据云计算及服务平台:云计算及服务平台:存储和处理大数据及其业务存储和处理大数据及其业务关注点:关注

6、点:海量数据处理海量数据处理 = = 分布式存储与管理分布式存储与管理 = = 云计算云计算 = 数据挖掘与分析数据挖掘与分析 = = 海量业务处理海量业务处理 = = 大服务大服务什么是大数据什么是大数据v定义定义3:3: 当数据的当数据的规模和性能要求规模和性能要求成为数据管理分析系统成为数据管理分析系统的的重要设计和决定因素重要设计和决定因素时,这样的数据就被称为大数时,这样的数据就被称为大数据据不是简单地以数据规模来界定大数据,要考虑数据查询不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度与分析的复杂程度v以目前计算机硬件的发展水平看以目前计算机硬件的发展水平看针对针对

7、简单查询简单查询(如关键字搜索),数据量为(如关键字搜索),数据量为TBTB至至PBPB级级时时可称为大数据可称为大数据针对针对复杂查询复杂查询(如数据挖掘),数据量为(如数据挖掘),数据量为GBGB至至TBTB级级时即时即可称为大数据可称为大数据6什么是大数据什么是大数据定义定义4:4: 大数据有两个基本特征不同于传统的数据大数据有两个基本特征不同于传统的数据集:集: 1.1.大数据不一定存储于固定的数据库,而大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间是分布在不同地方的网络空间 2.2.大数据以半结构化或非结构化数据为主,大数据以半结构化或非结构化数据为主,具有较高的复杂性

8、。具有较高的复杂性。7内内 容容1.1.什么是大数据什么是大数据2.2.研究背景研究背景3.3.深入思考深入思考8克强指数(Li keqiang index):耗电量铁路货运量银行贷款发放量英国著名政经杂志经济学人认为:克强指数比官方GDP数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为40%、25%和35%。大数据涉及诸多不同的领域大数据涉及诸多不同的领域用户生成数据Deep Web数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据11大数据的价值大数据的价值v科研价值科研价值1998 年图灵奖得主、数据库技术奠基人Jim Gray认为数据驱动的研究将是第四

9、种科学研究范式v”The Fourth Paradigm: Data-Intensive Scientific Discovery”大数据已为多个不同学科的研究工作提供了宝贵机遇v经济价值经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%v工业价值工业价值分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解二次开发:创造出新产品和服务。例如Facebook通过结合大量用

10、户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式v社会价值社会价值例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态v其他价值其他价值Data is the next Intel Inside. The future belongs to the companies and people that turn data into products. -著名出版公司著名出版公司OReilly的创始人的创始人Tim OReilly12深网深网挖掘挖掘深空深空探索探索20122012年我国神州年我国神州九号进入太空九号进入太空深海深海探测探测20122012年我国蛟龙号

11、年我国蛟龙号探测水下探测水下70007000米米实现大数据价值的实现大数据价值的深度挖据和高度利用深度挖据和高度利用!大数据的战略意义大数据的深度资源挖掘与价值利用是国家战略大数据的深度资源挖掘与价值利用是国家战略 从从 深空深空 + + 深海深海 深网深网13大数据的现实需求:感知现在大数据的现实需求:感知现在14感知现在感知现在:历史数据与当前:历史数据与当前数据的融合数据的融合, 潜在线索与潜在线索与模式的挖掘模式的挖掘, 事件、群体与社会发展事件、群体与社会发展状态的感知状态的感知中国发展指数(物价、环境、健康)中国发展指数(物价、环境、健康)需求:需求:掌握现状,如淘宝掌握现状,如淘

12、宝CPICPI、环境指数、环境指数难点:难点:PBPB级社会媒体数据,百亿级日志数据,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,结构与非结构数据关联,历史与流式数据并存历史与流式数据并存犯罪线索挖掘犯罪线索挖掘需求:需求:发现线索发现线索, ,如罪犯行为轨迹如罪犯行为轨迹难点:难点:PBPB级日志数据、级日志数据、EBEB级监控数据中级监控数据中发现嫌疑人及其行为模式犹如发现嫌疑人及其行为模式犹如大海捞针大海捞针问题与挑战:问题与挑战:数据数据规模巨大、模态规模巨大、模态多样多样、关联复杂关联复杂、真伪难真伪难辨辨 现有数据处理方法现有数据处理方法感知度量难、特征融合难感知度量难、

13、特征融合难、模式挖掘难模式挖掘难14大数据的现实需求:预测未来联合国联合国“全球脉动全球脉动”(Global Pulse):(Global Pulse):利用网络大数据预测失业率与疾病爆发利用网络大数据预测失业率与疾病爆发等现等现象,利用数字化的早期预警信号来提前指导象,利用数字化的早期预警信号来提前指导援助项目。援助项目。问题与挑战:问题与挑战:数据数据交互性强、实时性强交互性强、实时性强、动态演变、动态演变,导致传统数据计算方法:,导致传统数据计算方法:数据生命周期的割裂、时效性数据生命周期的割裂、时效性与准确与准确性难以兼顾、演变趋势难以预测性难以兼顾、演变趋势难以预测基于基于Twitt

14、er Twitter 数据的选举结果预测数据的选举结果预测: :通过对通过对TwitterTwitter等网上公开数据的实时感知、动等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选态获取与综合分析,结合仿真调控,预测大选结果。结果。预测未来:预测未来:全量数据、流式数据、离线数据全量数据、流式数据、离线数据的关联分析,的关联分析,态势与效应态势与效应的判定与调控,的判定与调控,揭示事物发展的揭示事物发展的演变规律演变规律,进而,进而对事物发展趋势进行预测对事物发展趋势进行预测15美国的大数据规划美国的大数据规划- -大数据上升为国家意志大数据上升为国家意志v2012年3月2

15、9日,美国联邦政府整合6个部门宣布2亿美元的“Big Data Research and Development Initiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。Core Technologies for Advancing Big Data Science & EngineeringData to Decisions1000 Genomes Project Data Available on CloudScientific Discovery Throug

16、h Advanced ComputingBig Data for Earth System ScienceXDATA16欧盟的大数据规划欧盟的大数据规划- -基础设施是先导基础设施是先导vHorizon 2020 - The Framework Programme for Research and Innovation面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域vGRDI 2020 - Global Research Data Infrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合vFP7 Call 8 Intelligent Information Management - Big Data预算5千万欧元,2012-1-17截止目标:v提升发现、分析、开采、使用大数据及其基础设施的能力v通过对大数据收集与分析创造更大价值v探索基于大规模互联数据资源与专用基础设施的新型科学研究v面向大数据的人力资源开发17学术界对大数据的关注n20122012年年1 1月,月,Nature

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号