大数据汇报内部华版

上传人:大米 文档编号:568460961 上传时间:2024-07-24 格式:PPT 页数:33 大小:4MB
返回 下载 相关 举报
大数据汇报内部华版_第1页
第1页 / 共33页
大数据汇报内部华版_第2页
第2页 / 共33页
大数据汇报内部华版_第3页
第3页 / 共33页
大数据汇报内部华版_第4页
第4页 / 共33页
大数据汇报内部华版_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《大数据汇报内部华版》由会员分享,可在线阅读,更多相关《大数据汇报内部华版(33页珍藏版)》请在金锄头文库上搜索。

1、大数据汇报内部华版大数据从何而来,互大数据从何而来,互联网技网技术发展展现状状?什么是大数据、云什么是大数据、云计算与大数据有什么算与大数据有什么关系、大数据关系、大数据类型?型?大数据如何大数据如何获取、存取、存储、处理、分析的理、分析的技技术?大数据怎么用、未来大数据怎么用、未来发展展趋势?Question大数据汇报内部华版互互联网网发展展趋势大数据汇报内部华版2024/7/244风云云变幻中幻中大数据汇报内部华版大数据汇报内部华版2024/7/2461.大数据 (Big Data)所所谓“大数据大数据”(big data)指的是)指的是这样一种一种现象:一个公司日常运象:一个公司日常运营

2、所生成和所生成和积累用累用户行行为数据数据“增增长如此之快,以至于如此之快,以至于难以使用以使用现有的有的数据数据数据数据库库管理管理管理管理工具来工具来驾驭,困,困难存在于数存在于数据的据的获获取取取取、存存存存储储、检检索索索索、共享共享共享共享、分析分析分析分析和和可可可可视视化化化化等方面。等方面。”这些数据量是如此之大,已些数据量是如此之大,已经不不是以我是以我们所熟悉所熟悉G或或T为单位来衡量,而是以位来衡量,而是以P P、E E或Z Z为计量量单位,所以称之位,所以称之为大数据。大数据。大数据汇报内部华版大数据的大数据的4V特性特性体量Volume多样性Variety价值密度Va

3、lue速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据汇报内部华版2.什么是云什么是云计算?算? 云云计算将算将计算任算任务分布在大量分布在大量计算机构成的算机构成的资源池上,是各种源池上,是各种应用系用系统能能够根据需根据需要要获取取计算力

4、、存算力、存储空空间和各种和各种软件服件服务。 云云计算的算的“云云”就是存在于就是存在于互互互互联联网上的服网上的服网上的服网上的服务务器集群上的器集群上的器集群上的器集群上的资资源源源源,它包括硬件,它包括硬件资源(服源(服务器、存器、存储器、器、CPU等)和等)和软件件资源(如源(如应用用软件、集成开件、集成开发环境等)本地境等)本地计算机只需算机只需要通要通过互互联网网发送一个需求信息,送一个需求信息,远端就会有成千上万的端就会有成千上万的计算机算机为你提供需要的你提供需要的资源并源并将将结果返回本地果返回本地计算机。算机。大数据汇报内部华版大数据汇报内部华版3.3.大数据大数据大数据

5、大数据类类型:型:型:型:结结构化与非构化与非构化与非构化与非结结构化数据构化数据构化数据构化数据数据模型:结构化数据:二维表(关系型)半结构化数据:树、图非结构化数据:无结构化数据:先有构化数据:先有结构、再有构、再有数据数据半半结构化数据:先有数据,再构化数据:先有数据,再有有结构构大数据汇报内部华版虚拟数据库信息管理系统(HIS)电子病历2024/7/24销售管理系统11关系数据关系数据关系数据关系数据库库曾曾曾曾经经是万能的是万能的是万能的是万能的关系数据模型CRM客户关系管理实时监控平台远程监护平台大数据汇报内部华版大数据汇报内部华版Google 大数据大数据处理技理技术作用:作用:

6、 - 成本降低,能用成本降低,能用PC机,不用大型机和高端存机,不用大型机和高端存储 - 软件容件容错硬件故障硬件故障视为常常态,通,通过软件保件保证可靠性可靠性 - 简化并行分布式化并行分布式计算,无算,无须控制控制节点同步和数据交点同步和数据交换- Google文件系统GFS(Google File System)- 并行数据处理MapReduce- 结构化数据表BigTable- 分布式锁管理Chubby大数据汇报内部华版技技术变革革云云计算:把集中的运算分散开来算:把集中的运算分散开来物物联网:把分散的网:把分散的设备连在一起在一起Hadoop:把大数据切成小模:把大数据切成小模块大数

7、据汇报内部华版大数据处理技术HadoopHadoop开源Apache项目,灵感来源于Google的三篇论文:BigTable、MapReduce、GFS;Hadoop核心组件包括:-分布式文件系统(HDFS)-分布式数据库存储系统(Hbase)-分布式计算构架(MapReduce)使用Java编写运行平台:Linux大数据汇报内部华版大数据汇报内部华版HDFS 体系架构体系架构HDFS:- 分布式文件存分布式文件存储系系统,存,存储海量的海量的数据;数据;- 数据冗余,硬件容数据冗余,硬件容错;- 流式的数据流式的数据访问;- 存存储大文件大文件;- 适合数据批量适合数据批量读写,吞吐量高;适

8、写,吞吐量高;适 一次写入,多次一次写入,多次读取,取,顺序序读写。写。- 不适合交互式不适合交互式应用,低延用,低延迟很很难 满足不支持多用足不支持多用户并并发写相同文件。写相同文件。HDFS 分布式文件系分布式文件系统大数据汇报内部华版大数据汇报内部华版大数据系大数据系大数据系大数据系统统 整体架构整体架构整体架构整体架构大数据汇报内部华版DataValue : 数据挖掘与分析数据挖掘与分析数据挖掘与分析数据挖掘与分析数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其含在其中的、人中的、人们事先不知道

9、的、但潜在的有用信息和知事先不知道的、但潜在的有用信息和知识的的过程。程。大数据汇报内部华版数据挖掘与分析数据挖掘与分析数据挖掘与分析数据挖掘与分析知知识发现(KDD)是从数据集中)是从数据集中识别出出有效的、新有效的、新颖的、潜在有用的,以及最的、潜在有用的,以及最终可理解的模式的可理解的模式的过程。程。数据挖掘是数据数据挖掘是数据库知知识发现(KDD)中)中不可缺少一部分不可缺少一部分大数据汇报内部华版数据挖掘基本方法数据挖掘基本方法预测建模建模:将已有数据和模型用于对未知变量的语言。(1)分类,用于预测离散的目标变量(2)回归,用于预测连续的目标变量关关联分析分析:反映一个事物与其他事物

10、之间的相互依存性和关联性。用来发现描述数据中强关联特征的模式。聚聚类分析分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似异常异常检测:识别其特征显著不同于其他数据的观测值大数据汇报内部华版实战项目目1 Python 网网络爬虫爬虫网网络爬虫爬虫是一个自动提取网页的程序/脚本,它可以搜索引擎从万维网上下载网页,是搜索引擎的重要组成。做为通用搜索引擎网页收集器(Google、Baidu)做垂直搜索引擎(51job、zhaoping、chinahr)科学研究:在线人类行为,在线社群演化,复杂网络,数据挖掘领域的实证科学研究,快速收集大量数据Task:

11、携程数据:携程数据库(游客数据、点(游客数据、点评记录)大数据汇报内部华版实战项目目2 数据分析及可数据分析及可视化化应用用1.Python2012年美国年美国总统大大选数据分析数据分析2.动态气泡气泡图的的实现3.热力感力感应图(heatmap.js)大数据汇报内部华版管理大数据管理大数据“易易”,理解大数据理解大数据“难”目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心.非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等.大数据汇报内部

12、华版大数据大数据驱动架构概念架构概念图大数据汇报内部华版2024/7/2427大大数据存储 云云计算技算技术是最理想的解决方案是最理想的解决方案!?!?大数据汇报内部华版2024/7/2428社会社会计算研究算研究大数据汇报内部华版2024/7/2429城市城市城市城市计计算的基本框架算的基本框架算的基本框架算的基本框架大数据汇报内部华版2024/7/24NWU 智能信息处理研究所30数字足迹与城市数字足迹与城市计算算出租出租出租出租车车GPS GPS GPS GPS 数字足迹数字足迹数字足迹数字足迹:不同时刻的城市热点检测、城市区域的功能特性分类、路径规划、出租车司机寻客策略、异常轨迹检测、城市道路交通流量预测等;移移移移动动社交网社交网社交网社交网络络数字足迹数字足迹数字足迹数字足迹:探索个人和群体移动模式、群体事件监测、个性化的兴趣点推荐和搜索服务、交叉重叠式社群的发现与诠释等;移移移移动电话动电话数字足迹数字足迹数字足迹数字足迹:测量城市交通系统效率、优化城市道路、人的移动性、地区经济发展、传染病预测、监测群体移动位置预测群体事件等。大数据汇报内部华版大数据大数据时代的代的发展展趋势大数据汇报内部华版大数据大数据时代的代的发展展趋势大数据汇报内部华版大数据大数据时代的代的发展展趋势大数据汇报内部华版

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号