大数据与信息采集简介.

上传人:最**** 文档编号:118470894 上传时间:2019-12-15 格式:PPTX 页数:63 大小:8.86MB
返回 下载 相关 举报
大数据与信息采集简介._第1页
第1页 / 共63页
大数据与信息采集简介._第2页
第2页 / 共63页
大数据与信息采集简介._第3页
第3页 / 共63页
大数据与信息采集简介._第4页
第4页 / 共63页
大数据与信息采集简介._第5页
第5页 / 共63页
点击查看更多>>
资源描述

《大数据与信息采集简介.》由会员分享,可在线阅读,更多相关《大数据与信息采集简介.(63页珍藏版)》请在金锄头文库上搜索。

1、大数据与信息采集简介 提纲 大数据的由来及现状 大数据带来的挑战:信息采集 更多挑战:大数据的管理与分析 大数据与云计算 世界是数字的 数据的前世今生 4 step 3 step 2 step 1 step 纸质数据 文件系统 数据库 管理系统 数据仓库和 数据挖掘 大数据时代 Big Data 什么是大数据 1 KB = 1024字节 存储单位 1 MB = 1024 KB 1 GB = 1024MB 1 TB = 1024GB 1 PB = 1024TB = 1,048,576 GB 1 EB = 1024PB = 1,073,741,824 GB 1 ZB = 1024EB = 1,09

2、9,511,627,776 GB 100万 G 10亿 G 1万亿 G22亿台 215万台 2100台 500G硬盘电脑 15寸电脑排成行可以往返一次月球 Intel:人类文明开始到2003年 地球共产生了5EB数据. 2012年全年,全球产生数据2.7ZB 是 2003年以前的500倍 2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆 2000年 数字信息占全球数据量的25% 75%都在报纸 胶片 磁带等媒介 2013年 数字信息 98% 非数字信息 2% 2012年 全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年 每天会有 2.

3、88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年 每天亚马逊上将产生 6.3 百万笔订单 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB Google 上每天需要处理24PB 的数据 新的时代,人们从信息的被动接受者变成了主动创造者 大数据时代到来 Big Data 什么是大数据商业数据现状 Twitter 2007年 5000条微博更新/天 2008年 30万条微博更新/天 2009年 250万条微博更新/天

4、2010年 3500万条微博更新/天 2011年 2亿条微博更新/天 2013年 4亿条微博更新/天 2013年 上传时长12年的视频/天 2013年 用户分享25亿条信息/天 一个单数据表几亿-几百亿条 记录 下线商品14亿件,在线商品8 亿件 淘宝数据库存了20PB数据 平均每月增加1.5PB 智能移动终端设备的巨量增长 数据规模指数增长 数字大爆炸 GB TB PB EBZ B 地球上至今总共的数据量: 在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量

5、将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)! 1GB = 230字节 1TB = 240字节 1PB = 250字节 1EB = 260字节 1ZB = 270字节 为什么? facebo ok 社交网络 淘宝、 ebuy 电子商务 微博、 Apps 移动互联 21世纪是数据信息大发展的时代,移动互联、社交 网络、电子商务等极大拓展了互联网的边界和应用 范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博 )、物联网(传感器,智慧地球)、车联网、GPS 、医学影像、安全监控、金融(银行、股市、保险 )、电信(通话、短信)都在疯狂产生着数据。 信息技

6、术的广泛应用提高了数据的处理能力,更提 高了数据的产生能力,道高一尺,魔高一丈。 这些由我们创造的信息背后产生的这些数据早已经 远远超越了目前人力所能处理的范畴 大数据时代正在来临. 数据规模指数增长 数字大爆炸 数据库数据仓库 面向应用面向主题 当前数据历史数据 数据是可更新的数据不可更新 避免数据冗余有意引入冗余 支持事务处理支持决策分析 数据操作频繁操作相对不频繁 10 数据分析:数据库和数据仓库 11 数据仓库和数据挖掘 数据库 数据仓库 不可知的价 值 提取数据 数据挖掘 示例:“尿布与啤酒”的故事 示例:你开心他就买你焦虑他就抛 华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的

7、工作之一,就 是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以 “1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万 美元计的股票。 霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦 虑情绪上升,那就抛售。 这一招收效显著当年第一季度,霍廷的公司获得了7%的收益率 12 大数据分析 大数据分析:吃货集中营 大数据分析:关联分析 大数据分析:可视化 大数据分析:趋势预测 从谷歌流感趋势看大数据的 应用价值 “谷歌流感趋势”,通过跟踪 搜索词相关数据来判断全美地区 的流感情况 大数据应用场景 美国零售商和怀孕预测 VISA信用卡与商户推荐 股

8、票投资 智能电表 广告投放 中国粮食统计 人的数字化 京东信用贷款和淘宝数据魔方 UPS快递的最佳行车路径 数据源:规模庞大,通常在PB级 数据结构:非结构化,需要进行量化打分,转换成结构化 、数值型数据以便理解和分析 分析逻辑:更简单,性能是瓶颈 性能:实时性要求更高 大数据分析的特点 什么是大数据? Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools. 大数据(big da

9、ta,mega data),或称巨量资料,指 的是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、高增长率 和多样化的信息资产。 大数据的4V特征 “大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视

10、频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 Volume 数据量 PB是大数据层次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数 据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍

11、Volume 数据量 Dalles数据中 心位于俄勒冈 州的哥伦比亚 河旁,河上的 Dalles大坝为 数据中心提供 电力。数据中 心有2座4层楼 高的冷却塔。 Google数据中心 Google数据 中心以集装 箱为单位, 每个集装箱 有1160台服 务器,每个 数据 中心有 众多集装 箱。 23 Google一次搜索查询的能耗能点 亮100瓦的灯泡11秒钟。 Microsoft数据中心 微软在美国 芝加哥的数 据中心.总面 积为70万平 方英尺。即 使只启用半 数服务器,能 耗也达到30 兆瓦。 24 Variety 多样性 企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中

12、人与人交互 信息,位置信息等是大数据的主要来源. 结构化数据、半结构化数据和非结构化数据 如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更 高的要求 结构化数据半结构化数据非结构化数据 指关系型数据表指关系结构与内容混合 在一起的数据类型, xml 文档、视频、音频、图片 20% 结构化 80%非结构化 企业数据2012年互联网产生的数据 25% 结构化 75%非结构化 50%-70% 源于人与 人的互动 Value 价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低,是大数据的一个典型特征. Value 价值 未来大数据的产业规模将会至少以

13、万亿美 元来进行衡量 美国医疗保健 每年产值达3000亿美金 每年生产率增长约0.7% 制造业 最多可节省50%的产品研 发、组装成本 最多可节约7%的营运资金 美国零售业 净利率增长可能高达60%+ 每年生产率增长0.5-1.0% 欧洲公共部门管理 每年2500亿欧元 每年生产率增长约0.7% 全球个人定位数据 1000亿+的服务供应商收入 为终端用户带来高达7000 亿美的价值 Velocity 速度 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的. 大数据的惊人不止是在数量上,同时数据还是巨量具有动态分析价值的数 据。 访问响应时间的加快,

14、数据库读写速度的加快,对电商企业来说就等于多成 交。 对于很多情况下,动态的数据价值远大于静态数据,比如气象预测,灾难预 测,快消行业等。 实时处理的要求,是区别大数据应用和传统数据仓库技术,BI技术的关键差别之 一. 6000万用户登录/天 20亿次 页面访问/天 每天1.2亿次网站访问 响应时间小于100毫秒 Velocity 速度 数据的采集速度的加快导致处理时间都需要有相应的提高 在线数据分析 (Online Data Analytics) 决策的延误 商机的消失 实例 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测 用户的喜好 在合适的时间和地点发送用

15、户感兴趣的产品和店铺 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务 大数据 提纲 大数据的由来及现状 大数据带来的挑战:信息采集 更多挑战:大数据的管理与分析 大数据与云计算 大数据从哪里来? 海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机分析数据, 是结构化的、通过关系数据库进行管理和访问的静态、历史数据。 通过这些数据,我们能了解过去发生了什么。 大数据从哪里来? 海量交互数据: 源于Facebook、Twitter、微信,微博及其他来源的社交媒体数据 构成。它包括了呼叫详细记录CDR、传送的海量多媒体文件、Web 文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来 会发生什么。 马云成功预测2008 年经济危机 “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对 中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提 前半年时间从询盘上推断出世界贸易发生变化了。” 通常而言,买家在采购商品前,会比较多家供应商的产品,反映 到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的 数量会保持一个相对的数值,综合各个维度的数据可建立用户行 为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在 这个案例中,询盘数据的下降,自然

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号