第1章 大数据的起源和发展,起源和发展,,1.1 大数据起源及定义,1.大数据起源,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…,1.大数据起源,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。
1.大数据起源,2.大数据在计算机科学中处于最前沿,定义一:大数据指的是那些大小超过标准数据库工具软件能够收集、存储、管理和分析的数据集 —— 摘自麦肯锡 定义二:在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集其挑战包括采集、管理、存储、搜索、共享、分析和可视化 —— 摘自WIKI 定义三: “大数据“是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产从数据的类别上看,“大数据“指的是无法使用传统流程或工具处理或分析的信息它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集 —— 摘自Gartner 定义四:大数据本质上是数据交叉、方法交叉、知识交叉、领域交叉、学科交叉,从而产生新的科学研究方法、新的管理决策方法、新的经济增长方式、新的社会发展方式等等 —— 摘自复旦大学朱扬勇教授,3.大数据定义,1.2 大数据特征,大数据的4V特征,大体量(Volume)、多样性(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,简称4V特征。
大体量(Volume),数据基本单位换算: 1B(byte 字节)= 8b(bit 位) 1KB(Kilobyte 千字节)=1024B 1MB(Megabyte,简称“兆”)=1024KB 1GB(Gigabyte, 简称“吉”,又称“千兆”)=1024MB 1TB(Trillionbyte,简称“太”)=1024GB≈10^3GB 1PB(Petabyte,简称“拍”字节)=1024TB≈10^6GB 1EB(Exabyte,简称“艾”字节)=1024PB≈10^9GB 1ZB(Zettabyte,简称“泽”字节)= 1024EB≈10^12GB,大体量(Volume),在2006 年,个人用户才刚刚迈进TB 时代,全球一共新产生了约180EB 的数据;在2011 年,这个数字达到了1.8ZB 而根据知名市场研究机构IDC 的预测,到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)多样性(Variety),互联网、移动互联网、物联网、车联网等等各种数据来源大数据的数据结构更加多样化: 图像、视频、微博 评价、邮件 PDF、office文档(word, excel, ppt) 呼叫、短信 网页点击 搜索(html,搜索行为) 地图gps…… 非结构化数据增长率就达80%,而传统的数据样式:多半是数据库表和xml。
快速化(Velocity),每秒钟,人们发送290封电子邮件; 每分钟人们在youtube上传20小时的视频; 人们每月在总共在facebook上浏览7000亿分钟; 移动互联网网用户发送和上传的数据量达到1.3exabytes,相当于10的18次方; 每秒淘宝商城成交178笔订单 …… 实时股票分析(过期无用) 实时路况信息(过期无用) …… 数据的快速产生和实时响应是一大特征,价值密度低(Value),挖掘大数据的价值类似沙里淘金比如用户评价分析,几百万的评价记录,真正有借鉴意义的就几句比如视频监控,每天产生24小时的视频数据,真正有价值的就几秒钟1.3 大数据的构成,大数据 = 海量数据 + 复杂类型的数据,大数据包括: 交易数据和交互数据集在内的所有数据集,大数据的构成,海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据通过这些数据,我们能了解过去发生了什么海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。
可以告诉我们未来会发生什么海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的架构例如具有开放源码、在商品硬件群中运行的Apache Hadoop1.4 大数据面临的机遇和挑战,机遇一:如何使用数据资产?,包括个人信息、消费记录在内的海量数据当中,蕴含着大量有价值的信息,可以为企业经营、管理提供参考 互联网最为本质的一点,就是网民真实的展示了个人的想法,并能迅速为人所知心理学家说人类的细微行为,直接暴露内心的想法挖出真正有价值的“钻石”——数据挖掘和预测性分析,成为了决定组织在新时代成败的关键 如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,是“大数据”时代的核心问题,机遇二:大数据赋予我们洞察未来的能力?,马云成功预测2008 年经济危机 “2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断大数据带来的机遇判断出世界贸易发生变化了挑战一:大数据中有用信息的准确提取,,,,挑战二:大数据的信息安全,挑战三:大数据分析人才紧缺,。