大数据技术及其应用电子教案

上传人:yulij****0329 文档编号:129668627 上传时间:2020-04-23 格式:DOCX 页数:20 大小:57.76KB
返回 下载 相关 举报
大数据技术及其应用电子教案_第1页
第1页 / 共20页
大数据技术及其应用电子教案_第2页
第2页 / 共20页
大数据技术及其应用电子教案_第3页
第3页 / 共20页
大数据技术及其应用电子教案_第4页
第4页 / 共20页
大数据技术及其应用电子教案_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《大数据技术及其应用电子教案》由会员分享,可在线阅读,更多相关《大数据技术及其应用电子教案(20页珍藏版)》请在金锄头文库上搜索。

1、第一章 大数据概论当移动通信和互联网给我们带来的生活方式、思维方式的巨大改变还没有消退的时候,大数据时代以排山倒海之势到来,什么是大数据?大数据能为人们带来哪里益处?大数据如何改变人们的生活、工作和学习?大数据下的政府、企业和过去有什么不同?这一系列的问题困扰着很多人,甚至连一些专家学者也对此迷惘。在人人都谈大数据的时代并不是每个人都真正理解大数据的精髓,因此本章给读者简单的介绍一下大数据的定义、原理、方法、应用及存在的问题。以后各章将介绍与大数据有关的技术、工具、商业模型及应用案例等,引导读者逐步深入,了解和掌握大数据的基本知识和技能,为从事大数据及其相关产业打下基础。1.1大数据的定义大数

2、据(Big Data)是指数据量大到用常规工具和方法无法进行处理的蕴含着大量价值的数据集合。因此大数据的核心是价值,数据量大只是大数据的表象,这也是为什么大数据引起业界广泛关注的重要原因。由此可见,对于大数据的研究和应用主要集中于两点:一、从技术层面研究大数据的模型及处理算法、开发相应的处理工具等;二、从商业模式层面寻找大数据的商业模型、盈利模式、产业发展等。维克托迈尔-舍恩伯格和肯尼斯库克耶编写的大数据时代中指出大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值

3、)。从该定义看来大数据仍然体现在数据量大和价值两方面。知名研究机构Gartner对大数据给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。Gartner的定义更多的倾向于大数据的决策优化作用。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有价值的数据进行专业化处理。换言之,如果把大数据比作一种产业,初级或者粗糙的大数据产业主要是提高对数据的“加工能力”,通过“加工”实现数据的“增值”;而更高层次的大数据产业将数据信息产生的价值应用到具体的行业,发挥行业价值,从而实现数据信息价值的倍增。这样才能真正体现大数

4、据的价值所在。1.2 大数据与海量信息的关系在10年前,我们经常听到一个名词“海量信息”,用来描述大量数据,这是在信息技术飞速发展的大背景下,数据量增加带来的现实问题,为此国家在“十一五”期间还加大的对海量信息及其相关技术的研究。下面是国家科技部“973”计划对信息领域的项目资助指南。“十一五”期间,信息领域基础研究的发展目标是根据国际信息技术的发展趋势,结合我国的国情和发展状况,着重从信息获取、处理、传输、存储、再现、安全、利用,信息系统的基础元器件、信息处理环境、科学计算、人工智能、控制理论等方面开展系统深入的研究,为我国信息产业的跨越式发展奠定坚实的理论和技术基础。 “十一五”期间,重点

5、研究方向包括: (1)微纳集成电路、光电子器件和集成微系统的基础研究; (2)信息处理环境及科学计算的基础研究; (3)泛在、可控的下一代信息网络的基础研究; (4)信息获取的基础研究; (5)高可信、高效率软件的基础研究; (6)智能信息处理、和谐人机交互的基础研究; (7)海量信息处理、存储及应用的基础研究; (8)量子通信的基础研究; (9)信息安全的基础研究从科技部973重大基础研究计划资助的领域中可以看出,国家加大了对海量信息的研究力度,这里就产生了一个疑问,大数据大还是海量数据大?二者有何联系?又有什么区别?海量信息仅仅是从数据量上进行界定,海量数据指数据量巨大,用普通的方法和工具

6、处理起来相对困难,其计算时间和运算量较大,需要开发新的存储、处理和挖掘等技术才可以进行快速处理。大数据的数据量明显远大于海量数据,当然二者没有严格的区分门限,通常意义上讲,大数据的数据量要大于海量数据。海量数据的很多分析处理技术可以用于大数据的分析与处理,同样大数据的相关理论和方法同样可以用于海量数据。大数据不仅仅从量上进行了分析,而且从本质上进行了定义,突出了其核心价值。因此可以说大数据是海量数据的升级,大数据更突出了数据的本质。既然谈到数据量的问题,这里有必要介绍关于数据量的一些常见数量单位。数据的最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、

7、EB、ZB、YB、BB、NB、DB。它们按照进率1024(210)来计算:1 Byte= 8bit 1 KB = 1,024 Bytes1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1

8、,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB当前用的最多的关于大数据描述的数量级是TB和PB,一般行业或者政府机构的数据基本在PB级上,比如目前某省的农业数据大概有几百TB到几十个PB之间,全国的每天产生的交通数据大概是几个到几百个TB量级上。因此,如此大量的数据用传统的数据库存储、查询和处理方式无法实现数据的实时处理,导致时效性大打折扣,甚至不可用,例如在追击逃犯的时候,需要快速查出犯罪分子的行动路线、推测他可能去的地方等,如果数据处理速度较慢,很容易错过机会。同样在商业领域,每天的电子商务交易

9、记录、顾客浏览记录等都是大量的数据,因此这些数据的处理都需要快速。1.3 大数据的来源与特点随着电子信息技术和互联网的飞速发展,各种电子设备和数据终端迅速走入寻常百姓家庭,以移动通信发展为代表的手机等客户端产生大量的数据;以PC为代表的微机时代产生了大量的计算机数据;以数码相机为代表的电子设备产生大量的视频、图片数据;以互联网为代表的网络应用产生大量的web数据。因此大数据的产生是源于信息技术的发展和普及。所以遍布全球的物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,无一不是数据来源或者承载的方式。大数据的存在形式多种多样,这也决定了大数据的处理非常困难,需要运用

10、数学、统计学、物理学等知识进行全方位的研究。比如大数据可以是包括网络日志,RFID,传感器网络,社会网络,社会数据,互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;大规模的电子商务等等。大数据分析相比于传统的数据库应用,具有数据量大、查询分析复杂等特点。大数据的4个“V”是指大数据有四个层面特点:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。如网络日志、视频、图片、音频、文档、地理位置信息等等。第三,处理速度快,极短的时间可从各种类型的数据中快速获得具有较

11、高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。因此业界将其归纳为4个“V”Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度高)。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点使该技术引起众多企业的关注。大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。1.4

12、 大数据的用途大数据可分成大数据技术、大数据工程、大数据科学和大数据应用几个部分。每部分侧重点不同,目前人们关注最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。大数据的应用范围非常广,可以说,需要信息的地方就需要大数据。为了便于给读者直观的了解,下面简单的介绍几个大数据应用场景。第一,利用大数据探索实现信息库的充实。客户服务、保险、汽车、医疗、教育、交通和技术标准等行业需要储备规模巨大的知识库,而庞大繁杂手册和知识系统会造成重复查询,导致系统延

13、迟和成本上升。例如,IBM Info Sphere Data Explore使某全球航空制造商中的技师、支持人员和工程师能够即时通过单一访问点查看位于不同应用程序中的信息。部署第一年,该公司全天候支持的呼叫时间从过去的50分钟缩短为15分钟,每年节约3600万美元。第二,利用运营分析实现运营优化。制造、能源、公共事业、电信、旅行和运输等行业需要时刻关注突发事件、通过大数据分析和视频监控提升运营效率并预测潜在风险。巴基斯坦移动运营商Ufone部署了IBM大数据解决方案,通过实时识别用户行为,开展应对特定目标的营销活动,并使用预测分析来设计更好的营销活动和电话推广计划,有效降低了客户流失率。第三,

14、利用数据仓库扩充实现IT效率和规模效益提升。企业需要增强现有数据仓库基础架构,实现大容量数据传输、低时延、和实时查询需求,确保有效利用预测分析和商业智能实现企业效益和管理水平的提升。某汽车制造商利用IBM Info Sphere Big Insights增强原有数据仓库,实现快速部署并且更易于管理。第四,利用安全性和智能扩展实现犯罪防范,实现社会和谐稳定。政府、保险、银行、消防、教育等行业亟待利用大数据技术补充和加强传统的安全解决方案。重点人群的监控、重点领域的布防、重要事件的预防和应急灯都需要大数据来实现准确的预测、预防和定位等。秘密情报和监视传感器系统供应商Terra Echos通过部署I

15、BM Info Sphere Streams,能够实时分析流式传输的声学数据并对其进行分类,并将实时捕获和分析275MB声学数据所需的时间从数小时减少到十四分之一秒,同时大幅提升监控精确度。第五,利用大数据实现广告的精准推送,由于用户对垃圾邮件和烦人的广告比较讨厌反感,各国都在加大整治垃圾邮件和非法广告的力度,而网络广告商在收取广告费用的时候通常是按用户的点击数或者链接等,而不考虑广告的效果。商家花出的广告费却没有收到相应的效果,普通用户收到不需要的广告会反感,而需要广告的人未必收到广告信息。因此如果利用大数据技术,分析客户的喜好和行为习惯,将广告精准推送给需要的人,既不会产生垃圾信息,又能使

16、客户的费用得到合理的使用。由此可见,大数据可以为广告行业提供精准的服务,提升数据价值。其他应用比如洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号