大数据技术概论

上传人:876****10 文档编号:130739609 上传时间:2020-05-01 格式:PPT 页数:177 大小:13.46MB
返回 下载 相关 举报
大数据技术概论_第1页
第1页 / 共177页
大数据技术概论_第2页
第2页 / 共177页
大数据技术概论_第3页
第3页 / 共177页
大数据技术概论_第4页
第4页 / 共177页
大数据技术概论_第5页
第5页 / 共177页
点击查看更多>>
资源描述

《大数据技术概论》由会员分享,可在线阅读,更多相关《大数据技术概论(177页珍藏版)》请在金锄头文库上搜索。

1、S 大数据技术 张博士2015年5月 5 1 2020 目录 大数据技术概论云数据库技术数据挖掘技术商业智能 5 1 2020 BigData名词由来 20世纪90年代 数据仓库之父的BillInmon就经常提及BigData 2011年5月 在 云计算相遇大数据 为主题的EMCWorld2011会议中 EMC抛出了BigData概念 5 1 2020 大数据的产生 21世纪是数据信息大发展的时代 移动互联 社交网络 电子商务等极大拓展了互联网的边界和应用范围 各种数据正在迅速膨胀并变大 互联网 社交 搜索 电商 移动互联网 微博 物联网 传感器 智慧地球 车联网 GPS 医学影像 安全监控

2、金融 银行 股市 保险 电信 通话 短信 都在疯狂产生着数据 5 1 2020 数量级概念 1KB 2 10 B 1024B 1MB 2 10 KB 1024KB 2 20 B 1GB 2 10 MB 1024MB 2 30 B 1TB 2 10 GB 1024GB 2 40 B1PB 2 10 TB 1024TB 2 50 B1EB 2 10 PB 1024PB 2 60 B 5 1 2020 数量级概念 Kilobyte KB 1024B相当于一则短篇故事的內容 Megabyte MB l024KB相当于一則短篇小說的文字內容 Gigabyte GB 1024MB相当于贝多芬第五交响乐的演

3、奏视频內容 Terabyte TB 1024GB相当于一家大型医院中所有的X光照片信息 Petabyte PB l024TB相当于50 的全美学术图书馆信息內容 Exabyte EB 1024PB 5EB相当于至今全世界人类所讲过的话语 5 1 2020 信息通讯进入新时代 5 1 2020 摩尔定律 5 1 2020 后摩尔时代 5 1 2020 计算机演进 5 1 2020 信息计算体系演进 5 1 2020 软件技术网络化演进 5 1 2020 传输技术的发展 5 1 2020 从移动数据到移动流媒体 5 1 2020 移动通信峰值速率的提升 5 1 2020 互联网发展 从电信到泛在服

4、务 5 1 2020 联网主机数量 5 1 2020 电视网络化智能化与三网合一 5 1 2020 视频流量成为主流 5 1 2020 全球骨干网流量 5 1 2020 中国互联网干线带宽 5 1 2020 中国互联网用户 5 1 2020 移动终端功能的演进 5 1 2020 移动互联网加快普及 5 1 2020 智能终端引领后PC时代 5 1 2020 移动数据流量超过话音 5 1 2020 全球移动数据流量 5 1 2020 移动互联网流量 5 1 2020 互联网上1分钟 5 1 2020 互联网上的1天 5 1 2020 照片 5 1 2020 大数据时代到来 5 1 2020 大数

5、据定义 5 1 2020 大数据例子 5 1 2020 科学研究催生大数据 5 1 2020 物联网催生大数据 5 1 2020 安全监控的数据量 5 1 2020 环境监测催生大数据 5 1 2020 医疗病历隐藏大数据 5 1 2020 国际关注大数据 5 1 2020 大数据的4V特征 大量化 Volume 多样化 Variety 快速化 Velocity 价值密度低 Value 就是 大数据 的显著特征 或者说 只有具备这些特点的数据 才是大数据 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长总数据量的80 90 比结构化

6、数据增长快10倍到50倍是传统数据仓库的10倍到50倍 大数据的异构和多样性很多不同形式 文本 图像 视频 机器数据 无模式或者模式不明显不连贯的语法或句义 大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析 机器学习 人工智能Vs传统商务智能 咨询 报告等 实时分析而非批量式分析数据输入 处理与丢弃立竿见影而非事后见效 5 1 2020 大数据的4V 5 1 2020 大数据的划分 5 1 2020 大数据技术挑战 5 1 2020 大数据技术挑战 5 1 2020 大数据平台技术 5 1 2020 分布式存储与架构 5 1 2020 大数据的并行处理 5 1 2020 大数据并行处理

7、分析 5 1 2020 大数据可视化分析 5 1 2020 虚拟化与可视化 5 1 2020 大数据可视化 5 1 2020 目录 大数据技术概论云数据库技术数据挖掘技术商业智能 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1 2020 Google云数据库 GFS架构 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1 2020 Google云数据库 5 1

8、2020 GoogleVsHadoop 5 1 2020 Haddop是什么 5 1 2020 Hadoop发展编年 5 1 2020 5 1 2020 Hadoop子项目 5 1 2020 Hadoop特性 5 1 2020 5 1 2020 Hadoop物理部署 5 1 2020 Hadoop集群 5 1 2020 Hadoop用户 5 1 2020 HDFS 5 1 2020 HDFS 5 1 2020 HDFS能做什么 适合不适合 5 1 2020 HDFS组件 5 1 2020 HDFS主要组件功能 5 1 2020 HDFS架构 5 1 2020 HDFS文件 5 1 2020 H

9、DFSNameNode 5 1 2020 5 1 2020 HDFSDataNode 5 1 2020 HDFS可靠性保障 5 1 2020 HDFS可靠性保障 5 1 2020 HDFS可靠性保障 5 1 2020 提升性能的措施 5 1 2020 HDFS 节点失效是常态 5 1 2020 DataNode磁盘挂了 5 1 2020 DataNode机器挂了 5 1 2020 NameNode挂了 5 1 2020 5 1 2020 Client挂了 5 1 2020 MR HBase 5 1 2020 WhyMapReduce 5 1 2020 大规模数据分析 5 1 2020 大规模数

10、据处理 5 1 2020 MR特性 5 1 2020 M R 5 1 2020 5 1 2020 MR编程 5 1 2020 5 1 2020 5 1 2020 5 1 2020 5 1 2020 单一Reduce处理 5 1 2020 多个Reduce处理 5 1 2020 MR流程 5 1 2020 5 1 2020 目录 大数据技术概论云数据库技术数据挖掘技术商业智能 5 1 2020 数据挖掘技术的由来 大量信息在给人们带来方便的同时也带来了一大堆问题 第一 是信息过量 难以消化 第二 是信息真假难以辨识 第三 是信息安全难以保证 第四 是信息形式不一致 难以统一处理 网络之后的下一个

11、技术热点 5 1 2020 数据挖掘技术的由来 要学会抛弃信息 如何才能不被信息淹没 而是从中及时发现有用的知识 提高信息利用率 数据开采和知识发现 DMKD 技术应运而生 网络之后的下一个技术热点 5 1 2020 数据挖掘技术的由来 随着数据库技术的迅速发展以及数据库管理系统的广泛应用 人们积累的数据越来越多 激增的数据背后隐藏着许多重要的信息 人们希望能够对其进行更高层次的分析 以便更好地利用这些数据 目前的数据库系统可以高效地实现数据的录入 查询 统计等功能 但无法发现数据中存在的关系和规则 无法根据现有的数据预测未来的发展趋势 缺乏挖掘数据背后隐藏的知识的手段 导致了 数据爆炸但知识

12、贫乏 的现象 数据爆炸但知识贫乏 5 1 2020 数据挖掘技术的由来 海量数据搜集强大的多处理器计算机数据挖掘算法 支持数据挖掘技术的基础 5 1 2020 数据挖掘技术的由来 从商业数据到商业信息的进化 5 1 2020 数据挖掘技术的由来 数据挖掘逐渐演变的过程 算法学习 专家系统 机器学习 5 1 2020 数据挖掘的定义 数据挖掘 DataMining 就是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 技术上的定义及含义 5 1 2020 数据挖掘的定义 数据源必须是真实的 大量的 含噪声的 发现的是

13、用户感兴趣的知识 发现的知识要可接受 可理解 可运用 并不要求发现放之四海皆准的知识 仅支持特定的发现问题 技术上的定义及含义 5 1 2020 数据挖掘的定义 数据挖掘是一种新的商业信息处理技术 其主要特点是对商业数据库中的大量业务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策的关键性数据 按企业既定业务目标 对大量的企业数据进行探索和分析 揭示隐藏的 未知的或验证已知的规律性 并进一步将其模型化的先进有效的方法 商业角度的定义 5 1 2020 数据挖掘的定义 数据挖掘与传统的数据分析 如查询 报表 联机应用分析 的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息 发现

14、知识 数据挖掘所得到的信息应具有先未知 有效和可实用三个特征 数据挖掘与传统分析方法的区别 5 1 2020 数据挖掘的定义 数据仓库是为决策支持而不是为事务处理所设计的数据库 它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立 数据仓库的发展是数据挖掘的动力之一 但数据挖掘既可以在数据仓库中进行 也可以在传统的事务型数据库中进行 数据挖掘和数据仓库 5 1 2020 数据挖掘的定义 数据挖掘和数据仓库 数据源 数据仓库 各分公司数据集 分析数据集 数据挖掘数据集 5 1 2020 数据挖掘的定义 在线分析处理 OLAP On Lineanalyticalprocessing 是一

15、种增强的查询技术 是决策支持领域的一部分 但又不同于传统的查询技术 传统的查询和报表工具是告诉你数据库中都有什么 whathappened OLAP则更进一步告诉你下一步会怎么样 Whatnext 和如果我采取这样的措施又会怎么样 Whatif 用户首先建立一个假设 然后用OLAP检索数据库来验证这个假设是否正确 数据挖掘和在线分析处理 5 1 2020 数据挖掘的定义 比如 一个分析师想找到什么原因导致了贷款拖欠 他可能先做一个初始的假定 认为低收入的人信用度也低 然后用OLAP来验证他这个假设 如果这个假设没有被证实 他可能去察看那些高负债的账户 如果还不行 他也许要把收入和负债一起考虑

16、一直进行下去 直到找到他想要的结果或放弃 数据挖掘和在线分析处理 5 1 2020 数据挖掘的定义 数据挖掘与OLAP不同的地方是 数据挖掘不是用于验证某个假定的模式 模型 的正确性 而是在数据库中自己寻找模型 他在本质上是一个归纳的过程 数据挖掘和在线分析处理 比如 一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素 数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素 甚至还可能发现一些分析师从来没有想过或试过的其他因素 比如年龄 5 1 2020 数据挖掘的定义 数据挖掘 机器学习和统计分析 数据挖掘 统计分析 预测 简单的方法 复杂的方法 5 1 2020 数据挖掘的定义 数据挖掘 机器学习和统计分析 数据挖掘 统计方法 模式识别 人工智能 封装 预测 5 1 2020 数据挖掘的定义 软硬件发展对数据挖掘的影响 存贮性能的提高 计算能力的提高 并行处理技术 5 1 2020 数据挖掘应用 欺诈侦测 AT T使用根据数据挖掘开发的系统来侦测盗打国际电话的行为 由HNC公司开发的队LCON欺诈评估系统用于提示可能存在的盗用信用卡的交易 金融犯罪执法网络Al系统 FAIS

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号