大数据研究现状探讨1

上传人:tang****xu2 文档编号:125552218 上传时间:2020-03-18 格式:PPT 页数:42 大小:4.42MB
返回 下载 相关 举报
大数据研究现状探讨1_第1页
第1页 / 共42页
大数据研究现状探讨1_第2页
第2页 / 共42页
大数据研究现状探讨1_第3页
第3页 / 共42页
大数据研究现状探讨1_第4页
第4页 / 共42页
大数据研究现状探讨1_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《大数据研究现状探讨1》由会员分享,可在线阅读,更多相关《大数据研究现状探讨1(42页珍藏版)》请在金锄头文库上搜索。

1、1 42 l基于云平台 云数据 l大数据描述理论 处理与 分析架构 应用领域 大数据研究现状探讨 沈来信 2013年12月20日 2 42 大数据是数据库的自然延伸 l忘不掉ACID 舍不得Relation 忽视实际应用 l潜意识地奉行 一招鲜 One Size Fits All l结构化 半结构化 非结构化数据 二八原则 l管理和处理需求 落实 One Size Fits a Bunch 查询 检索 统计 挖掘 离线 在线 即时 连续 本地 远程 云 可回溯的可视化分析 事务型与分析型 多领域应用 教育 医疗 交通 大数据常用的处理框架 l流处理 直接处理 和批处理 先存储后处理 l流处理

2、数据持续到达 速度快 规模巨大 不永久存储 数据不断变化 难以掌握全貌 代表的开源系统 Twitter的storm Yahoo的S4 Linkedin的kafka l批处理 MapReduce 1 将问题分而治之 2 把计算推到数据而不是把数据推到计算 避 免数据传输过程中产生的大量通信开销 3 42 5 42 0 大数据与云计算 云平台 lHadoop 数据密集型分布式应用 Apache 分布式数据处理MapReduce 并行计算框架 分布式文件系统HDFS google的DFS基础上 分布式数据库Hbase Nosql 列 BigTable 数据仓库工具Hive Facebook 分布式锁

3、Zookeeper Facebook 大数据分析平台Pig 提供多种接口 管理工具Ambari 监控 部署 管理 Sqoop 在集群与传统数据库间的数据传递 00 分布式集群Hadoop 6 42 01 并行计算框架Mapreduce 7 42 02 分布式文件系统HDFS 8 42 03 分布式NoSql列数据库Hbase 04 数据仓库Hive 05 脚本语言Pig Google后Hadoop时代的新三驾马车 lDremel web数据级别的交互式数据分析系统 列存储 多层次查询树 毫秒级海量数据分析 lCaffeine 为Google网络搜索引擎提供支持 能够更迅速的添加新的链接到自身大

4、规模的网 站索引系统中 丢弃MapReduce转而将索引 放置在分布式数据库BigTable上 lPregel 主要绘制大量网上信息之间关系的 图 形数据库 13 42 1 Brighthouse An Analytic Data Warehouse for ad hoc Queries lPVLDB 08 Dominik Slezak Infobright inc Poland lAn Analytic Data Warehouse for Ad hoc Queries lColumn oriented data warehouse with automatically tuned 基于列的

5、自调整数据仓库 lData management DP DPN KN l粗集Rough set 粒度计算Granular Computing l知识网格Knowledge Grid l优化与执行Optimization and Execution 14 42 DP Data Pack DPN Data Pack Node KN Knowledge Node 15 42 行存储 列存储比较 数据块 Data Packs 知识网格 Konwledge Grid 18 42 知识网格 Konwledge Grid 19 42 2 Starfish A Self tuning System for b

6、ig data analytics lCIDR 11 Herodotos Herodotou Duke University lTimely and cost effective analytics 及时 效益 lA Self tuning system 自调整 lBased on Hadoop 基于Hadoop lExtensible MapReduce execution engine 可扩展 lPluggable distributed storage engines 插拔式 lMAD 吸引力Magnetism 灵活Agility 深度Depth 20 42 3 希尔伯特技术Hilber

7、t technology lHilbert technology lOrganizing 在HHT基础上四点创新 使用更多个内插值曲线去实现筛选过程 1 2 3 最后的剩余作为最优曲线 拥有一定数目的极值点 而不是 带有自多一个极值点的一般趋势 使用极值点对称取代包络线对称 使用基于数据的直接插值方法去计算瞬时频率和振幅 确定一个优化全局平均曲线时 使用的自适应方法 比一般 的最小二乘法和平均运行方法要好 确定瞬时频率和振幅 用的是直接的方法 比希尔伯特谱更好 这些将提高自适应的数据分析 可用在大气和海洋科学 信息 学 经济学 生态学 医药 地震等领域 4 1 经验模态分解EMD Empiri

8、cal Mode Decomposition lEMD 方法在理论上可以应用于任何类型的时间序列 信 号 的分解 l该方法的关键是它能使复杂信号分解为有限个本征模函数 Intrinsic Mode Function 简称IMF 所分解出来的各 IMF分量包含了原信号的不同时间尺度的局部特征信号 EMD分解方法是基于以下假设条件 1 数据至少有两个极值 一个最大值和一个最小值 2 数据的局部时域特性是由极值点间的时间尺度唯一确 定 3 如果数据没有极值点但有拐点 则可以通过对数据微 分一次或多次求得极值 然后再通过积分来获得分解结果 l经验模态分解的基本思想 将一个频率不规则的波化为多 个单一频

9、率的波 残波的形式 原波形 IMFs 余波 4 2 筛选过程 Sifting l这种方法的本质是通过数据的特征时间尺度来获得本征波 动模式 然后分解数据 这种分解过程可以形象地称之为 筛选 sifting 过程 l分解过程是 找出原数据序列X t 所有的极大值点并用三次样条插值 函数拟合形成原数据的上包络线 同样 找出所有的极小值点 并将所有的极小值点通过 三次样条插值函数拟合形成数据的下包络线 上包络线和下包络线的均值记作ml 将原数据序列X t 减去该平均包络ml 得到一个新的数据序列hl X t ml hl 由原数据减去包络平均后的新数据 若还存在负的局部极 大值和正的局部极小值 说明这

10、还不是一个本征模函数 需要继续进行 筛选 4 3 EMD实例 金融1 例如沪指的IMF如下图所仅仅示意的最后4个低频IMF函数序列 上图中的IMF1 IMF3叠合起来 就基本可以重构出沪指的走势 基本与 股指一致 类似与一根均线 4 4 EMD实例 金融2 从上面的分解到重构的过程看 其实就是个减法到加法的过程 减法求异 剥离出 频率 周期 大致相同的IMF 而加法求同 回到原波形 余波其实是个趋势线 即频率极低 周期很长 的波 可以看成是个基底 其它IMF都建筑在它之上 4 4 EMD实例 金融3 l有意思的是 筛选出的本征模函数IMF 包括余波 可以 代表实在的物理意义 即其震动模式必然地

11、对应有物理成 因 而在股指分解出的IMF则应该对应宏观经济成因 比 如第一幅图中的IMF2就与CPI或PPI走势几乎一致 且周 期也一致 而IMF1则与平滑后季度GDP增长率基本一致 也与发电量或工业增加值的大趋势大体一致 l也就是说 这种新颖的技术分析也得出 股指是反映宏观 基本面的 我国的CPI这10几年来一直遵循大概42个月的 循环规律 可以用一个正弦波形象之 而IMF则是几个正 弦波的复合结果 l浮动频率法仅是找出信号序列中的实际频率 而IMF是既 找出浮动频率也找出包括不同振幅的复杂信号序列中的震 动模态序列 IMF更接近实际的时间序列 尝试把二者结 合起来是个可能的路径 Perfo

12、rmance of ESMD I Performance of ESMD variance ratio v 一些想法与困惑 lHadoop Brighthouse Dremel Caffeine l云计算与大数据如何结合 网格计算与大数据 l大数据OLAP方案 大数据OLTP方案 l大数据到底是什么 如何表述与建模 l大数据的理论基础 大数据可计算的基础理论 l重要扩展与证明 大数据的正确性 与应用的 出错 根源 l能量 绿色计算 安全 l领域应用与大数据的计算理论 l希尔伯特空间 勒贝格测度 优美图 标号 大数据 WSN测量 大数据 领域应用 l国家基金面上项目 国家基金重点项目 国家基金 重大项目 国家基金超级大项目 l国家基金委主任杨卫半年来的足迹 3月12日卸任浙大校长任基金委主任 5月21日调研国家天文台观测基地 雾霾检测 和环境气象业务 青藏高原大气科学试验 10月份相应调研中科院化学所 理化所 北 大 人大 会见美国驻华大使骆家辉 l到12月19日到同济谈到国家要立项有关雾霾检 测 环境气象的国家基金超级大项目系列课题 l祝贺王老师国家文物局项目 立项 ADSN的大数据古民居实 时探测与分析系统研究 l交流 l谢谢 42 42

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号