管理信息化大数据分析大数据分析的案例办法与挑战47

上传人:蜀歌 文档编号:145945368 上传时间:2020-09-24 格式:PDF 页数:46 大小:3.05MB
返回 下载 相关 举报
管理信息化大数据分析大数据分析的案例办法与挑战47_第1页
第1页 / 共46页
管理信息化大数据分析大数据分析的案例办法与挑战47_第2页
第2页 / 共46页
管理信息化大数据分析大数据分析的案例办法与挑战47_第3页
第3页 / 共46页
管理信息化大数据分析大数据分析的案例办法与挑战47_第4页
第4页 / 共46页
管理信息化大数据分析大数据分析的案例办法与挑战47_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《管理信息化大数据分析大数据分析的案例办法与挑战47》由会员分享,可在线阅读,更多相关《管理信息化大数据分析大数据分析的案例办法与挑战47(46页珍藏版)》请在金锄头文库上搜索。

1、管理信息化大数据分析大数据分析的案例办法与挑战 47管理信息化大数据分析大数据分析的案例办法与挑战 47 大数据分析的案例、方法与挑战大数据分析的案例、方法与挑战 中山大学海量数据与云计算研究中心黄志洪2012.42012.4DTCC2012 数据分析者面临的问题数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 传统技能无法应对大数据:R、SAS、SQL 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 2 场景介绍场景介绍 信令监测是做什

2、么的? 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 体系架构体系架构 数据库服务器:HP 小型机,128G 内存,48 颗 CPU,2 节点 RAC,其中一个节点用于入 库,另外一个节点用于查询 存储:HP 虚拟化存储,1000 个盘 入库节点 入库方式常规路径 sqlldr 大量使用表分区设计 数据量:每小时写入 200G 左右数据磁盘物理写大约 为 450G 每小时 问题:1 入库瓶颈入库瓶颈 2 查询瓶颈查询瓶颈 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 数据库设计数据库设计 物理上采用 ASM 大表全部按时间

3、分区,开始时按小时分区,但由于数据量庞大,后来改成 15 分钟分区 ,最后变成每分钟切换 1 个分区 采用 sqlldr 方式入库 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 5 入库故障描述入库故障描述 由于数据量太大,不得不同时启用多个处理机,产生了多个入库节点 当入库节点分别增加到 2 节点和 4 节点以后,sqlldr 出现停顿现象 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 AWR 报告AWR 报告 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 AWR 报告AWR 报告 中

4、山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 AWR 报告AWR 报告 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 关于 BufferCache关于 BufferCache 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 LatchLatch 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 寻找 Bufferbusywait 的根源寻找 Bufferbusywait 的根源 Sqlldr 和 OCI 方式同时 insert 多个节点同时 insert 解决

5、办法 1 放弃使用 OCI 2 对 sqlldr 进行垂直切分,尽量避免同时多进程插入同一张表 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 再看 AWR再看 AWR 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 新的故障现象新的故障现象 Sqlldr 依然有停顿,次数较为频密而持续时间较短 HWM 冲突问题 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 关于 HWM关于 HWM 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 针对 HWM 冲突的优化措

6、施针对 HWM 冲突的优化措施 对于无法垂直切分的特大表,按照入库节点号作子分区 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 再看 AWR再看 AWR HWM 冲突已经被消除 Sqlldr 频密周期性短暂停顿的问题依旧 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 最终问题根源最终问题根源 AWR 报告的提示文件头部竞争 表空间大小与自动扩展是问题根源 修正表空间设置后问题消失 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 18 备选方案牺牲实时性换取直接路径插入备选方案牺牲实时性换取

7、直接路径插入 直接路径插入有什么好处? 为什么没有采用直接路径插入? 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 19 备选方案交换分区备选方案交换分区 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 20 备选方案外部表备选方案外部表 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 21 使用传统关系型数据库遇到的困难使用传统关系型数据库遇到的困难 Allinone,并非专门针对数据分析设计和优化 设计复杂,调优复杂,数据分析师兼任 DBA 当数据规模增加时,需要扩展硬件,边际成本指数级

8、上升,存在无法突破的物理瓶颈 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 22 解决方案解决方案 列式数据库,实时数据库等新的数据库技术 分布式集群:Hadoop,NoSQL 及其它分布式数据库技术 混合使用各种专业分析产品 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 23 场景:行为指纹识别场景:行为指纹识别 当 当 为 0 时,AC 两个矢量完全相关,即两个号码的交往圈相似度最高 当 越接近 0,说明两个号码的交往圈越相似 2012.42012.4 DTCC2012 中山大学海量数据与云计算研究中心黄志洪25 基于

9、分布式平台运行海量数据基于分布式平台运行海量数据 移动客户数据量达到 TB 级 云化 Oracle 数据库中 sql 语句可以得到结果, 但希望进一步提高效率 MapReduce 方法 希望尝试多个相似度计算结果 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 云计算网络发展的必然结果 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 HadoopHadoop Hadoop 的主要功能:HDFS 和 Map-Reduce HDFS 实现数据的分布式存储,并且实现冗余备份 Map-Reduce 实现计算任务的分布化,尽量使到某个节

10、点的计算任务主要面对存储在 本地的数据,以减少跨节点的网络数据传送 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 28 HDFS 结构示意图HDFS 结构示意图 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 29 Map-Reduce 示意图Map-Reduce 示意图 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 30 HDFS 与 Map-Reduce 一起工作HDFS 与 Map-Reduce 一起工作 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC201

11、2 31 HiveHive 基于 Hadoop 的常用数据分析工具 可以看成是 SQL 到 Map-Reduce 的转换器 HiveQL 尚未能完全支持 SQL92 外部应用可以通过 hive 客户端、JDBC、ODBC 等方式访问 Hive 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 32 HBaseHBase 列式数据库,特别适合作为数据分析的场景,可以减少 I/O 无真正索引 自动分区 增加新节点时自动线性扩展 使用 Hbase 命令而非 SQL 可以通过 Java,REST,thrift 等接口访问 HBase 中山大学海量数据与云计算研究中心黄志

12、洪2012.42012.4 DTCC2012 33 Hadoop 体系图Hadoop 体系图 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 34 NoSQLNoSQL NoSQL=NotOnlySQL Highperformance,HugeStorage,HighScalabilityvalues:k 个最大相关系数(local) Output:最大相关系数(global) Emitthe 最大相关系数、与某客户最相似客户 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 36 数据分析者期待的解决方案数据分析者期待的解决方

13、案 完美解决性能瓶颈,在可见未来不容易出现新瓶颈 过去所拥有的技能可以平稳过渡。比如 SQL、R 转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,维护成本 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 37 一种新的普适性关联挖掘方法一种新的普适性关联挖掘方法 海量,不一定是指数据记录多,有时可能是变量很多 观察变量之间是否具有联系的传统回归方法 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 38 传统回归模型的困难传统回归模型的困难 为什么一定是线性?或某种非线性模型? 过分依赖于分析者的经验 对于非连

14、续的离散数据难以处理 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 39 网格方法网格方法 Science上的文章DetectingNovelAssociationsinLargeDataSets 方法概要:用网格判断数据的集中程度,集中程度意味着是否有关联关系 方法具有一般性,即无论数据是怎样分布的,不限于特定的关联函数类型,此判断方 法都是有效 方法具有等效性,计算的熵值和噪音的程度有关,跟关联的类型无关 MIC:theMaximalInformationCoefficient MINE:MaximalInformation-basedNonparame

15、tricExploration 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 40 MIC 值计算MIC 值计算 坐标平面被划分为(x,y)网格 G(未必等宽),其中 xyn0.6 在 G 上可以诱导出“自然概率密度函数”p(x,y),任何一个方格(box)内的概率密度 函数值为这个方格所包含的样本点数量占全体样本点的比例 计算网格划分 G 下的 mutualinformation 值 Imutualinformation 值 IG G 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 41 MIC 值计算MIC 值计算 构造特征矩阵特征矩阵mxy,矩阵的元素 mxy=maxIG/logminx,y。max 取遍 所有可能的(x,y)网格 G MIC=maxmxy。Max 取遍所有可能 的(x,y)对 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 42 MIC 值计算MIC 值计算 Mxy 的计算是个难点, 数据科学家构造了一个近似的逼近算法以提 高效率 /haolan2011 DTCC2012 48

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号