管理信息化大数据分析大数据分析的案例办法与挑战47

资源描述

《管理信息化大数据分析大数据分析的案例办法与挑战47》由会员分享，可在线阅读，更多相关《管理信息化大数据分析大数据分析的案例办法与挑战47（46页珍藏版）》请在金锄头文库上搜索。

1、管理信息化大数据分析大数据分析的案例办法与挑战 47管理信息化大数据分析大数据分析的案例办法与挑战 47 大数据分析的案例、方法与挑战大数据分析的案例、方法与挑战中山大学海量数据与云计算研究中心黄志洪2012.42012.4DTCC2012 数据分析者面临的问题数据分析者面临的问题数据日趋庞大，无论是入库和查询，都出现性能瓶颈用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高使用的模型越来越复杂，计算量指数级上升传统技能无法应对大数据：R、SAS、SQL 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 2 场景介绍场景介绍信令监测是做什

2、么的？中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 体系架构体系架构数据库服务器：HP 小型机，128G 内存，48 颗 CPU，2 节点 RAC，其中一个节点用于入库，另外一个节点用于查询存储：HP 虚拟化存储，1000 个盘入库节点入库方式常规路径 sqlldr 大量使用表分区设计数据量：每小时写入 200G 左右数据磁盘物理写大约为 450G 每小时问题：1 入库瓶颈入库瓶颈 2 查询瓶颈查询瓶颈中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 数据库设计数据库设计物理上采用 ASM 大表全部按时间

3、分区，开始时按小时分区，但由于数据量庞大，后来改成 15 分钟分区，最后变成每分钟切换 1 个分区采用 sqlldr 方式入库中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 5 入库故障描述入库故障描述由于数据量太大，不得不同时启用多个处理机，产生了多个入库节点当入库节点分别增加到 2 节点和 4 节点以后，sqlldr 出现停顿现象中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 AWR 报告AWR 报告中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 AWR 报告AWR 报告中

4、山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 AWR 报告AWR 报告中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 关于 BufferCache关于 BufferCache 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 LatchLatch 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 寻找 Bufferbusywait 的根源寻找 Bufferbusywait 的根源 Sqlldr 和 OCI 方式同时 insert 多个节点同时 insert 解决

5、办法 1 放弃使用 OCI 2 对 sqlldr 进行垂直切分，尽量避免同时多进程插入同一张表中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 再看 AWR再看 AWR 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 新的故障现象新的故障现象 Sqlldr 依然有停顿，次数较为频密而持续时间较短 HWM 冲突问题中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 关于 HWM关于 HWM 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 针对 HWM 冲突的优化措

6、施针对 HWM 冲突的优化措施对于无法垂直切分的特大表，按照入库节点号作子分区中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 再看 AWR再看 AWR HWM 冲突已经被消除 Sqlldr 频密周期性短暂停顿的问题依旧中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 最终问题根源最终问题根源 AWR 报告的提示文件头部竞争表空间大小与自动扩展是问题根源修正表空间设置后问题消失中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 18 备选方案牺牲实时性换取直接路径插入备选方案牺牲实时性换取

7、直接路径插入直接路径插入有什么好处？为什么没有采用直接路径插入？中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 19 备选方案交换分区备选方案交换分区中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 20 备选方案外部表备选方案外部表中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 21 使用传统关系型数据库遇到的困难使用传统关系型数据库遇到的困难 Allinone，并非专门针对数据分析设计和优化设计复杂，调优复杂，数据分析师兼任 DBA 当数据规模增加时，需要扩展硬件，边际成本指数级

8、上升，存在无法突破的物理瓶颈中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 22 解决方案解决方案列式数据库，实时数据库等新的数据库技术分布式集群：Hadoop，NoSQL 及其它分布式数据库技术混合使用各种专业分析产品中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 23 场景：行为指纹识别场景：行为指纹识别当当为 0 时，AC 两个矢量完全相关，即两个号码的交往圈相似度最高当越接近 0，说明两个号码的交往圈越相似 2012.42012.4 DTCC2012 中山大学海量数据与云计算研究中心黄志洪25 基于

9、分布式平台运行海量数据基于分布式平台运行海量数据移动客户数据量达到 TB 级云化 Oracle 数据库中 sql 语句可以得到结果，但希望进一步提高效率 MapReduce 方法希望尝试多个相似度计算结果中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 云计算网络发展的必然结果中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 HadoopHadoop Hadoop 的主要功能：HDFS 和 Map-Reduce HDFS 实现数据的分布式存储，并且实现冗余备份 Map-Reduce 实现计算任务的分布化，尽量使到某个节

10、点的计算任务主要面对存储在本地的数据，以减少跨节点的网络数据传送中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 28 HDFS 结构示意图HDFS 结构示意图中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 29 Map-Reduce 示意图Map-Reduce 示意图中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 30 HDFS 与 Map-Reduce 一起工作HDFS 与 Map-Reduce 一起工作中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC201

11、2 31 HiveHive 基于 Hadoop 的常用数据分析工具可以看成是 SQL 到 Map-Reduce 的转换器 HiveQL 尚未能完全支持 SQL92 外部应用可以通过 hive 客户端、JDBC、ODBC 等方式访问 Hive 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 32 HBaseHBase 列式数据库，特别适合作为数据分析的场景，可以减少 I/O 无真正索引自动分区增加新节点时自动线性扩展使用 Hbase 命令而非 SQL 可以通过 Java，REST，thrift 等接口访问 HBase 中山大学海量数据与云计算研究中心黄志

12、洪2012.42012.4 DTCC2012 33 Hadoop 体系图Hadoop 体系图中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 34 NoSQLNoSQL NoSQL=NotOnlySQL Highperformance,HugeStorage,HighScalabilityvalues:k 个最大相关系数(local) Output:最大相关系数(global) Emitthe 最大相关系数、与某客户最相似客户中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 36 数据分析者期待的解决方案数据分析者期待的解决方

13、案完美解决性能瓶颈，在可见未来不容易出现新瓶颈过去所拥有的技能可以平稳过渡。比如 SQL、R 转移平台的成本有多高？平台软硬件成本，再开发成本，技能再培养成本，维护成本中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 37 一种新的普适性关联挖掘方法一种新的普适性关联挖掘方法海量，不一定是指数据记录多，有时可能是变量很多观察变量之间是否具有联系的传统回归方法中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 38 传统回归模型的困难传统回归模型的困难为什么一定是线性？或某种非线性模型？过分依赖于分析者的经验对于非连

14、续的离散数据难以处理中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 39 网格方法网格方法 Science上的文章DetectingNovelAssociationsinLargeDataSets 方法概要：用网格判断数据的集中程度，集中程度意味着是否有关联关系方法具有一般性，即无论数据是怎样分布的，不限于特定的关联函数类型，此判断方法都是有效方法具有等效性，计算的熵值和噪音的程度有关，跟关联的类型无关 MIC：theMaximalInformationCoefficient MINE：MaximalInformation-basedNonparame

15、tricExploration 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 40 MIC 值计算MIC 值计算坐标平面被划分为(x,y)网格 G（未必等宽），其中 xyn0.6 在 G 上可以诱导出“自然概率密度函数”p(x,y)，任何一个方格（box）内的概率密度函数值为这个方格所包含的样本点数量占全体样本点的比例计算网格划分 G 下的 mutualinformation 值 Imutualinformation 值 IG G 中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 41 MIC 值计算MIC 值计算构造特征矩阵特征矩阵mxy，矩阵的元素 mxy=maxIG/logminx,y。max 取遍所有可能的(x,y)网格 G MIC=maxmxy。Max 取遍所有可能的(x,y)对中山大学海量数据与云计算研究中心黄志洪2012.42012.4 DTCC2012 42 MIC 值计算MIC 值计算 Mxy 的计算是个难点，数据科学家构造了一个近似的逼近算法以提高效率 /haolan2011 DTCC2012 48

展开阅读全文