大数据案例分析-南京大学

上传人:第*** 文档编号:57287300 上传时间:2018-10-20 格式:PDF 页数:68 大小:3.77MB
返回 下载 相关 举报
大数据案例分析-南京大学_第1页
第1页 / 共68页
大数据案例分析-南京大学_第2页
第2页 / 共68页
大数据案例分析-南京大学_第3页
第3页 / 共68页
大数据案例分析-南京大学_第4页
第4页 / 共68页
大数据案例分析-南京大学_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《大数据案例分析-南京大学》由会员分享,可在线阅读,更多相关《大数据案例分析-南京大学(68页珍藏版)》请在金锄头文库上搜索。

1、大数据案例分析 高 阳 教授/博导 王皓博士/副研究员,史颖欢 博士/副研究员 南京大学软件新技术国家重点实验室 江苏省软件新技术与产业化协同创新中心 中国计算机学会大数据专家委员会 提 纲 大数据应用背景大数据应用背景 互联网大数据应用互联网大数据应用 工业大数据应用工业大数据应用 政务大数据应用政务大数据应用 4 4 1 1 2 2 3 3 大数据与智慧城市大数据与智慧城市 5 5 大数据案例分析 大数据应用背景大数据应用背景 1 美国棱镜计划 9 9家互联网公司,家互联网公司,1010种类型数据种类型数据 美国棱镜计划 技术概述 技术名称 并行大数据分析工具箱(DoDo Toolbox)

2、 技术目标 实现基于云计算平台的大数据分析关键技术及应用平台 通过对Hadoop系统进行封装,提供了一套用户友好的基于图形化界面的软件系统 基于Map/Reduce框架的数据挖掘并行化算法 提供一个可扩展的、易于使用的大数据分析平台 主要创新点 为Hadoop系统提供图形化管理界面 基于Map/Reduce编程模型,对常用的数据挖掘算法进行并行化 基于XML技术,为大数据建立元数据管理系统 应用MVC开发框架,提供可扩展的、易用的大数据分析平台 主要功能 主要核心算法 基本算法 WordCount, TF-IDF, 排序, 距离计算(Euclidean, Manhattan) 聚类算法 K-m

3、eans, Canopy ,Graph Mining(the Shortest Path) 分类与预测算法 KNN, Naive Bayesian, SVM, BP Neural Network, Locally-Weighted, Linear Regression(LWLR), Logistic Regression 关联规则算法 Apriori, FP 协同过滤算法 User-Based Collaborative Filtering(CF), Item-Based CF 中文处理 分词(具有新词学习和词库扩充功能) 网页解析 VIPS,DOM-Tree, PageRank, Inver

4、tedIndexing 国内外竞争产品 Weka 新西兰Waikato大学研发 数据源/数据格式/算法/用户界面 单机算法(分类、聚类、关联规则等等) Mahout Apache开源项目 采用Map/Reduce,并行化数据挖掘算法 用户界面:命令行交互 DoDo 自主知识产权 采用Map/Reduce,并行化数据挖掘算法 友好的图形界面 知识产权 申请国家发明专利9项,授权4项:201210071445.X,201210072524.2等 基于Hadoop的KNN,FP,SVM,PLSA以及文档分类等算法 大数据技术和案例分析 互联网大数据应用互联网大数据应用 2 365网推荐系统:项目概况

5、 需求:通过对365网APP端和Web端的用户访问日志学习推荐系统模型到达提高点击推荐到买房的转化率的目的。 数据量: 每天登陆的不同用户数:PC端10万级;APP端万级 每天产生的日志记录:PC端和APP端均有百万条 房源数量级:新房1.8万,二手房200万套左右 高峰时段并发访问:万级用户 365网推荐系统:项目概况 365网推荐系统:用户画像 365网推荐系统:用户画像 算法方案: 冷启动用户:热门标签 低频访问用户:使用K-means进行用户聚类,为目标用户找到距离最近的聚类中心,将聚类中心的标签作为其画像。 高频访问用户:使用频次统计结合行为优先级加权,按频率设定标签。 算法结果:

6、个性化用户画像精准定位 365网推荐系统:用户画像 365网推荐系统:个性推荐 模块需求: 推荐结果:根据用户访问记录结合用户画像、房源标签,预测用户可能感兴趣的房源 实时更新:推荐列表随用户点击实时变化 个性化推荐:“千人千面” 2016/11/5 365网推荐系统:个性推荐 算法方案: 基于用户画像的推荐算法 根据用户画像对房源进行筛选 属性按重要程度加权 计算用户对房源综合评分,Top-k形成推荐结果 基于用户行为的推荐算法 矩阵分解:SVD,NMF 协同过滤:基于用户/物品相似性度量 决策树:GBDT 365网推荐系统:个性推荐 推荐结果: 协同过滤协同过滤 SVD NMF 特征维度

7、1379 4 10 推荐点击率 6.18% 18.54% 18.16% 精确度 2.14% 3.02% 3.66% 各算法推荐效果对比 大数据技术和案例分析 工业工业大数据应用大数据应用 3 主要案例 电信大数据 中博信息技术研究院有限公司 话务预测 大规模电信数据离网用户预测与分析 电信产品健康度管理系统 全南京市,5000基站,8个指标,24小时值,之前一年数据量10GB 电信大数据:话务预测 需求:通过对各小区(一个基站包含多个小区)上指标分析与建模,预测各小区未来某天的指标值。 数据量:全南京市,7000多小区,8个指标,24小时值,一年数据量13GB。 任务:根据需求,预测任务具体分

8、为两类, 工作日,周末 异常小区预警 行业应用 干道预警 景区预警 七个法定节假日 全网预测,高效调整和保障 异常异常小区预警小区预警 异常预警处理方法: 针对小区历史数据,提取每天特征值(平滑后12个值); 对该小区一周七天进行聚类(例如上述例子可以分为两类),并且以属于该 类的聚类中心进行线性插值后的24个值作为一小区的平时正常话务量; 实时监测小区话务量,如果某小区某天值连续超过该类的正常值,则进行异 常预警。 六,日 三,四,五 一,二 实时周一 一,二 pattern 1 2 3 4 1 预警! 平滑特征抽取,时间维度聚类 全全网全指标预测网全指标预测 01223xxxx 以天为粒度

9、构成序列: 012231kkkxwherexxn01232300112323, 每个小区每天可以表示成48维的特征向量,针对小区进行特征聚类,利用聚类 结果以及以往同期数据进行预测。 高斯特征抽取聚类 依据n个历年同期序列,可以抽出48个特征值: 主要案例 电力(环保)大数据 江苏方天电力技术有限公司 环保设施工况寻优模块建模及典型机组应用技术服务 火电机组运行人员行为分析模块建模及典型机组应用技术服务 燃煤机组超低排放监测数据辨识模型建模及典型机组应用技术服务项目 电力(环保)大数据 数据描述 数据主要由源于发电机组内部传感器数据以及除尘、脱硫、脱硝等环保设备的运行参数和环境温度等外部因素构

10、成。 数据特点 原始数据中维数比较高,同时由于数据是由传感器经过固定的时间间隔进行采集而形成的,因此可以认为是典型的时间序列。 数据量 根据不同的采样时间间隔和总的采样时间,三个项目对应所需处理的数据量从10万条到55万条不等。 方天项目:工况寻优模块建模 以环境温度等为输入条件,发掘特定供热负荷(工况)下机 组可调出力区间(机组负荷的最大值、最小值)。 负荷的最大值、最小值应根据数据分布特征选取数据密集区 的极值。 避免极值落在数据稀疏区域(置信度较低),以确保负荷极 值是合理可达的。 供热机组可调处理区间估计:解决方法 典型的聚 类任务 典型的数 据分布刻 画任务 使用k-means聚类

11、使用高斯分布刻画 方天项目:行为分析模块建模 行为分析模块建模:解决办法 任务1,2(得到分布特征) 得到供电数据煤耗数据特征以及主机小指标的数据分 布特征 概率密度 估计 不同分布 之间的比 较 使用核密度估计 计算不同因素下的煤耗分布,计算它们 之间的EMD距离从而得到主要影响因素 任务3(班组煤耗比较) 比较各种情况下的煤耗分布差异,找出主要影响因素 时间序列 预测 在节假日采用SVR模型,温度过高或过 低月份采用GRNN神经网络,其他时间 采用SARIMA模型 节能环保指标预测结果: 月份月份 实际值实际值 预测值预测值 绝对误差绝对误差 相对误差相对误差 1 3234.66 3323

12、.00 88.34 2.73% 2 2071.88 2089.00 17.12 0.83% 3 2903.70 3031.65 127.95 4.41% 4 2790.80 2640.44 150.36 5.39% 5 2698.10 2743.21 45.11 1.67% 6 2514.20 2702.20 188.00 7.48% 7 2736.70 2664.70 72.00 2.63% 8 2822.80 2664.70 158.10 5.60% 9 2240.50 2244.50 4.00 0.18% 10 2202.70 2402.10 199.40 9.05% 11 2505.8

13、0 2773.30 267.50 10.68% 12 3121.40 3385.70 264.30 8.47% AVG 131.85 4.93% 负荷为333下的煤耗概率密度曲线 负荷为427下的SO2排放浓度概率密度曲线 2015年负荷预测值和真实值对比 方天项目:超超低排放监测数据辨识模型低排放监测数据辨识模型建模建模 以历史数据为样本进行分布特征分析,识别并剔除其中的异常数据,并据此估计参数的合理取值范围 方天项目:超低排放监测数据辨识模型建模超低排放监测数据辨识模型建模 任务任务1 1(异常值检测)(异常值检测) 通过分析历史数据辨别出其中的异常值和正常值。 异常值检 测 通过KDE估

14、计方法,将概率出现次 数较少的点进行辨识。通过时间域 上异常值检测的方法辨识出数据中 的跳变点。 方天项目:海量数据压缩 项目需求 压缩算法模型,要有较高的压缩比和压缩效率:压缩比至少做到1:5 ,每兆数据压缩时间不多于10秒钟。 研究开发的压缩/解压缩算法必须为无损压缩/解压缩。 能够兼容实时数据流的压缩/解压缩方式和历史数据文件的压缩/解压 缩两种功能需求。 最终提供的交付物包括:完整算法模型文档、完整的算法实现代码 ,且代码能够支持跨平台使用(包括Windows和Linux)。 压缩方法流程 .this is a text that is being read through the w

15、indow.字典待编码区域字符流LZ77编码.,.区间编码code输入输入输出输出测试结果 数据压缩测试 文件夹名称 原始大小 (MB) 压缩后的大小 (MB) 压缩比 压缩时间(s) 解压时间(s) dcc(.hda) 358 43.6 8.21 36.87 4.23 dtl(.hda) 585 83.5 7.01 69.99 7.74 nh(.hda) 489 95.8 5.1 77.36 8.26 rd(.hda) 297 53.2 5.58 41.47 4.65 sw(.hda) 92.2 18.1 5.09 13.01 1.54 xcc(.hda) 362 69.7 5.19 38.48 4.6 xtl(.hda) 142 20.1 7.06 17.38 1.9 xtx(.hda) 556 69.5 8 59.75 6.52 zyzhly(.hda) 23.7 3.44 6.89 2.63 0.3 ssdata(.rda) 154 18.1 8.51 48.37 1.84 注:测试机器的配置为intel i7处理器(主频2.1GHZ)、内存12GB、win8操作系统 效果结论 在所有给定的数据集上进行测试压缩比均在1:5以上,数 据

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号