大数据案例分析-南京大学

资源描述

《大数据案例分析-南京大学》由会员分享，可在线阅读，更多相关《大数据案例分析-南京大学（68页珍藏版）》请在金锄头文库上搜索。

1、大数据案例分析高阳教授/博导王皓博士/副研究员，史颖欢博士/副研究员南京大学软件新技术国家重点实验室江苏省软件新技术与产业化协同创新中心中国计算机学会大数据专家委员会提纲大数据应用背景大数据应用背景互联网大数据应用互联网大数据应用工业大数据应用工业大数据应用政务大数据应用政务大数据应用 4 4 1 1 2 2 3 3 大数据与智慧城市大数据与智慧城市 5 5 大数据案例分析大数据应用背景大数据应用背景 1 美国棱镜计划 9 9家互联网公司，家互联网公司，1010种类型数据种类型数据美国棱镜计划技术概述技术名称并行大数据分析工具箱(DoDo Toolbox)

2、技术目标实现基于云计算平台的大数据分析关键技术及应用平台通过对Hadoop系统进行封装，提供了一套用户友好的基于图形化界面的软件系统基于Map/Reduce框架的数据挖掘并行化算法提供一个可扩展的、易于使用的大数据分析平台主要创新点为Hadoop系统提供图形化管理界面基于Map/Reduce编程模型，对常用的数据挖掘算法进行并行化基于XML技术，为大数据建立元数据管理系统应用MVC开发框架，提供可扩展的、易用的大数据分析平台主要功能主要核心算法基本算法 WordCount, TF-IDF, 排序, 距离计算(Euclidean, Manhattan) 聚类算法 K-m

3、eans, Canopy ,Graph Mining(the Shortest Path) 分类与预测算法 KNN, Naive Bayesian, SVM, BP Neural Network, Locally-Weighted, Linear Regression(LWLR), Logistic Regression 关联规则算法 Apriori, FP 协同过滤算法 User-Based Collaborative Filtering(CF), Item-Based CF 中文处理分词（具有新词学习和词库扩充功能）网页解析 VIPS,DOM-Tree, PageRank, Inver

4、tedIndexing 国内外竞争产品 Weka 新西兰Waikato大学研发数据源/数据格式/算法/用户界面单机算法(分类、聚类、关联规则等等) Mahout Apache开源项目采用Map/Reduce，并行化数据挖掘算法用户界面：命令行交互 DoDo 自主知识产权采用Map/Reduce，并行化数据挖掘算法友好的图形界面知识产权申请国家发明专利9项，授权4项：201210071445.X，201210072524.2等基于Hadoop的KNN,FP,SVM,PLSA以及文档分类等算法大数据技术和案例分析互联网大数据应用互联网大数据应用 2 365网推荐系统：项目概况

5、需求：通过对365网APP端和Web端的用户访问日志学习推荐系统模型到达提高点击推荐到买房的转化率的目的。数据量：每天登陆的不同用户数：PC端10万级；APP端万级每天产生的日志记录：PC端和APP端均有百万条房源数量级：新房1.8万，二手房200万套左右高峰时段并发访问：万级用户 365网推荐系统：项目概况 365网推荐系统：用户画像 365网推荐系统：用户画像算法方案：冷启动用户：热门标签低频访问用户：使用K-means进行用户聚类，为目标用户找到距离最近的聚类中心，将聚类中心的标签作为其画像。高频访问用户：使用频次统计结合行为优先级加权，按频率设定标签。算法结果：

6、个性化用户画像精准定位 365网推荐系统：用户画像 365网推荐系统：个性推荐模块需求：推荐结果：根据用户访问记录结合用户画像、房源标签，预测用户可能感兴趣的房源实时更新：推荐列表随用户点击实时变化个性化推荐：“千人千面” 2016/11/5 365网推荐系统：个性推荐算法方案：基于用户画像的推荐算法根据用户画像对房源进行筛选属性按重要程度加权计算用户对房源综合评分，Top-k形成推荐结果基于用户行为的推荐算法矩阵分解：SVD，NMF 协同过滤：基于用户/物品相似性度量决策树：GBDT 365网推荐系统：个性推荐推荐结果：协同过滤协同过滤 SVD NMF 特征维度

7、1379 4 10 推荐点击率 6.18% 18.54% 18.16% 精确度 2.14% 3.02% 3.66% 各算法推荐效果对比大数据技术和案例分析工业工业大数据应用大数据应用 3 主要案例电信大数据中博信息技术研究院有限公司话务预测大规模电信数据离网用户预测与分析电信产品健康度管理系统全南京市，5000基站，8个指标，24小时值，之前一年数据量10GB 电信大数据：话务预测需求：通过对各小区（一个基站包含多个小区）上指标分析与建模，预测各小区未来某天的指标值。数据量：全南京市，7000多小区，8个指标，24小时值，一年数据量13GB。任务：根据需求，预测任务具体分

8、为两类，工作日，周末异常小区预警行业应用干道预警景区预警七个法定节假日全网预测，高效调整和保障异常异常小区预警小区预警异常预警处理方法：针对小区历史数据，提取每天特征值（平滑后12个值）；对该小区一周七天进行聚类（例如上述例子可以分为两类），并且以属于该类的聚类中心进行线性插值后的24个值作为一小区的平时正常话务量；实时监测小区话务量，如果某小区某天值连续超过该类的正常值，则进行异常预警。六，日三，四，五一，二实时周一一，二 pattern 1 2 3 4 1 预警！平滑特征抽取，时间维度聚类全全网全指标预测网全指标预测 01223xxxx 以天为粒度

9、构成序列： 012231kkkxwherexxn01232300112323, 每个小区每天可以表示成48维的特征向量，针对小区进行特征聚类，利用聚类结果以及以往同期数据进行预测。高斯特征抽取聚类依据n个历年同期序列，可以抽出48个特征值：主要案例电力(环保)大数据江苏方天电力技术有限公司环保设施工况寻优模块建模及典型机组应用技术服务火电机组运行人员行为分析模块建模及典型机组应用技术服务燃煤机组超低排放监测数据辨识模型建模及典型机组应用技术服务项目电力（环保）大数据数据描述数据主要由源于发电机组内部传感器数据以及除尘、脱硫、脱硝等环保设备的运行参数和环境温度等外部因素构

10、成。数据特点原始数据中维数比较高，同时由于数据是由传感器经过固定的时间间隔进行采集而形成的，因此可以认为是典型的时间序列。数据量根据不同的采样时间间隔和总的采样时间，三个项目对应所需处理的数据量从10万条到55万条不等。方天项目：工况寻优模块建模以环境温度等为输入条件，发掘特定供热负荷（工况）下机组可调出力区间（机组负荷的最大值、最小值）。负荷的最大值、最小值应根据数据分布特征选取数据密集区的极值。避免极值落在数据稀疏区域（置信度较低），以确保负荷极值是合理可达的。供热机组可调处理区间估计：解决方法典型的聚类任务典型的数据分布刻画任务使用k-means聚类

11、使用高斯分布刻画方天项目：行为分析模块建模行为分析模块建模：解决办法任务1，2（得到分布特征）得到供电数据煤耗数据特征以及主机小指标的数据分布特征概率密度估计不同分布之间的比较使用核密度估计计算不同因素下的煤耗分布，计算它们之间的EMD距离从而得到主要影响因素任务3（班组煤耗比较）比较各种情况下的煤耗分布差异，找出主要影响因素时间序列预测在节假日采用SVR模型，温度过高或过低月份采用GRNN神经网络，其他时间采用SARIMA模型节能环保指标预测结果：月份月份实际值实际值预测值预测值绝对误差绝对误差相对误差相对误差 1 3234.66 3323

12、.00 88.34 2.73% 2 2071.88 2089.00 17.12 0.83% 3 2903.70 3031.65 127.95 4.41% 4 2790.80 2640.44 150.36 5.39% 5 2698.10 2743.21 45.11 1.67% 6 2514.20 2702.20 188.00 7.48% 7 2736.70 2664.70 72.00 2.63% 8 2822.80 2664.70 158.10 5.60% 9 2240.50 2244.50 4.00 0.18% 10 2202.70 2402.10 199.40 9.05% 11 2505.8

13、0 2773.30 267.50 10.68% 12 3121.40 3385.70 264.30 8.47% AVG 131.85 4.93% 负荷为333下的煤耗概率密度曲线负荷为427下的SO2排放浓度概率密度曲线 2015年负荷预测值和真实值对比方天项目：超超低排放监测数据辨识模型低排放监测数据辨识模型建模建模以历史数据为样本进行分布特征分析，识别并剔除其中的异常数据，并据此估计参数的合理取值范围方天项目：超低排放监测数据辨识模型建模超低排放监测数据辨识模型建模任务任务1 1（异常值检测）（异常值检测）通过分析历史数据辨别出其中的异常值和正常值。异常值检测通过KDE估

14、计方法，将概率出现次数较少的点进行辨识。通过时间域上异常值检测的方法辨识出数据中的跳变点。方天项目：海量数据压缩项目需求压缩算法模型，要有较高的压缩比和压缩效率：压缩比至少做到1:5 ，每兆数据压缩时间不多于10秒钟。研究开发的压缩/解压缩算法必须为无损压缩/解压缩。能够兼容实时数据流的压缩/解压缩方式和历史数据文件的压缩/解压缩两种功能需求。最终提供的交付物包括：完整算法模型文档、完整的算法实现代码，且代码能够支持跨平台使用（包括Windows和Linux）。压缩方法流程 .this is a text that is being read through the w

15、indow.字典待编码区域字符流LZ77编码.,.区间编码code输入输入输出输出测试结果数据压缩测试文件夹名称原始大小 (MB) 压缩后的大小 (MB) 压缩比压缩时间(s) 解压时间(s) dcc(.hda) 358 43.6 8.21 36.87 4.23 dtl(.hda) 585 83.5 7.01 69.99 7.74 nh(.hda) 489 95.8 5.1 77.36 8.26 rd(.hda) 297 53.2 5.58 41.47 4.65 sw(.hda) 92.2 18.1 5.09 13.01 1.54 xcc(.hda) 362 69.7 5.19 38.48 4.6 xtl(.hda) 142 20.1 7.06 17.38 1.9 xtx(.hda) 556 69.5 8 59.75 6.52 zyzhly(.hda) 23.7 3.44 6.89 2.63 0.3 ssdata(.rda) 154 18.1 8.51 48.37 1.84 注：测试机器的配置为intel i7处理器（主频2.1GHZ）、内存12GB、win8操作系统效果结论在所有给定的数据集上进行测试压缩比均在1:5以上，数据

展开阅读全文

大数据案例分析-南京大学

最新文档