guo_大数据时代的商务智能与数据解析学

上传人:雨水 文档编号:128285767 上传时间:2020-04-20 格式:PPT 页数:72 大小:5.47MB
返回 下载 相关 举报
guo_大数据时代的商务智能与数据解析学_第1页
第1页 / 共72页
guo_大数据时代的商务智能与数据解析学_第2页
第2页 / 共72页
guo_大数据时代的商务智能与数据解析学_第3页
第3页 / 共72页
guo_大数据时代的商务智能与数据解析学_第4页
第4页 / 共72页
guo_大数据时代的商务智能与数据解析学_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《guo_大数据时代的商务智能与数据解析学》由会员分享,可在线阅读,更多相关《guo_大数据时代的商务智能与数据解析学(72页珍藏版)》请在金锄头文库上搜索。

1、1 大数据时代的商务智能与数据解析学 郭崇慧dlutguo 大连理工大学管理科学与工程学院系统工程研究所 2 大纲 大数据 的时代背景 大数据 对社会发展的影响商务智能与数据解析学概要理论方法研究与应用案例 从数据谈起 数据无所不在 3 大数据 的时代背景 4 无所不在的数据 1 国家 省 市 统计局 70万家企业联网 直报 统计数据从2月18日开始 全国70万家 三上 企业和房地产开发经营企业将在统一的数据采集和处理平台上 通过互联网直接向国家数据中心或国家认定的省级数据中心报送统计数据 5 无所不在的数据 2 金融数据 金融高频数据 金融市场中的逐笔交易数据和逐秒交易数据 6 无所不在的数

2、据 3 在超市中 数据通过条码扫描机获得 这样的 购物蓝 数据库由大量的交易记录组成 RFID技术与物联网应用 7 无所不在的数据 4 到2020年 北斗卫星导航系统将拥有35颗卫星 已发射15颗 形成覆盖全球的卫星网络 全球四大卫星导航系统北斗卫星导航系统美国的GPS俄罗斯的格洛纳斯欧盟的伽利略系统 8 无所不在的数据 5 生物信息学 人类基因组计划 神经信息学 人类脑计划 9 无所不在的数据 6 大数据现象 AnEverestSizedOpportunity 10 K M G T P E Z YKKilo1K字节 1 024字节MMeg1M字节 1 048 576字节GGiga1G字节 1

3、 073 741 824字节TTera1T字节 1 099 511 627 776字节PPeta1P字节 1 125 899 906 842 624字节EExa1E字节 1 152 921 504 606 846 976字节ZZetta1Z字节 1 180 591 620 717 411 303 424字节YYotta1Y字节 1208 925 819 614 629 174 706 176字节 容量单位 从K到Y 大数据现象 11 产业界与学术界的关注 麦肯锡咨询公司 大数据 研究报告 Bigdata Thenextfrontierforinnovation competition andp

4、roductivity McKinseyGlobalInstitute May2011 12 高德纳 Gartner 研究与顾问咨询公司 产业界与学术界的关注 Dataarebecomingthenewrawmaterialofbusiness aneconomicinputalmostonaparwithcapitalandlabor 数据正逐渐变成商业所需的原材料之一 一项几乎和资本或劳力一样重要的经济原料 Feb 27th 2010 13 产业界与学术界的关注 20世纪大萧条以来 美国作为世界强国的开放历史 数据技术浪潮的兴起过程 气势磅礴 波澜壮阔 美国政府为什么能 中国到底缺什么 大

5、数据 之 大 并不仅仅在于 容量之大 更大的意义在于 通过对海量数据的交换 整合和分析 发现新的知识 创造新的价值 带来 大知识 大科技 大利润 和 大发展 14 2012 7 产业界与学术界的关注 爆发 大数据时代预见未来的新思维 巴拉巴西的研究是在人类生活数字化的大数据时代基础上进行的 移动电话 网络以及电子邮件使人类行为变得更加容易量化 将我们的社会变成了一个巨大的数据库 巴拉巴西揭开人类行为背后隐藏的模式 爆发 提出人类日常行为模式不是随机的 而是具有 爆发性 的 15 2012 6 新信息世界观 物理世界 信息世界 人类社会组成三元世界 16 大数据 李国杰院士 大数据 对社会发展的

6、影响 科学研究第四种范式公共管理智慧城市工业生产与商业经营商务智能与数据解析学 17 第四种范式 观察与经验描述与实验 理论建模 仿真与计算等科研模式之后 当代又出现了数据密集型的科研范式 微软公司于2009年10月发布了 TheFourthParadigm Data IntensiveScientific 首次全面地描述了快速兴起的数据密集型科学研究 TheNextScienceRevolution HarvardBusinessReview November2010 18 19 自然 科学 大数据专刊 20 2011年2月11日出版的 科学 杂志刊登专题 数据处理 2008年9月3日出版的

7、 自然 杂志刊登专题 大数据 公共管理 智慧城市 21 城市管理是个复杂学科 智慧城市建设是一项复杂的系统工程 对智慧城市的建设应该同时着眼于三个空间的整体 大连建设智慧城市的总体思路 22 基础设施智能化 产业发展现代化 公共服务普惠化和运营管理精益化 商务智能与数据解析学 目前决策制定者正在被大量的数据淹没 数字信息从各种各样的传感器 工具和模拟实验那里源源不断地涌来 令企业的组织能力 分析能力和储存信息的能力捉襟见肘 正如麦肯锡的报告揭示的那样 管理作为科学的一个特性正在越来越凸现出来 23 决策需要信息与知识 24 25 Volume Value EDP MIS DSS Benefit

8、sofKnowledgeDiscovery Generate RapidResponse Disseminate EDP ElectronicDataProcessingMIS ManagementInformationSystemsDSS DecisionSupportSystems 明确业务问题 收集数据和信息 商务智能的前世今生 起源 从数据到知识的挑战和跨越结蛹 数据仓库之厚积薄发蚕动 联机分析之惊艳破茧 数据挖掘之智能生命的产生化蝶 数据可视化的华丽上演 26 三类智能的融合 27 人的智能 商业 业务 智能 机器智能 数据 什么是数据解析学 简单的定义 thescienceofan

9、alysis 一般的定义Analyticsistheprocessofobtaininganoptimalorrealisticdecisionbasedonexistingdata Analyticsistheapplicationofcomputertechnology operationalresearch andstatisticstosolveproblemsinbusinessandindustry 什么是数据解析学 Dataanalytics DA isthescienceofexaminingrawdatawiththepurposeofdrawingconclusionsab

10、outthatinformation Dataanalyticsisusedinmanyindustriestoallowcompaniesandorganizationtomakebetterbusinessdecisionsandinthesciencestoverifyordisproveexistingmodelsortheories 29 30 从知识转化过程看数据解析 数据解析学的方法体系 数据解析学是多种学科的交叉的产物 31 数据解析学书籍 32 托马斯 H 达文波特 珍妮 G 哈里斯 数据分析竞争法 企业赢之道 competingonanalytics 译者 康蓉吴越商务印书

11、馆 2009 埃森哲战略变革研究院主任美国巴布森学院信息技术与管理领域的著名教授 数据解析学杂志 33 数据解析学报告与论文 Analytics Thereal worlduseofbigdataHowinnovativeenterprisesextractvaluefromuncertaindata 2012 35 理论方法研究 从ANN到SVM从PCA到ICA从K means到核聚类与谱聚类图聚类与时间序列聚类 36 科研项目 37 方法论 模块化业务问题理解知识表示 模式与模型 知识评价 目标与评分 搜索与优化方法数据管理策略与技术应用验证问题 粒度 规律 异常 应用 分类与预测 从 人

12、工神经网络 到 支持向量机 39 分类任务 学习器 训练器 分类器 类1 类2 类m 未被分类的数据 训练例 训练例 训练例 学习 训练 过程 分类过程 模型 40 ANN的优缺点 优点通用性 分类 回归 函数逼近 灵活性 黑箱原理 简单性BP算法 最速下降法 学习能力 万能逼近器 缺点泛化能力网络结构局部极小全局优化算法不可解释 ANN的设计者们用高超的工程技巧弥补了数学上的缺陷 41 支持向量机 SVM 理论基础统计学习理论优化理论泛函分析计算技术求解凸二次规划应用分类 模式识别 回归估计密度函数估计 42 支持向量 43 构造软间隔分类超平面 原优化模型MinimizeSubjectto

13、对偶优化模型MaximizeSubjectto 熵优化 特征提取 从 主成分分析 到 独立成分分析 45 主成分分析 PCA 46 鸡尾酒会问题 47 盲源分离问题 De mixingprocess W Recoveredindependentcomponents 48 独立成分分析基本模型 ICA的目标就是找到一个线性映射W使得解混后的成分u彼此之间统计独立 不确定性其中C是对角矩阵 P是置换矩阵 49 ICA优化模型与算法 ICA 模型 目标函数 优化方法目标函数 如何度量统计独立性 峰度 负熵等优化方法 解混矩阵W如何迭代求解 梯度算法 自然梯度算法 不动点算法 50 Left righ

14、ttask relatedtovisualstimuli Sensitivetochangesinstimuli TransientlyTaskRelated NonTaskRelated 聚类分析 从 k means 到 核聚类与谱聚类 52 聚类算法 53 核聚类 熵优化 54 55 谱聚类 将数据集表示成加权图G V E 56 聚类的优化目标 2 Minimizeweightofbetween groupconnections 1 Maximizeweightofwithin groupconnections 57 谱图理论 矩阵表示Representasimilaritygraphas

15、amatrix Analysethe spectrum ofmatrixrepresentingagraph Spectrum Theeigenvectorsofagraph orderedbythemagnitudeoftheircorrespondingeigenvalues 特征提取特征值与特征向量 基于谱聚类的社区结构发现 58 空手道俱乐部成员间社会关系网络 时间序列数据挖掘 59 时间序列数据 隐藏的知识 潜在的信息 信息与知识 60 时间序列聚类 由于时间序列数据与静态数据有着极大的不同 故对其进行聚类分析有着很大的复杂性 时间序列数据聚类方法基于原始数据的聚类基于特征的聚类基于

16、模型的聚类 61 基于ICA的时间序列聚类 以ICA作为时间序列数据特征提取的新工具 时间序列数据本身所具备的高维性 复杂性 动态性 高噪声特性以及容易达到大规模的特性 为了解决大规模时间序列数据聚类过程中遇到的 维数灾难 问题和噪声干扰问题 提出以ICA作为时间序列数据特征提取的新工具 对时间序列数据进行有效的降维和去噪 62 股票时间序列聚类 咨询项目及典型应用 发动机试验时间序列数据挖掘信用卡客户细分模型汽车用户购买与维修行为分析 63 发动机试验时间序列分析 每秒30次采样 2小时以上60多个传感器 多次试验 64 训练 预测 基于特征数据的发动机试验时间序列预测 因变量 自变量 信用卡客户细分模型 借助CEM平台 打通各业务系统 形成360度客户视图 提高客户转化 提升客户忠诚度及客户体验 CEM商务智能目标及任务 CEM数据挖掘任务 模拟客户价值分群 车主流失模型 车主再购模型 67 客户群显著特征维度对照表 数值越大 线条越长 的变量对分类的贡献越大设置95 的置信区间 红色虚线 超过红线的变量对该分类贡献大 68 69 商务智能与数据解析学展望 70 发展趋势 与行业应

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 往来文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号