大数据-数据挖掘课件

上传人:我*** 文档编号:145749131 上传时间:2020-09-23 格式:PPT 页数:13 大小:4.20MB
返回 下载 相关 举报
大数据-数据挖掘课件_第1页
第1页 / 共13页
大数据-数据挖掘课件_第2页
第2页 / 共13页
大数据-数据挖掘课件_第3页
第3页 / 共13页
大数据-数据挖掘课件_第4页
第4页 / 共13页
大数据-数据挖掘课件_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《大数据-数据挖掘课件》由会员分享,可在线阅读,更多相关《大数据-数据挖掘课件(13页珍藏版)》请在金锄头文库上搜索。

1、,大数据 vs 数据挖掘,大数据是什么,大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据与云计算的关系就像一枚硬币的正反面一样密不可分。 HACE定理:大数据是巨大,无中心循环自生的,关系复杂且变化的。,1998: Big Data and the Next Wave of ,2005: Web 2.0,2006: Google Analytic,2012: Facebook IPO,大数据的纬度,数据,技术,创意,数据挖掘是什么,数据挖掘(英语:Data mining),又

2、译为资料探勘、数据采矿。它是数据库知识发现(KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。,各种来源数据,数据库或者数据仓库,数据挖掘引擎,模式评估,用户界面,知识库,数据挖掘能挖掘什么,概念性描述:用户画像; 频繁模式,关联:推荐系统; 分类; 聚类:寻找新的分类; 离群点分析: 演变分析,时间序列:预测未来。 易于理解,有效,有用,新的。,数据库技术,统计学,信息科学,可视化,机器学习,数据挖掘,DMQL: 与任务相关的数据; 要挖

3、掘的知识类型; 用于挖掘过程的背景知识; 评估模式的兴趣度度量和阈值; 可视化发现模式的期望表示,CRISP-DM,大数据和数据挖掘区别,趋势分析,Data mining,Web 2.0,Big data,Mobile internet,图表来自Google Trends,虚线为预测部分,整体 vs 个体,关注个体间的关系,集体表现特性。 关注关联关系,注重实际应用,不追究因果关系。 个体间通常有很多的联系,交互。,关注个体的细节,数据由什么构成。关注因果关系,注重理论知识。 根据实验理论,个体间彼此是分离的。,多样 vs 抽样,关注一切可能获取的数据,考虑数据全部。 数据可以多次被使用,陈旧

4、数据不会删除。 非结构化,无层次。 采用分布式部署。,数据一般人工收集而来,按照一定的规则进行抽样。 陈旧数据一般不使用,为节约空间一般会以别的形式存放。 数据是规范的,有层次。 一般是单机。,简单算法 vs 专家参与,对先验知识的依赖性低,基本不需要人工参与。 对大量数据实施简单算法。 能自动调整适应。,严重依赖于先验知识和数据挖掘者的经验。 算法复杂:概率算法,神经网络等。 会出现滚雪球的灾难。,容错 vs 精确,大数据下,错误会抵消。 允许一些数据项为空。 错误的数据也是有价值的。,使用统计方法,去掉错误数据。 对空的数据,进行填补或者抛弃。 抛弃错误数据,不处理。,快速 vs 固定,数据高速,实时增加。 要么现在开始,要不就不要开始。 这一秒有效,下一秒就无效。,针对一个固定的数据集。 可以有长时间的准备和挖掘过程。 知识长期可用。,谢谢大家看我装逼,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号