数据挖掘技术基础知识

上传人:tian****1990 文档编号:74715966 上传时间:2019-01-29 格式:PPT 页数:122 大小:9.90MB
返回 下载 相关 举报
数据挖掘技术基础知识_第1页
第1页 / 共122页
数据挖掘技术基础知识_第2页
第2页 / 共122页
数据挖掘技术基础知识_第3页
第3页 / 共122页
数据挖掘技术基础知识_第4页
第4页 / 共122页
数据挖掘技术基础知识_第5页
第5页 / 共122页
点击查看更多>>
资源描述

《数据挖掘技术基础知识》由会员分享,可在线阅读,更多相关《数据挖掘技术基础知识(122页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘,厦门大学计划统计系,数据挖掘技术 基础知识简介,数据挖掘技术 基础知识简介,一、数据挖掘技术的由来 二、知识发现和数据挖掘的定义 三、数据挖掘能干些什么 四、数据挖掘与其它学科 五、数据挖掘的任务 六、数据挖掘的对象 七、数据挖掘的知识表示 八、数据挖掘的方法和技术,教学内容,数据挖掘技术基础知识, 引言 网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化 逐渐演变的过程 ,一、数据挖掘技术的由来, 引言,一、数据挖掘技术的由来,顾名思义, “数据挖掘” (Data Mining) 就是从大量数据中寻找其规律的技术。它是根据人们的特定要求

2、,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。 数据挖掘应用领域非常广阔。先期将在数据积累比较充分的领域银行、证券、电信等领域到应用,以后将在各领域中获得应用。 未来市场不可限量,中国将形成数百亿的市场规模。将在中国形成一个新型的产业。,随着信息化的深入发展,积累的数据会越来越多,所以对数据挖掘技术的需求也会越来越大。数据挖掘技术将被社会长期使用。 数据挖掘技术相对门槛较高。需要有数理统计学、数据库、人工智能等基础,目前国内数据挖掘人才奇缺。 我系已于 2004 年开设面向研究生数据挖掘有关课程,面向本科生的课程也已开设。为了让大家了解数据挖掘的基本内容。我们从数据挖掘有关文献和

3、材料上加工整理了一些有关该课程的基本知识,供参考。, 引言, 网络之后的下一个技术热点,一、数据挖掘技术的由来,1. 我们已生活在一个网络化的时代, 通信、计算机和网络技术正改变着整个人类和社会; 如果用芯片集成度来衡量微电子技术,用 CPU 处理速度来衡量计算机技术,用信道传输速率来衡量通信技术, 那么摩尔定律告诉我们,它们都是以每 18 个月翻一番的速度在增长。 在美国,广播达到 5000 万户用了 38 年;电视用了13 年;Internet 拨号上网达到 5000 万户仅用了 4 年。,全球 IP 网发展速度达到每 6 个月翻一番,国内情况亦然。 1999 年初,中国上网用户为 210

4、 万, 现在已经达到 10300万人 (2005年7月中国互联网络发展状况统计报告) 。 2007 年中国互联网调查报告显示:互联网用户规模达1.82亿人, 较06年增长33.8% , 预计 2008 年中国互联网用户规模将达 2.44 亿; 2007年中国综合门户企业市场营收规模为123.5亿元,较 2006 年增长22.3%。 2008 年中国互联网综合门户企业市场营收规模将达161.9 亿元,广告收入将大幅增长。, 网络之后的下一个技术热点, 网络之后的下一个技术热点,2. 人们不仅要问:就推动人类社会进步而言, 历史上能与网络技术相比拟的是什么技术呢? 有人甚至要把网络技术与火的发明相

5、比拟。 火的发明区别了动物和人; 种种科学技术的重大发现扩展了自然人的体能、技能和智能; 而网络技术则大大提高了人的生存质量和人的素质,使人成为社会人。, 网络之后的下一个技术热点,3. 现在的问题是:网络之后的下一个技术热点是什么? 让我们来看一些身边俯拾即是的现象: 纽约时报由 60 年代的 1020 版扩张至现在的 100200 版,最高曾达 1572 版; 北京青年报也已是 1640 版;市场营销报已达 100 版。 然而在现实社会中,人均日阅读时间通常为 3045 分钟,只能浏览一份 24 版的报纸。, 网络之后的下一个技术热点,大量信息在给人们带来方便的同时也带来了一大堆问题: 第

6、一是信息过量,难以消化; 第二是信息真假难以辨识; 第三是信息安全难以保证; 第四是信息形式不一致,难以统一 处理。,可怕的数据, 网络之后的下一个技术热点,4. 人们开始提出新的口号:“要学会抛弃信息” 面对这一挑战, 数据开采和知识发现 (DMKD) 技术应运而生, 并显示出强大的生命力。, 数据爆炸但知识贫乏,一、数据挖掘技术的由来,另一方面, 随着数据库技术的迅速发展以及数据库管理系统的广泛应用, 人们积累的数据越来越多。 激增的数据背后隐藏着许多重要的信息, 人们希望能够对其进行更高层次的分析, 以便更好地利用这些数据。,目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,

7、但无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势。 缺乏挖掘数据背后隐藏的知识的手段, 导致了“数据爆炸但知识贫乏” 的现象。, 数据爆炸但知识贫乏, 支持数据挖掘技术的基础,一、数据挖掘技术的由来,数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。 起初各种商业数据是存储在计算机的数据库中的, 然后发展到可对数据库进行查询和访问, 进而发展到对数据库的即时遍历。 数据挖掘使数据库技术进入了一个更高级的阶段, 它不仅能对过去的数据进行查询和遍历, 并且能够找出过去数据之间的潜在联系,从而促进信息的传递。,现在数据挖掘技术已可以马上投入使用, 因为支持的它的基础技术

8、已成熟,他们是: 1. 海量数据搜集 商业数据库正以一个空前的速度增长,且数据仓库正在广泛地应用于各行业。 2. 强大的多处理器计算机 已成熟的并行多 cpu 的技术可以满足对计算机硬件性能越来越高的要求 。 3. 数据挖掘算法 经过了10多年的发展也已经成为一种成熟,稳定,且易于理解和操作的技术。, 支持数据挖掘技术的基础, 从商业数据到商业信息的进化,一、数据挖掘技术的由来,从商业数据到商业信息的进化过程中, 每一步前进都是建立在上一步的基础上的。 表中我们可以看到, 第四步进化是革命性的, 因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。 数据挖掘的核心模

9、块技术历经了数十年的发展,(包括数理统计、人工智能、机器学习); 这些成熟的技术, 加上高性能的关系数据库引擎及广泛的数据集成, 让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段;, 从商业数据到商业信息的进化, 数据挖掘逐渐演变的过程,一、数据挖掘技术的由来,电子数据处理的初期, 人们就试图通过某些方法来实现自动决策支持, 当时机器学习成为人们关心的焦点。 随后, 随着神经网络技术的形成和发展, 人们的注意力转向知识工程。 80 年代人们又在新的神经网络理论的指导下, 重新回到机器学习的方法上, 并将其成果应用于处理大型商业数据库。 80 年代末一个新的术语 KDD出现, 人们接受了这个

10、术语,知识工程不同于机器学习那样给计算机输入范例, 让它生成出规则, 而是直接给计算机输入已被代码化的规则, 而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果, 但它有投资大、效果不甚理想等不足。,KDD (Knowledge discovery in database) 就是数据库中的知识发现, 泛指所有从源数据中发掘模式或联系的方法, 人们用 KDD 来描述整个数据发掘的过程, 包括最开始的制定业务目标到最终的结果分析, 而用数据挖掘 (data mining) 来描述使用挖掘算法进行数据挖掘的子过程。,机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输

11、入计算机, 机器通过学习这些范例总结并生成相应的规则, 这些规则具有通用性, 使用它们可以解决某一类的问题;,以后人们却在逐渐使用数据挖掘中, 发现有许多工作可以由统计方法来完成, 并认为最好的策略是将统计方法与数据挖掘有机的结合起来。 数据仓库的发展促使数据挖掘越来越热。 数据仓库技术的发展与数据挖掘有着密切的关系。其的发展是促进数据挖掘越来越热的原因之一。 但是, 数据仓库并不是数据挖掘的先决条件, 因为有很多数据挖掘可直接从操作数据源中挖掘信息。, 数据挖掘逐渐演变的过程, 技术上的定义及含义 商业角度的定义 KDD 过程 数据挖掘需要的人员 ,二、知识发现和挖掘的定义, 技术上的定义及

12、含义,二、知识发现和数据挖掘的定义,1. 定义 知识发现 (KDD) 被认为是从数据中发现有用知识的整个过程。 数据挖掘被认为是KDD 过程中的一个特定步骤, 它是用专门算法从数据中抽取模式。 KDD 过程定义如下: KDD 是从数据集中识别出有效的、新颖的、潜在有用的, 以及最终可理解的模式的高级处理过程。,模式 (Pattern) : 用语言 L 表示的 F 中部分记录的表达式 E, 它所描述的数据集是集合 F 的一个子集 FE, 我们称表达式 E 为模式;,有效、新颖、潜在有用、可理解: 表示发现的模式应该是新的, 将来有实用价值, 能被用户所理解。,数据集:数据库记录的集合 F;,2.

13、 有关知识发现 (KDD)的几点说明 何为知识? 从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。 原始数据 可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。 人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。, 技术上的定义及含义,所有发现的知识都是相对的。 不是要求发现放之四海而皆准的真理;也不是要去发现崭新的自然科学定理和纯数学公式;更不是什么机器定理证明; 实际上, 所有发现的知识是有特定前提和约束条件, 面向特定领域的;同时还要能够易于被用户理解。最好能用自然语言表

14、达所发现的结果。 发现知识的方法 可以是数学的, 也可以是非数学的; 可以是演绎的, 也可以是归纳的。, 技术上的定义及含义,发现的知识可以被用于 信息管理,查询优化,决策支持和过程控制等,数据自身的维护。 数据挖掘是一门交叉学科 把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 汇聚了不同领域的研究者, 投身到这一新兴的领域,形成新的技术热点。, 技术上的定义及含义, 商业角度的定义,二、知识发现和数据挖掘的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据;

15、简而言之, 数据挖掘其实是一类深层次的数据分析方法。 数据分析本身已有多年的历史, 只不过在过去数据收集和分析的目的是用于科学研究; 由于当时计算能力的限制, 对大数据量进行分析的复杂数据分析方法受到很大限制。,现在, 由于各行业业务自动化的实现, 商业领域产生了大量的业务数据, 这些数据不再是为了分析的目的而收集的, 而是由于纯机会的 (Opportunistic) 商业运作而产生。 分析这些数据也不再是单纯为了研究的需要, 更主要是为商业决策提供真正有价值的信息, 进而获得利润。 但所有企业面临的一个共同问题是: 企业数据量非常大, 而其中真正有价值的信息却很少;, 商业角度的定义,因此从

16、大量的数据中经过深层分析, 获得有利于商业运作、提高竞争力的信息, 就像从矿石中淘金一样, 数据挖掘也因此而得名。 因此, 数据挖掘可以描述为: 按企业既定业务目标, 对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性, 并进一步将其模型化的先进有效的方法。, 商业角度的定义, KDD 过程,二、知识发现和数据挖掘的定义,图 数据挖掘视为知识发现过程的一个步骤, KDD 过程,KDD 过程可以概括为三部分: 数据准备 (Data Preparation) 数据挖掘 (Data Mining) 结果的解释和评估(Interpretation& Evaluation)。,1. 第一阶段 数据准备 数据准备又可分为 3 个子步骤: 数据选取 (Data Selection) 数据选取的目的是:确定发现任务的操作对象, 即目标数据 (Target Data), 是根据用户的需要从原始

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号