数据挖掘与处理（DataMiningandDataProcessing）

资源描述

《数据挖掘与处理（DataMiningandDataProcessing）》由会员分享，可在线阅读，更多相关《数据挖掘与处理（DataMiningandDataProcessing）（66页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘与处理 (Data Mining and Data Processing),主讲人：张正军 E-mail: Mobile Phone:13605189529,18936030365 Office Phone:84315586 Office Address:理学院718室,第一章数据科学与数据挖掘,1 数据科学 2 数据挖掘,1 数据科学,1.0 概述 (1)信息化的本质:将现实世界中的事物以数据的形式存储到计算机主机中，即信息化是一个生产数据的过程。 (2)数据爆炸(data explosion):数据被快速大量地生产并存储在计算机系统中。 (3)数据自然界(data nature)

2、:数据爆炸在计算机系统中形成数据自然界(data nature)。注:研究数据自然界是研究自然界(real nature)的一种有效方法。 (4)数据学(dataology)或数据科学(data science):研究数据自然界规律的理论、方法和技术。,1 数据科学,1.1 数据能够输入到计算机中的任何内容。数据在物理上以字节(Byte)作为其大小的计量单位，一个字节为一个数据单位，数据物理存在于计算机系统中。对于数据自然界，计算机系统是它的载体，数据是它的唯一存在。 (1)数据原子(data atomic)：不可再分割的最小数据单位，即计算机系统所使用的基本字符集。例：TXT数据注：

3、数据原子一般为单字节字符，也有双字节字符。 (2)数据对象(data object)：识别数据的基本单位，可命名，具有独立含义。注：(a)数据对象:由有限个数据项组成，有一个对象标识，其他为对象内容。(b)数据项(data item):数据原子的有限集，用于描述数据对象的特性，可命名，可定义其数据类型但没有独立含义(即脱离数据对象单独讨论数据项是没有意义的)。,1 数据科学,(3)数据集(data set)：数据对象的集合。例：MDB数据库注：(a)数据集是一个数据对象的有限集合;(b)一些无限的数据集(如：流数据)的数据在任何时刻都是有限的；(c)数据学通常是处理有限数据集的。 (4)

4、元数据(mata data)：描述数据的数据。 ASCII表结构、变量NAME、结构EMPLOYEE (ID，NAME，RANK)，数据库DATABASE tablel (al. a2，)， table2 (bl， b2，)，.。 (5)数据工具(data tool)：计算机系统中存储的能够运行的计算机程序或软件系统。例：杀毒软件、病毒程序注：(a)数据工具是一种特殊的数据对象;(b)数据工具通常用于处理数据但数据工具本身也是数据，可以被其他数据工具处理。,1 数据科学,1.2 数据自然界 (1)数据自然界：所有计算机系统中的数据构成了数据自然界。注：计算机系统是数据的载体，不是数据自然

5、界的组成部分。 (2)数据自然界特征:不为人控制；具有未知性、多样性和复杂性等自然界特征。注：(a)从个体上看，数据是可控的；从总体上看，数据不为人控制; (b)数据的含义未知，规律未知，现实世界没有的未知; (c)数据类型：私人、企业、政府、公共等数据库； (d)组织形式：专用格式、通用格式、互联网等数据形式。,1 数据科学,1.3 数据学 (1)数据学：研究探索数据自然界奥秘的理论、方法和技术。注：(a)研究对象：数据自然界; (b)研究内容：数据的各种类型、状态、属性及变化形式和变化规律； (c)目的：揭示自然界和人类行为的现象与规律。注：(a)数据记录了宇宙和生命现象人文和社会。

6、 (b)寻找数据所含的规律，就是探索宇宙、生命、人类行为、社会发展的规律。,1 数据科学,(2)数据学的框架,1 数据科学,注：(a)数据勘探：勘探数据集的结构(分析数据集的物理结构、逻辑结构)和总体特性(用抽样分析的方法发现数据集服从的分布、个体性或群体性、是否有簇或关联规则)。 (b)数据实验(data experiment) ：验证自然界和数据自然界的假说和规律、模拟人文与社会行为、发现数据规律。数据实验通过实验的方式(实验对象、工具、方法和步骤、观察手段等)，对数据进行实验，获得实验结果，通过观察实验结果对假说和预的规律进行验证。 (c)数据伪装(data camouflage) ：将

7、暴露在公众可及地方的自己的数据进行伪装，使得别人即使获得该数据也无法知道其数据含义。 (d)数据辨伪(data perception)：识别经过伪装的数据。,1 数据科学,注：(e)数据分类学(data taxonomy) ：将数据分门别类，形成数据谱系和发展历史图谱。 (f)数据感知(data awareness) ：像感受大自然那样感受数据自然界，包含数据可视化、数据可听化、数据可嗅可触化等方法和技术。 (g)专门领域的数据学：针对具体领域和环境的数据学，即专门领域的数据学，即专门的理论、技术和方法。,2 数据挖掘,人类已进入一个崭新的信息时代 ,数据库中存储的数据量急剧膨胀,需要从海量数

8、据库和大量繁杂信息中提取有价值的知识，进一步提高信息的利用率。产生了一个新的研究方向：基于数据库的知识发现及相应的数据挖掘理论和技术的研究。随着大数据库的建立和海量数据的不断涌现，必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富，而信息相当贫乏。” 快速增长的海量数据收集、存放在大型数据库中，没有强有力的工具，理解它们已经远远超出人的能力。因此，有人称之为：“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中，而且分析结果往往带有偏差和错误，再加上耗时、费用高，故不可行。,数据矿山,信息金块,数据挖掘工具,2 数据挖掘,大量信息带来方便也带来一

9、大堆问题：信息过量，难以消化；信息真假难以辨识；信息安全难以保证；信息形式不一致，难以统一处理。数据爆炸但知识贫乏：随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。,2 数据挖掘,产生背景及阶段,2 数据挖掘,数据挖掘是多学科的产物,数据挖掘,数据库技术,统计学,高性能计算,人工智能,机器学习,可视化,数据挖掘的应用,电信：流失银行：聚类（细分）, 交叉销售

10、百货公司/超市：购物篮分析（关联规则）保险：细分，交叉销售，流失（原因分析）信用卡：欺诈探测，细分电子商务：网站日志分析税务部门：偷漏税行为探测警察机关：犯罪行为分析医学：医疗保健,英国电信需要发布一种新的产品，需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,电信,GUS日用品零售商店需要准确的预测未来的商品销售量，降低库存成本。,通过数据挖掘的方法使库存成本比原来减少了3.8%,零售商店,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作，为纳税人提供更迅捷、更准确的服务,税务局,银行,金融事务需要搜集和处理大量的数据，由于银行在金融领域

11、的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国商业银行是发达国家商业银行的典范，许多地方值得我国学习和借鉴。,数据挖掘在银行领域的应用,美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量；建立利润评测模型；客户关系优化；风险控制等,Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。美国Firstar银行使用数据挖掘工具，根据客户的消费模式预测何时为客户提

12、供何种产品。,汇丰银行需要对不断增长的客户群进行分类，对每种产品找出最有价值的客户。,营销费用减少了30,银行,2 数据挖掘,注：相近的术语:数据库中的知识发现、知识挖掘、知识提取、数据融合。数据挖掘(Data Mining,DM)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现(Knowledge Discovery in Databases,KDD)是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。,2.1 K

13、DD (1)定义人们给KDD下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。,2 数据挖掘,(2) KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，KDD过程主要经由三个部分组成，即数据整理、数据挖掘和结果的解释评估。,2 数据挖掘,2 数据挖掘,数据清理筛选,数据,目标数据,Knowledge,预处理及变换,变换后的数据,数据挖掘,解释/评估,2 数据挖掘,(3)知识发现（KDD）的步骤 (a)

14、数据准备：了解KDD应用领域的有关情况。包括熟悉相关的知识背景，搞清用户需求。 (b)数据选取：数据选取的目的是确定目标数据，根据用户的需要从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关处理。 (c)数据预处理：对步骤2中选出的数据进行再处理，检查数据的完整性及一致性，消除噪声及与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。,(d)数据变换：根据知识发现的任务对经过预处理的数据再处理，主要是通过投影或利用数据库的其它操作减少数据量。 (e)确定KDD目标：根据用户的要求，确定KDD要发现的知识类型。 (f)选择算法：根

15、据步骤5确定的任务，选择合适的知识发现算法，包括选取合适的模型和参数。,(g)数据挖掘：这是整个KDD过程中很重要的一个步骤。运用前面的选择算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来。 (h)模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释。通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取。 (i)知识评价：将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查，以确信本次发现的知识不会与以前发现的知识相抵触。,2 数据挖掘,2.2数据挖掘的定义 (1)数据挖掘：通过分析每个数据，从大量数据中寻找其规律的技术。注:数据挖

16、掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。注:(a)数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识； (b)发现的知识要可接受、可理解、可运用； (c)并不要求发现放之四海皆准的知识，仅支持特定的发现问题。,2 数据挖掘,(2)商业角度的定义定义：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。理解：数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。,2 数据挖掘,(3)数据挖掘与传统分析方法的区别注：(a)数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识. (b)数据挖掘所得到的信息应具有先未知，有效和可实用三个特征。 (c)先前未知的信息是指该信息是预先未曾预料到的，数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。案例：南京的房价与离婚率是同步的。,

展开阅读全文

数据挖掘与处理（DataMiningandDataProcessing）

最新文档