数据挖掘与机器学习(非参数统计)

资源描述

《数据挖掘与机器学习(非参数统计)》由会员分享，可在线阅读，更多相关《数据挖掘与机器学习(非参数统计)（64页珍藏版）》请在金锄头文库上搜索。

1、第10章数据挖掘与机器学习,1,概念：数据挖掘是从大量的数据中，抽取出潜在的、有价值的知识（模型或规则）的过程,2,工业控制技术研究所,数据挖掘概念,数据挖掘-从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构；数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。,工业控制技术研究所,数据挖掘的社会需求,国民经济和社会的信息化,社会信息化后，社会的运转是软件的运转社会信息化后，社会的历史是数据的历史,工业控制技术研究所,数据挖掘的社会需求,有价值的知识,可怕的数据,工业控制技术研究所,数据挖掘的社会

2、需求,数据爆炸，知识贫乏,数据挖掘功能,数据挖掘任务有两类：第一类是描述性挖掘任务：刻划数据库中数据的一般特性；第二类是预测性挖掘任务：在当前数据上进行推断，以进行预测。,工业控制技术研究所,数据挖掘技术,技术分类预言（Predication）：用历史预测未来描述（Description）：了解数据中潜在的规律数据挖掘技术关联分析序列模式分类（预言）聚集异常检测,工业控制技术研究所,数据挖掘系统的特征,数据的特征知识的特征算法的特征,矿山（数据）,挖掘工具（算法）,金子（知识）,工业控制技术研究所,数据的特征,大容量 POS数据（某个超市每天要处理高达2000万笔交易）

3、卫星图象（NASA的地球观测卫星以每小时50GB的速度发回数据）互联网数据含噪音（不完全、不正确）异质数据（多种数据类型混合的数据源，来自互联网的数据是典型的例子）,工业控制技术研究所,数据挖掘算法的特征,构成数据挖掘算法的三要素模式记述语言：反映了算法可以发现什么样的知识模式评价：反映了什么样的模式可以称为知识模式探索：包括针对某一特定模式对参数空间的探索和对模式空间的探索,工业控制技术研究所,数据挖掘的主要方法,分类（Classification）聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他,工业控制技术研究

4、所,数据挖掘系统,工业控制技术研究所,数据挖掘系统,第一代数据挖掘系统支持一个或少数几个数据挖掘算法，这些算法设计用来挖掘向量数据（vector-valued data），这些数据模型在挖掘时候，一般一次性调进内存进行处理。许多这样的系统已经商业化。第二代数据挖掘系统目前的研究，是改善第一代数据挖掘系统，开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库，和它们具有高性能的接口，具有高的可扩展性。例如，第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式（data mining schema）和数据挖掘查询语言（DMQL）增加系统的灵活性。

5、,工业控制技术研究所,数据挖掘系统,第三代数据挖掘系统第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据，并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别（first class）的支持。第四代数据挖掘系统第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在（ubiquitous）计算设备产生的各种类型的数据。,数据挖掘的功能/算法/应用的比较,数据挖掘常用方法的综合比较*,数据挖掘的具体应用,市场-购物蓝分析客户关系管理寻找潜在客户提高客户终生价值

6、保持客户忠诚度行销活动规划预测金融市场方向,保险欺诈侦察客户信用风险评级电话盗打 NBA球员强弱分析信用卡可能呆帐预警星际星体分类,数据挖掘的步骤*,一种步骤划分方式理解资料与进行的工作获取相关知识与技术（Acquisition）整合与查核资料（Integration and checking）去除错误、不一致的资料（Data cleaning）模式与假设的演化（Model and hypothesis development）实际数据挖掘工作测试与核查所分析的资料（Testing and verification）解释与运用（Interpretation and

7、use）,工业控制技术研究所,数据挖掘软件的发展,第一代数据挖掘软件 CBA,新加坡国立大学。基于关联规则的分类算法，能从关系数据或者交易数据中挖掘关联规则，使用关联规则进行分类和预测,工业控制技术研究所,数据挖掘软件的发展,第二代数据挖掘软件,特点与数据库管理系统（DBMS）集成支持数据库和数据仓库，和它们具有高性能的接口，具有高的可扩展性能够挖掘大数据集、以及更复杂的数据集通过支持数据挖掘模式（data mining schema）和数据挖掘查询语言增加系统的灵活性典型的系统如DBMiner，能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成，如何和预言模型系统集成导致了

8、第三代数据挖掘系统的开发,工业控制技术研究所,数据挖掘软件的发展,第二代数据挖掘软件 DBMiner,工业控制技术研究所,数据挖掘软件的发展,第二代软件 SAS Enterprise Miner,工业控制技术研究所,数据挖掘软件的发展,第三代数据挖掘软件,特点和预言模型系统之间能够无缝的集成，使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收，从而与操作型系统中的预言模型相联合提供决策支持的功能能够挖掘网络环境下（Internet/Extranet）的分布式和高度异质的数据，并且能够有效地和操作型系统集成缺陷不能支持移

9、动环境,工业控制技术研究所,数据挖掘软件的发展,第三代软件 SPSS Clementine,以PMML的格式提供与预言模型系统的接口,工业控制技术研究所,数据挖掘软件的发展,第四代数据挖掘软件,特点目前移动计算越发显得重要，将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在（ubiquitous）计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导，PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文，Kargupta是马里兰巴尔的摩州立大学（University of Maryland Baltimore

10、 County）正在研制的CAREER数据挖掘项目的负责人，该项目研究期限是2001年4月到2006年4月，目的是开发挖掘分布式和异质数据（Ubiquitous设备）的第四代数据挖掘系统。,工业控制技术研究所,数据挖掘软件的发展,第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口，所以在数据预处理方面有一定缺陷第三、四代系统强调预测模型的使用和操作型环境的部署第二代系统提供数据管理系统和数据挖掘系统之间的有效接口第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口目前，随着新的挖掘算法的研究和开发，第一代数据挖掘系统仍然会出现，第二代系统是商业软件的主流，部分第二代

11、系统开发商开始研制相应的第三代数据挖掘系统，比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导,工业控制技术研究所,数据挖掘软件的发展,数据挖掘软件发展的三个阶段独立的数据挖掘软件横向的数据挖掘工具集纵向的数据挖掘解决方案,工业控制技术研究所,数据挖掘软件的现状,国内大部分处于科研阶段各大学和科研机构从事数据挖掘算法的研究国内著作的数据挖掘方面的书较少（翻译的有）数据挖掘讨论组（）有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Miner 自主知识产权的数据

12、挖掘软件复旦德门（）等,工业控制技术研究所,数据挖掘应用,神经网络 Neural Networks,聚类分析 Clustering,Open Accnt,Add New Product,Decrease Usage,?,Time,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留客户生命周期管理目标市场价格弹性分析,客户细分市场细分,倾向性分析客户保留目标市场欺诈检测,关联分析 Association,市场组合分析套装产品分析目录设计交叉销售,10.1分类一般问题,定义：给定，为离散值，表示每个样例的分类，目标是

13、找到一个函数，对于新观测点，能够用预测分类。,工业控制技术研究所,分类 VS. 预测,分类：(与回归相比较) 预测分类标号（或离散值）（特点）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型，比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测,工业控制技术研究所,数据分类：两步过程,第一步，建立一个模型，描述预定数据类集和概念集假定每个元组属于一个预定义的类，由一个类标号属性确定基本概念训练数据集：由为建立模型而被分析的数据元组形成训练样本：训练数据集中的单个样本（元组）学习模型可以用分类规则、判定树或数学公式的

14、形式提供第二步，使用模型，对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分适应数据”的情况,工业控制技术研究所,第一步：建立模型,训练数据集,分类算法,IF rank = professor OR years 6 THEN tenured = yes,分类规则,工业控制技术研究所,第二步：用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,损失函数,损失函数评价法损失

15、函数为，拟合函数的预测风险定义为估计方法为，由于数据联合分布未知，无法用E 计算。故用风险的矩估计经验风险（代替预测风险）,36,估计方法为，如果，期望风险经验风险，当不满足，,37,根据Vladimir N. Vapnik(1995)估算：在时，,38,以上给出了期望风险与经验风险之间的关系。结构风险最小化定义统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Mi

16、nimization)，即SRM准则。,39,vc维 VC维（Vapnik-Chervonenkis Dimension）的概念是为了研究学习过程一致收敛的速度和推广性，由统计学习理论定义的有关函数集学习性能的一个重要指标。,40,结构风险最小化(SRM)的基本思想,所谓的结构风险最小化就是在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制。传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的,因此，需要同时最小化经验风险和置信范围。机器学习过程不但要使经验风险最小，还要使VC维尽量小以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性。,41,在有限训练样本下，学

展开阅读全文