数据挖掘与机器学习(非参数统计)

上传人:F****n 文档编号:88050142 上传时间:2019-04-17 格式:PPT 页数:64 大小:2.07MB
返回 下载 相关 举报
数据挖掘与机器学习(非参数统计)_第1页
第1页 / 共64页
数据挖掘与机器学习(非参数统计)_第2页
第2页 / 共64页
数据挖掘与机器学习(非参数统计)_第3页
第3页 / 共64页
数据挖掘与机器学习(非参数统计)_第4页
第4页 / 共64页
数据挖掘与机器学习(非参数统计)_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《数据挖掘与机器学习(非参数统计)》由会员分享,可在线阅读,更多相关《数据挖掘与机器学习(非参数统计)(64页珍藏版)》请在金锄头文库上搜索。

1、第10章 数据挖掘与机器学习,1,概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程,2,工业控制技术研究所,数据挖掘概念,数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。,工业控制技术研究所,数据挖掘的社会需求,国民经济和社会的信息化,社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史,工业控制技术研究所,数据挖掘的社会需求,有价值的知识,可怕的数据,工业控制技术研究所,数据挖掘的社会

2、需求,数据爆炸,知识贫乏,数据挖掘功能,数据挖掘任务有两类: 第一类是描述性挖掘任务:刻划数据库中数据的一般特性; 第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。,工业控制技术研究所,数据挖掘技术,技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 数据挖掘技术 关联分析 序列模式 分类(预言) 聚集 异常检测,工业控制技术研究所,数据挖掘系统的特征,数据的特征 知识的特征 算法的特征,矿山(数据),挖掘工具(算法),金子(知识),工业控制技术研究所,数据的特征,大容量 POS数据(某个超市每天要处理高达2000万笔交易)

3、 卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据) 互联网数据 含噪音(不完全、不正确) 异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子),工业控制技术研究所,数据挖掘算法的特征,构成数据挖掘算法的三要素 模式记述语言:反映了算法可以发现什么样的知识 模式评价:反映了什么样的模式可以称为知识 模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索,工业控制技术研究所,数据挖掘的主要方法,分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他,工业控制技术研究

4、所,数据挖掘系统,工业控制技术研究所,数据挖掘系统,第一代数据挖掘系统 支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据(vector-valued data),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。 第二代数据挖掘系统 目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性。

5、,工业控制技术研究所,数据挖掘系统,第三代数据挖掘系统 第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(first class)的支持。 第四代数据挖掘系统 第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据 。,数据挖掘的功能/算法/应用的比较,数据挖掘常用方法的综合比较*,数据挖掘的具体应用,市场-购物蓝分析 客户关系管理 寻找潜在客户 提高客户终生价值

6、保持客户忠诚度 行销活动规划 预测金融市场方向,保险欺诈侦察 客户信用风险评级 电话盗打 NBA球员强弱分析 信用卡可能呆帐预警 星际星体分类,数据挖掘的步骤*,一种步骤划分方式 理解资料与进行的工作 获取相关知识与技术(Acquisition) 整合与查核资料(Integration and checking) 去除错误、不一致的资料(Data cleaning) 模式与假设的演化(Model and hypothesis development) 实际数据挖掘工作 测试与核查所分析的资料(Testing and verification) 解释与运用(Interpretation and

7、use),工业控制技术研究所,数据挖掘软件的发展,第一代数据挖掘软件 CBA,新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测,工业控制技术研究所,数据挖掘软件的发展,第二代数据挖掘软件,特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 缺陷 只注重模型的生成,如何和预言模型系统集成导致了

8、第三代数据挖掘系统的开发,工业控制技术研究所,数据挖掘软件的发展,第二代数据挖掘软件 DBMiner,工业控制技术研究所,数据挖掘软件的发展,第二代软件 SAS Enterprise Miner,工业控制技术研究所,数据挖掘软件的发展,第三代数据挖掘软件,特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷 不能支持移

9、动环境,工业控制技术研究所,数据挖掘软件的发展,第三代软件 SPSS Clementine,以PMML的格式提供与预言模型系统的接口,工业控制技术研究所,数据挖掘软件的发展,第四代数据挖掘软件,特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore

10、 County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。,工业控制技术研究所,数据挖掘软件的发展,第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代

11、系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导,工业控制技术研究所,数据挖掘软件的发展,数据挖掘软件发展的三个阶段 独立的数据挖掘软件 横向的数据挖掘工具集 纵向的数据挖掘解决方案,工业控制技术研究所,数据挖掘软件的现状,国内大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有) 数据挖掘讨论组() 有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Miner 自主知识产权的数据

12、挖掘软件 复旦德门()等,工业控制技术研究所,数据挖掘应用,神经网络 Neural Networks,聚类分析 Clustering,Open Accnt,Add New Product,Decrease Usage,?,Time,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留 客户生命周期管理 目标市场 价格弹性分析,客户细分 市场细分,倾向性分析 客户保留 目标市场 欺诈检测,关联分析 Association,市场组合分析 套装产品分析 目录设计 交叉销售,10.1分类一般问题,定义: 给定 , 为离散值,表示每个样例的分类,目标是

13、找到一个函数 ,对于新观测点 ,能够用 预测分类 。,工业控制技术研究所,分类 VS. 预测,分类:(与回归相比较) 预测分类标号(或离散值)(特点) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测: 建立连续函数值模型,比如预测空缺值 典型应用 信誉证实 目标市场 医疗诊断 性能预测,工业控制技术研究所,数据分类:两步过程,第一步,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 学习模型可以用分类规则、判定树或数学公式的

14、形式提供 第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况,工业控制技术研究所,第一步:建立模型,训练数 据集,分类算法,IF rank = professor OR years 6 THEN tenured = yes,分类规则,工业控制技术研究所,第二步:用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,损失函数,损失函数评价法 损失

15、函数为 ,拟合函数 的预测风险定义为 估计方法为 , 由于数据联合分布未知,无法用E 计算。 故用风险的矩 估计经验风险(代替预测风险),36,估计方法为 , 如果 , 期望风险 经验风险 , 当不满足 ,,37,根据Vladimir N. Vapnik(1995)估算: 在 时,,38,以上给出了期望风险与经验风险之间的关系。 结构风险最小化定义 统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Mi

16、nimization),即SRM准则。,39,vc维 VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。,40,结构风险最小化(SRM)的 基本思想,所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。 传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的,因此,需要同时最小化经验风险和置信范围。 机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。,41,在有限训练样本下,学

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号