医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章

上传人:E**** 文档编号:89418330 上传时间:2019-05-24 格式:PPT 页数:10 大小:397.50KB
返回 下载 相关 举报
医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章_第1页
第1页 / 共10页
医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章_第2页
第2页 / 共10页
医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章_第3页
第3页 / 共10页
医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章_第4页
第4页 / 共10页
医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章》由会员分享,可在线阅读,更多相关《医学数据挖掘—SQL Server 2005案例分析 教学课件 ppt 作者 周怡 王世伟 主编 医学数据挖掘第2章(10页珍藏版)》请在金锄头文库上搜索。

1、(Methodology & Practice ),第2章 数据挖掘方法和最佳实践,一、问题的提出,数据挖掘的方法越来越多、越来越复杂,如果某个环节没有做好,数据挖掘工作就可能失败。因此,掌握好方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,完全跳过某个过程不一定恰当。,2.1为什么需要方法,数据挖掘是从过去的数据中获取知识,帮助未来更好决策。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果:

2、获取了不真实的知识; 获取了真实但无用的知识。 这就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖掘人员需要了解如何避免这些常见的陷阱。,2.1.1获取不真实的知识,获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是灾难性的。,心脏形态B超检查数据的“病变形态分类”是将二维超声测量的高血压患者心肌20个节段的厚度,与正常者的数据放在一起,用最小距离聚类分析(Minimum Distance Clusters)的方法将心脏形态分成不同的类型。,例如,高血压病程与心脏形变,从聚类分析结果中可以看出,随着高血压

3、病程的持续,心脏的形态变化日益严重,且某些节段的厚度与病程的关系十分密切。,都是是向心性肥厚吗?,2.1.2获取真实但无用的知识,1. 获取已知的知识,获取已知的知识确实可以给我们一个有用的提示,从技术角度来说,这表明数据挖掘工作确有成效,而且数据本身也已经相当精确,这是非常令人鼓舞的。如果数据和所应用的数据挖掘技术足以发现已知正确的事实,据此可以相信其他发现也可能为真。,建立了一棵决策树,2. 获取不能使用的知识,卫生监督中的“知信行”模型 知:知识和学习,是基础;(信:信念和态度,是动力);行:产生促进健康行为、消除危害健康行为等行为改变的过程,是目标。 。,培训次数增加,以上结果表明经培

4、训后,知识得分下降,数据挖掘方法论的目的是避免获得不真实的知识,以及任何没有用的知识。更积极的理解是,数据挖掘方法论的目标是确保数据挖掘得到稳定的模型,以便将该模型用于要解决的社会、企业和医学问题。,2.2假设测试,1. 产生假设 例如:假设餐饮服务业的员工经过卫生知识的培训,在有了卫生知识的基础上,认真工作。当下次卫生监督执法检查中各项指标均为优秀。,2. 测试假设 假设测试是科学家和统计学家惯于花费心血研究的事情。假设是一种解释,它的正确性可以由分析数据来检验。这些数据或者仅仅由观察收集,或者由实验生成。当结果显示,用于医院做决策的这些假设是不正确的时候,假设测试是最有价值的。( “知信行

5、”模型),2.3 数据挖掘的方法,进行数据挖掘的时候,首先要将实际问题转化为数据挖掘问题,能否转换为恰当的数据挖掘问题是进行数据挖掘的关键。,为了尽可能避免获取不真实或者真实但无用的知识,必须采取恰当的方法。本节将数据挖掘的方法分为几个步骤,参见下图。,数据挖掘的方法可以简单的概括为5个步骤,定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。 数据准备:数据准备包括:选择数据-在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理-进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。 结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。,(亦可参照书上细化的11个步骤),小结,这里所说的数据挖掘和模型建立,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。 实际上,所有发现的模型和知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号