数据挖掘在中医药中应用

上传人:第*** 文档编号:60493049 上传时间:2018-11-16 格式:PPT 页数:126 大小:9.29MB
返回 下载 相关 举报
数据挖掘在中医药中应用_第1页
第1页 / 共126页
数据挖掘在中医药中应用_第2页
第2页 / 共126页
数据挖掘在中医药中应用_第3页
第3页 / 共126页
数据挖掘在中医药中应用_第4页
第4页 / 共126页
数据挖掘在中医药中应用_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《数据挖掘在中医药中应用》由会员分享,可在线阅读,更多相关《数据挖掘在中医药中应用(126页珍藏版)》请在金锄头文库上搜索。

1、2018/11/16,1,China Academy of Chinese Medical Sciences,数据挖掘 在中医药研究中的应用 中医药信息研究所,数据挖掘的相关概念,数据挖掘在中医药领域中的应用,内容,课,容,内,程,2,产生,数据挖掘的产生,3,什么激发了数据挖掘? “数据爆炸”但“知识贫乏”,4,信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用,大型数据库 涌现,数据库技术 发展,用户不满足 于数据库的 查询功能,统计学,机器学习,模式 识别,信息科学,数据库,可视化,数据 挖掘,数据挖掘的出现是数据库技术发展的必然,借用挖掘金矿的名称,数据,知识,

2、数 据 挖 掘,希望利用数据挖掘技术解决“数据丰富”与 “知识贫乏”之间的矛盾,2018/11/16,7,数据挖掘的历史,1989年 11届国际人工智能研讨会 首次提出了基于数据挖掘的知识发现 由美国人工智能协会主办的知识发现国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会 国内:1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,,2010年国家自然基金资助数据挖掘研究,66项目数据挖掘项目 西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究田家玮,哈尔滨医科大学 中医: 应用数据挖掘技术研究

3、中医药治疗再生障碍性贫血的组方规律向阳,中国人民解放军第210医院 基于智能计算的中医方剂基础治法模型的构建任廷革,北京中医药大学 基于数据挖掘的针灸法效应特异性基本规律及特点的研究贾春生,河北医科大学 中药新药有效核心处方发现的随机对照忙发设计方法研究何丽云,中国中医科学院中医临床基础医学研究所,2018/11/16,8,2018/11/16,9,数据挖掘的概念,数据挖掘:Data Mining. 数据中发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程 模式,即pattern。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。 例如: 比如:

4、孙子说“至死地而后生”是战争模式 三十六计“走为上”、“空城计”也是战争模式。,2018/11/16,10,数据挖掘与其他概念,数据挖掘和知识发现(KDD KNOWLEDGE DISCOVERY IN DATABASE) 有人认为是一样的只是不同领域称呼不同 数据挖掘是知识发现的过程的一部分 数据挖掘与数据分析 数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库 数据挖掘与统计学 统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数据中提取模式和假定,数据挖掘的数量常常很巨大 面临的常常是大型数据库,而且常常为其他目的而收集好的数据。 发现隐含的知识

5、 数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,从事信息的挖掘与知识的提取。,2018/11/16,11,数据挖掘的特点,关联分析 分类 聚类分析 介绍上述功能的一些具体计算方法。,2018/11/16,12,数据挖掘的基本功能,关联分析,association analysis 关联分析是发现关联规则。 两个或两个以上变量的取值之间存在某种规律性,就称为关联。 关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。,2018/11/16,14,请NCR公司构建数据仓库,记录销售数据 每一位顾客哪一天在哪一家连锁店购买了哪些商品,啤酒与尿布,2018/11/1

6、6,15,购物篮分析: 即分析哪些商品最有希望被顾客一起购买。,每逢周末与尿布一起购买最多的商品是,16,啤酒!,原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,举例: 沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。 此结果蕴含着巨大的商业价值:,两件 商品 间隔 最远,两件 商品 放在 一起,啤酒,尿布,如何完成?,通过支持度和置信度高低来衡量关联的强度。 什么是支持度?如何计算? 什么是置信度?如何计算?,沃尔玛超市为范例,顾客买东西很多,有很多购买收据记录。 收据1:啤酒、面包、方便面、盐、 收据

7、2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐 、椅子、枕头、面包 收据6:面包、笔记本 ,收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐 、椅子、枕头、面包 收据6:面包、笔记本,支持度()计算公式 A商品和 B商品共同出现在一个收据次数 总次数,2 SUPPORT(面包、枕头)=33.33% 6,收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐、椅子、枕头、面包 收据6

8、:面包、笔记本,置信度(confidence:AB),A商品和 B商品共同出现在一个收据次数 A商品出现次数,2 SUPPORT(枕头面包)=40% 5,2018/11/16,22,置信度(congfidence:BA) A商品和 B商品共同出现在一个收据次数 B商品出现次数,收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐、椅子、枕头、面包 收据6:面包、笔记本,2 SUPPORT(面包枕头)=100% 2,频繁子集筛选-获得挖掘结果,有 意 义,无 意 义,关联分析特点,可以从大量数据中发现有趣的关联,2

9、018/11/16,24,聚类分析,clustering 将异质总体分成为同质性的类别 根据数据自动产生各个类别 例如:作者群的自动聚类。,2018/11/16,25,聚类如何实现:从复杂数据中提取简单的分组结构,26,根据采集的与性别相关特征信息:衣着,头发等,自动聚成若干类,2018/11/16,27,2018/11/16,相似度,聚类,是把最相似的数据聚结在一起形成类别。 通常最常用的计算方式就是“欧式距离” 欧式距离表示多维空间的几何距离:例如:,2018/11/16,28,欧式距离计算,2018/11/16,29,裙子x,头发x,衣着鲜艳z,欧式距离,欧式距离计算-完成相似度度量,公

10、式: DISTANCE(A,B)= = =3.31 注意的是最相近的值(一样)一定是0,2018/11/16,30,计算相似度后如何聚类?,2018/11/16,31,2018/11/16,计算相似度后如何聚类? (自下而上的层次聚类法),有了具体相似度量后,每两个对象之间都形成一个相似度值。4*4的矩阵,2018/11/16,32,先把最相近的聚类到一起 变成一簇和其他对象再进行相似度计算,在数学上,矩阵是指纵横排列的二维数据表格。matrix,两个合并在一起的簇怎么和其他对象比较?3*3的矩阵,有很多计算方法:介绍单连接: D(c1,c2)=Mind(o,O) D( , )= Mind(

11、, ),d( , )=2,2018/11/16,33,2,11,2018/11/16,34,有很多规定定义这种计算。 单连接取最近值 完全连接取最远值 。,聚类完成,2018/11/16,35,聚类分析特点,是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类。 在中医药中应用: 一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?,2018/11/16,36,分类,Classification 即为按照分析对象的属性分门别类加以定义,建立类别。 例如:银行贷款用户: 分为高风险、中风险、低风险三类用户。 如有申请贷款者,根据所填

12、写信息,利用数据挖掘方法,划分其是三类用户中那一类。,2018/11/16,37,主要介绍关于分类的两种方法,贝叶斯模型 决策树,2018/11/16,38,贝叶斯模型,14天打网球情况。 14天不同天气情况下打网球的情况 分类目的:根据新的一天天气,决定是否打网球,2018/11/16,39,实例:根据以往打网球的情况,看看根据新一天的天气情况,能否打网球?,目的: 给出新一天的气候:看看是否打网球? 贝叶斯模型利用概率的方式计算: 就是在天气(晴)=YES , 气温(凉爽)=YES , 湿度(高)=YES ,有风 =YES的条件下: 打网球是否为YES?,2018/11/16,40,计算过

13、程转换14天打网球情况为概率表,14天不同天气情况下打网球的情况,2018/11/16,41,YES的概率(红色) =2/9*3/9*3/9*3/9*9/14=0.0053 NO的概率(绿色) =3/5*1/5*4/5*3/5*5/14=0.0206 YES+NO=1,经过归一化处理 YES=20.5%,NO=79.5%,2018/11/16,42,贝叶斯模型特点,所有条件变量对于分类均是有用的 先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性 在中医药医学中范例 应用于专家系统诊断。 根据症状,推断出诊断。,2018/11/16,43,决策树,决策树(decision tr

14、ee) 每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树 例:根据表格情况形成分类树,2018/11/16,44,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,如何解读决策树信息,如果血压高,则采用药物A 如果血压低,则采用药物B 如果血压正常并且年龄小于等于40,则采用药物A,否则采用药物B.,2018/11/16,45,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,产生疑问如何计算,节点如何划分? 为什么先血压,后年龄? 分裂变量的界限 为什么以40岁为界限?,2018/11/16,4

15、6,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,介绍其中一个ID3算法计算决策树,14天打网球情况。 14天不同天气情况下打网球的情况 分类目的:根据新的一天天气,决定是否打网球,2018/11/16,47,14天具体打网球情况:,48,每一个因素形成一个决策树分支,2018/11/16,49,基于天气划分决策树,天气,1:NO 2:NO 8:NO 9:YES 11:YES,3:YES 7:YES 12:YES 13:YES,4:YES 5:YES 6:NO 10:YES 14:NO,晴,多云,雨,其他因素也形成了一个树的分支,2018/11/16,50,气温,1:NO 2:NO 8:YES 13:YES,4:YES 8:NO 10:YES 11:YES 12:YES 14:NO,5:YES 6:NO 7:YES 9:YES,热,温暖,凉爽,有风,1:YES 3:NO 4:YES 5:YES 8:YES 9:NO 10:YES 13:YES,2:NO 6:NO 7:YES 11:YES 12YES 14:NO,false,true,湿度,1:NO 2:NO 3:YES 4:YES 8:NO 12:YES 14:NO,5:YES 6:NO 7:YES 10:YES 11:YES 13:YES,高,正常,如何把多个因素合并成一个大的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号