数据挖掘在中医药中应用

上传人:大米 文档编号:578754427 上传时间:2024-08-25 格式:PPT 页数:127 大小:3.02MB
返回 下载 相关 举报
数据挖掘在中医药中应用_第1页
第1页 / 共127页
数据挖掘在中医药中应用_第2页
第2页 / 共127页
数据挖掘在中医药中应用_第3页
第3页 / 共127页
数据挖掘在中医药中应用_第4页
第4页 / 共127页
数据挖掘在中医药中应用_第5页
第5页 / 共127页
点击查看更多>>
资源描述

《数据挖掘在中医药中应用》由会员分享,可在线阅读,更多相关《数据挖掘在中医药中应用(127页珍藏版)》请在金锄头文库上搜索。

1、 China Academy of Chinese Medical SciencesChina Academy of Chinese Medical Sciences数据挖掘在中医药研究中的应用中医药信息研究所2024/8/251数据挖掘的相关概念数据挖掘的相关概念数据挖掘在中医药领域中的应用数据挖掘在中医药领域中的应用内容课课容容内内程程2产生数据挖掘的产生3o什么激发了数据挖掘? “数据爆炸”但“知识贫乏”信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用4大大型型数数据据库库涌涌现现数数据据库库技技术术发发展展用户不满足用户不满足于数据库的于数据库的查询功能查询功

2、能统计学统计学机器学习机器学习模式模式识别识别信息科学信息科学数据库数据库可视化可视化数据数据挖掘挖掘 数据挖掘的出现是数据库技术发展的必然借用借用挖掘金矿的名称挖掘金矿的名称数据数据知识知识数数据据挖挖掘掘希望利用数据挖掘技术解决“数据丰富”与“知识贫乏”之间的矛盾数据挖掘的历史1989年 11届国际人工智能研讨会 首次提出了基于数据挖掘的知识发现 由美国人工智能协会主办的知识发现国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会国内:1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,2024/8/2

3、572010年国家自然基金资助数据挖掘研究o66项目数据挖掘项目o西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究田家玮,哈尔滨医科大学o中医:o应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律向阳,中国人民解放军第210医院 o基于智能计算的中医方剂基础治法模型的构建任廷革,北京中医药大学o基于数据挖掘的针灸法效应特异性基本规律及特点的研究贾春生,河北医科大学o中药新药有效核心处方发现的随机对照忙发设计方法研究何丽云,中国中医科学院中医临床基础医学研究所2024/8/258数据挖掘的概念数据挖掘:Data Mining. 数据中发现有效的、新颖的、潜在有用的,并且最终可以被读

4、懂的模式的过程 模式,即pattern。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。例如:比如:孙子说“至死地而后生”是战争模式三十六计“走为上”、“空城计”也是战争模式。2024/8/259数据挖掘与其他概念数据挖掘和知识发现(KDD KNOWLEDGE DISCOVERY IN DATABASE)l有人认为是一样的只是不同领域称呼不同l数据挖掘是知识发现的过程的一部分数据挖掘与数据分析l数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库数据挖掘与统计学l统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数

5、据中提取模式和假定2024/8/2510o数据挖掘的数量常常很巨大 面临的常常是大型数据库,而且常常为其他目的而收集好的数据。 o发现隐含的知识 数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,从事信息的挖掘与知识的提取。数据挖掘的特点2024/8/2511o关联分析o分类o聚类分析o介绍上述功能的一些具体计算方法。数据挖掘的基本功能2024/8/2512 关联分析oassociation analysiso关联分析是发现关联规则。o两个或两个以上变量的取值之间存在某种规律性,就称为关联。o关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。请NCR公司构建数

6、据仓库记录销售数据每一位顾客哪一天在哪一家连锁店购买了哪些商品啤酒与尿布2024/8/2514购物篮分析:即分析哪些商品最有希望被顾客一起购买。2024/8/2515o每逢周末与尿布一起购买最多的商品是啤酒!原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 16o举例: 沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。此结果蕴含着巨大的商业价值:两件两件商品商品间隔间隔最远最远两件两件商品商品放在放在一起一起啤酒啤酒尿布尿布如何完成?o通过支持度和置信度高低来衡量关联的强度。 什么是支持度?如何计算? 什么

7、是置信度?如何计算?沃尔玛超市为范例o顾客买东西很多,有很多购买收据记录。收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本o支持度()计算公式A商品和 B商品共同出现在一个收据次数总次数 2 2SUPPORTSUPPORT(面包、枕头)(面包、枕头)=33.33%=33.33% 6 6收据1:啤酒、面包、方便面、盐、收

8、据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本o置信度(confidence:AB)A A商品和商品和 B B商品共同出现在一个收据次数商品共同出现在一个收据次数A A商品出现次数商品出现次数 2 2 SUPPORTSUPPORT(枕头(枕头面包)面包)=40%=40% 5 5置信度(置信度(congfidencecongfidence:BABA)A A商品和商品和 B B商品共同出现在一个收据次数商品共同出现在一个收据次数B B商品出现次数商品出现次数收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面

9、包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本 2 2 SUPPORTSUPPORT(面包(面包枕头)枕头)=100%=100% 2 22024/8/2522频繁子集筛选-获得挖掘结果置信度置信度支持度支持度商品1,商品290%80%商品1,商品370%40%商品4,商品580%89%商品6,商品840%50%商品7,商品930%20%.有意义无无意意义义关联分析特点o可以从大量数据中发现有趣的关联2024/8/2524聚类分析oclusteringo将异质总体分成为同质性的类别o根据数据自动产生各个类别o例如:作者群的自动聚类。20

10、24/8/2525聚类如何实现:从复杂数据中提取简单的分组结构根据采集的与性别相关特征信息:衣着,头发等26自动聚成若干类2024/8/252024/8/2527相似度o聚类,是把最相似的数据聚结在一起形成类别。o通常最常用的计算方式就是“欧式距离”欧式距离表示多维空间的几何距离:例如:A人物像人物像B人物像人物像裙子10头发41衣着鲜艳102024/8/2528欧式距离计算裙子x头发x衣着鲜艳zA人物像人物像B人物像人物像裙子10头发41衣着鲜艳10欧式距离2024/8/2529欧式距离计算-完成相似度度量o公式:DISTANCE(A,B)=3.31 注意的是最相近的值(一样)一定是0A人物

11、像人物像B人物像人物像裙子10头发41衣着鲜艳102024/8/2530计算相似度后如何聚类?2024/8/252024/8/2531计算相似度后如何聚类?(自下而上的层次聚类法)o有了具体相似度量后,每两个对象之间都形成一个相似度值。4*4的矩阵01011205340先把最相近的聚类到一起变成一簇和其他对象再进行相似度计算在数学上,矩阵是指纵横排列的二维数据表格。matrix2024/8/2532两个合并在一起的簇怎么和其他对象比较?3*3的矩阵有很多计算方法:介绍单连接:D(c1,c2)=Mind(o,O)D( , )= Mind( , ),d( , )=20?0?4001011 2 05

12、3 402112024/8/2533o有很多规定定义这种计算。l单连接取最近值l完全连接取最远值l。0203402024/8/2534o聚类完成0302024/8/2535聚类分析特点o是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类。o在中医药中应用:一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?2024/8/2536分类oClassificationo即为按照分析对象的属性分门别类加以定义,建立类别。o例如:银行贷款用户:分为高风险、中风险、低风险三类用户。如有申请贷款者,根据所填写信息,利用数据挖掘方法,划分其是三

13、类用户中那一类。2024/8/2537主要介绍关于分类的两种方法o贝叶斯模型o决策树2024/8/2538贝叶斯模型o14天打网球情况。o14天不同天气情况下打网球的情况o分类目的:根据新的一天天气,决定是否打网球天气天气温度温度湿度湿度有风有风yesNoyesNoyesnoyesno晴23热22高34否 62多云40温暖42正常61是 33雨32凉爽31打网球打网球YESNO95实例:根据以往打网球的情况,看看根据新一天的天气情况,能否打网球?2024/8/2539o目的:o给出新一天的气候:看看是否打网球?o贝叶斯模型利用概率的方式计算:就是在天气(晴)=YES , 气温(凉爽)=YES

14、, 湿度(高)=YES ,有风 =YES的条件下:打网球是否为YES? 天气天气气温气温湿度湿度有风有风晴凉爽高是2024/8/2540计算过程转换14天打网球情况为概率表o14天不同天气情况下打网球的情况 天气天气温度温度湿度湿度有风有风打网球打网球yesNoyesNoyesnoyesnoyesNo晴23热22高34否 6295多云40温暖42正常61是 33雨32凉爽31天气天气温度温度湿度湿度有风有风打网球打网球yesNoyesNoyesnoyesnoyesNo晴2/93/5热2/92/5高3/94/5否 6/92/59/145/14多云4/90温暖4/92/5正常6/91/5是 3/9

15、3/5雨3/92/5凉爽3/91/52024/8/2541天气天气温度温度湿度湿度有风有风打网球打网球yesNoyesNoyesnoyesnoyesNo晴2/93/5热2/92/5高3/94/5否 6/92/59/145/14多云4/90温暖4/92/5正常6/91/5是 3/93/5雨3/92/5凉爽3/91/5oYES的概率(红色)=2/9*3/9*3/9*3/9*9/14=0.0053oNO的概率(绿色)=3/5*1/5*4/5*3/5*5/14=0.0206YES+NO=1,经过归一化处理YES=20.5%,NO=79.5%2024/8/2542贝叶斯模型特点o所有条件变量对于分类均是

16、有用的o先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性在中医药医学中范例应用于专家系统诊断。 根据症状,推断出诊断。2024/8/2543决策树o决策树(decision tree) 每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树o例:根据表格情况形成分类树性别性别年龄年龄血压血压药物药物1男20正常A2女73正常B3男37高A4男33低B5女48高A药物B血压年龄药物A药物B药物A高正常低40402024/8/2544如何解读决策树信息如果血压高,则采用药物A如果血压低,则采用药物B如果血压正常并且年龄小于等于4

17、0,则采用药物A,否则采用药物B.药物B血压年龄药物A药物B药物A高正常低40402024/8/2545产生疑问如何计算p节点如何划分? 为什么先血压,后年龄?p分裂变量的界限为什么以40岁为界限?药物B血压年龄药物A药物B药物A高正常低40402024/8/2546介绍其中一个ID3算法计算决策树o14天打网球情况。o14天不同天气情况下打网球的情况o分类目的:根据新的一天天气,决定是否打网球天气天气温度温度湿度湿度有风有风yesNoyesNoyesnoyesno晴23热22高34否 62多云40温暖42正常61是 33雨32凉爽31打网球打网球YESNO952024/8/254714天具体

18、打网球情况:序号序号天气天气气温气温湿度湿度有风有风打网球打网球1晴热高无NO2晴热高有NO3多云热高无YES4雨温暖高无YES5雨凉爽正常无YES6雨凉爽正常有NO7多云凉爽正常有YES8晴温暖高无NO9晴凉爽正常无YES10雨温暖正常无YES11晴温暖正常有YES12多云温暖高有YES13多云热正常无YES14雨温暖高有NO48每一个因素形成一个决策树分支天气天气yesNo晴23多云40雨32基于天气划分决策树基于天气划分决策树天气1:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO晴多云雨2024/8

19、/2549其他因素也形成了一个树的分支气温1:NO2:NO8:YES13:YES4:YES8:NO10:YES11:YES12:YES14:NO5:YES6:NO7:YES9:YES热温暖凉爽有风1:YES3:NO4:YES5:YES8:YES9:NO10:YES13:YES2:NO6:NO7:YES11:YES12YES14:NOfalsetrue湿度1:NO2:NO3:YES4:YES8:NO12:YES14:NO5:YES6:NO7:YES10:YES11:YES13:YES高正常2024/8/2550如何把多个因素合并成一个大的决策树?o天气、气温、湿度、有风这四个因素谁为起点分支?在

20、何处分支?在何处停止?o越确定的在分支,越不确定的在主干。否则到了树的支端无法做决定。o但如何计算它们的确定性和不确定性?药物B血压年龄药物A药物B药物A高正常低40402024/8/2551如何把小的分支合并成一棵大的决策树?o首先介绍一下信息的一个计算方法:o信息熵的定义:无序性度量。(不确定性) 对值的无序的情况做一个量化的测量 。例:信息熵=0 信息熵=0 信息熵最大当都是yes或都是NO时无序性很差,不确定性很弱,信息熵最小0当yes和no一样多时无序性很强,不确定性很强,信息熵最大1:NO2:NO8:NO13:NO1:YES2:YES8:YES13:YES1:NO2:NO8:YES

21、13:YES2024/8/2552利用熵的计算方法计算决策树o越到树的主干,不确定性越大,熵越大,o越到树的分支,确定性越大,熵越小以便决定YES 或NO熵大熵小确定性越大不确定性越大Yes和no越平均Yes和no越一致2024/8/2553信息熵的计算公式oInfoC1,C2=ENTROPY(P1,P2) =-P1*LOG2P1P2*LOG2P2 C1,C2代表发生事件的不同数量 P1=C1/(C1+C2) 发生事件的不同概率以YES与NO为例解释: C1,代表发生yes的次数,P1,代表发生YES的概率 C2,代表发生NO的次数,P2,代表发生NO的概率 函数名称,就像SUM一样。2024

22、/8/2554InfoC1,C2=ENTROPY(P1,P2) =-P1*LOG2P1P2*LOG2P2C1,代表发生yes的次数,P1,代表发生YES的概率 C2,代表发生NO的次数,P2,代表发生NO的概率例如:在一个节点上yes是2,no是3P1=2/5 P2=3/5Info(2,3)=-2/5*LOG2(2/5)-3/5*LOG2(3/5) =(-0.4)*(-1.32)+(-0.6)*(-0.74) =0.971位天气1:NO2:NO8:NO9:YES11:YES晴比特,又叫Bit,是计量单位2024/8/2555以天气为例进行信息熵计算天气天气yesNo晴23多云40雨32合计95

23、Info(晴)=Info(2,3)=0.971位Info(多云)= Info(4,0)= 0.0位Info(雨)=Info(3,2)=0.971位还是不能确定谁是主干:观点就是天气、气温、湿度、有风,谁建立了分支之后,信息的不确定性消除得越多,就当做主干。也就是看看以谁当主干,很快就达到了分支,很快信息就变得确定了。2024/8/2556计算天气下面建立分支后不确定性oGain(天气)= info(天气合计)-info(晴,多云,雨)=info(9,5)-info(2,3,4,0,3,2)= info(9,5)-( info(2,3+ info(4,0+ info(3,2)=0.247天气天气

24、yesNo晴23多云40雨32合计95不确定性消除的值有一个名词表示:信息增益gain平均信息值2024/8/2557同理计算出其他三个因素下面建立分支后,信息不确定性消除了多少oGain(天气)=0.247位oGain(气温)=0.029位oGain(湿度)=0.152位oGain(有风)=0.048位选择不确定性消除最大的作为第一级主分支2024/8/2558天气已经作为第一个主干了,那么下面该接着谁作为下一级主干?1:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO气温?湿度?有风?直接做决定需要参考

25、其他因素需要参考其他因素2024/8/255914天具体打网球情况:序号序号天气天气气温气温湿度湿度有风有风打网球打网球1晴热高无NO2晴热高有NO3多云热高无YES4雨温暖高无YES5雨凉爽正常无YES6雨凉爽正常有NO7多云凉爽正常有YES8晴温暖高无NO9晴凉爽正常无YES10雨温暖正常无YES11晴温暖正常有YES12多云温暖高有YES13多云热正常无YES14雨温暖高有NO60以天气晴下面建立分支为例:以信息完全确定作为分支的结束2024/8/25611:NO2:NO8:NO9:YES11:YES气温1:no2:no8:no9:yes11:yes热温暖凉爽序号序号天气天气气温气温打网

26、球打网球1晴热NO2晴热NO8晴温暖NO9晴凉爽YES11晴温暖YES2024/8/2561以天气晴下面建立分支为例:以信息完全确定作为分支的结束62湿度1:no2:no8:no9:yes11:yes序号序号天气天气湿度湿度打网球打网球1晴高NO2晴高NO8晴高NO9晴正常YES11晴正常YES高正常62序号序号天气天气有风有风打网球打网球1晴无NO2晴有NO8晴无NO9晴无YES11晴有YES有风1:no8:no9:yes2:no11:yes无有2024/8/2563以天气晴下面建立分支为例:以信息完全确定作为分支的结束2024/8/25641:NO2:NO8:NO9:YES11:YES气温

27、湿度有风1:no2:no8:no9:yes11:yes1:no2:no8:no9:yes11:yes1:no8:no9:yes2:no11:yes2024/8/25641:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO1:no2:no8:no9:yes11:yes4:yes5:yes10:yes6:no14:no最终的决策树2024/8/2565结果人性化2024/8/2566决策树的特点o决策树一般都是自上而下的来生成的。o可以完成分类任务,而且因为是树状结构,比较容易被使用者理解。2024/8/256

28、7第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析数据挖掘步骤目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘算法算法解释解释/评估评估68清理筛选清理筛选2024/8/2568第一步骤:选择o收集数据 就是进行原始需要被挖掘的数据采集。例如:做肺癌处方的数据挖掘,要采集肺癌处方的信息,或原有的患者信息中导出,形成数据子集。原始数据的采集非常费时费力,通常在费用中占相当大的比重。可以采用较小规模的数据对问题的可行性进行初步研究。2024/8/2569第二步骤:处理o数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄 六十岁60 有个还分组

29、:老年、青年、等格式处理:年龄 出生日期1950年转成61。 2024/8/2570第三步骤:挖掘o运用工具和算法,进行挖掘,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。o例如:关联分析中常用apriori算法,算法就是一种计算方法,例如:计算一个班上有多少人:可以用加法或乘法。加法和乘法就是算法。2024/8/2571第四步骤 分析例如:预测信用卡欺诈行为。 通过算法分析信用卡用户的购买习惯,根据结果认识客户的模式,并分辨出偏离模式的信息卡盗用行为。2024/8/2572概念数据挖掘在中医药领域中应用73二、关联分析在中医领域应用情况n n中医领域及计算机领域均有深入研究中医中

30、医中医中医计算机计算机中国中医科学院中国中医科学院 南京中医药大学南京中医药大学 湖南中医药大学湖南中医药大学 福建中医学院福建中医学院 北京中医药大学北京中医药大学浙江大学计算机科学与技术学院浙江大学计算机科学与技术学院 厦门大学厦门大学 山西医科大学山西医科大学 山东师范大学山东师范大学 南京理工大学南京理工大学 南方医科大学南方医科大学 江苏大学江苏大学 河南大学河南大学 合肥工业大学合肥工业大学 哈尔滨工程大学哈尔滨工程大学 广东工业大学广东工业大学 东北大学东北大学 北京交通大学北京交通大学 北京工业大学北京工业大学 近近3 3年的学位论文年的学位论文中医症状病机实体识别及其关系挖掘

31、研究绝经综合征中医药临床疗效评价方法的数据挖掘研究中医诊疗中挖掘算法的方法研究基于智能算法的医学数据挖掘特征权重优化方法研究及其应用中医医案数据挖掘技术研究基于数据挖掘技术的证素辨证方法研究中医小儿肺炎疗效评价系统的设计与实现基于数据挖掘对急性冠脉综合征辨证论治规律的探索性研究中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术基于数据挖掘的周仲瑛教授治疗系统性红斑狼疮病案回顾性研究中医临床诊疗垂直搜索系统研究基于数据挖掘的中医脏腑辨证系统研究中医活血化瘀方数据库及其数据挖掘基于数据挖掘的中医方剂分析技术研究中医妇科常见病医案数据挖掘方法研究基于粒计算与完全图的关联规则算法研究中药归经(肺经)理

32、论和肺系方剂配伍规律的解析及在海洋中药研发中的应用基于聚类和BP网络集成的中医耳穴智能诊断仪研究应用信息技术探索我国高等中医药院校学术及科研发展趋势基于分类关联规则的仲景方挖掘研究田从豁教授治疗痹证、瘾疹、不寐的经验挖掘分析基于贝叶斯网络的中医医案数据挖掘特征选择在中医数据挖掘中的应用研究基于SVM与关联规则中医舌象数据挖掘技术初步研究数据挖掘中分类分析的策略研究及其生物医学应用基于HMM的中医临床疗效评价分析研究数据挖掘在中医若干问题研究中的应用关联规则挖掘在中医辨证诊断中的应用研究数据挖掘模型的创建及其在中医药文献中的应用研究关联规则算法研究及其在中医药数据挖掘中的应用数据挖掘及其在中医药

33、领域中的应用关联分析在中医数据挖掘中的应用研究脾虚证诊断信息数据挖掘的初步探讨恶性肿瘤与脾虚证相关性数据挖掘的初步探讨明清中医疫病发病、症状与用药相关性数据挖掘研究多路异质聚类在中医临床数据中的应用及其研究名老中医经验传承中的数据挖掘技术研究粗糙集合属性约简方法研究与实现面向中医胃病诊疗的数据挖掘技术SVM算法研究及其在中医脏腑辨证中的应用慢性胃炎中医诊疗中的数据挖掘研究DartSpora数据挖掘平台的构建吕仁和教授治疗糖尿病学术思想及其传承方法的研究可扩展智能推理及其在中医舌诊中的应用绝经综合征中医证治规律的数据挖掘模型与系统架构设计 原始数据规范不足原始数据规范不足 挖掘领域局限性挖掘领域

34、局限性 结果评价不充分结果评价不充分 存在问题n n研究目的:丰富妇科的临床用药理论探索:中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间三、数据挖掘在中医妇科医案中的应用关系关系收集符合要求的医案第一步第一步数据数据采集采集第二步第二步数据数据预处理预处理第三步第三步数据数据挖掘挖掘第四步第四步结果评结果评价分析价分析把收集的妇科医案数据统一把统一好的数据进行数据挖掘把挖掘结果作一个综合分析研 究 流 程 医 案 采 集病种病种选择选择医家医家选择选择医案医案时间时间医案医案内容内容第一步:数据采集n n参考94中医药行业标准:确定妇科常见疾病共有14个通

35、过检索中医药信息研究所的中国中医药期刊文献数据库检出这些疾病的期刊文章发表情况病种选择 病 种 选 择n n选择了前个发表文献数最多的病种,在医案实际记录中,有的病名很模糊,故医案中信息诊断参考了国家中医药管理局1994年颁布了中华人民共和国中医药行业标准-中医病症诊断疗效标准 医 案 总 况病种病种选择选择医家医家选择选择医案医案时间时间医案医案内容内容痛痛经经崩崩漏漏不不孕孕闭闭经经经验经验丰富的丰富的医师医师医案医案出版出版时间时间1972197220052005医案医案就诊就诊时间时间1951195120032003中中医医诊诊断断中中药药处处方方证证型型症症状状采集医案情况处方,症状

36、,证候原文采集涉及医案共2138例n n崩漏664例n n闭经408例n n不孕631例n n痛经435例期刊中医案848例,专著中医案1290例涉及医家476位数据采集内容n n围绕数据挖掘目的:寻找证-症-药关系。采集4种疾病医案中证-症-药信息崩漏闭经不孕痛经证型证型症状症状处方中药组成处方中药组成确定一些纳入排出标准例如:n n在本课题收录的医案中,治疗方法都是单纯的中草药内服治疗。凡含有中成药、针灸治疗、外用治疗、西药治疗、手术治疗的医案均被排除在外。n n这里特别要说明的是中成药治疗不予收录。n n辨证必须含有病性和病位内容。一些医案的辨证部分只含有病位如“肝脾为病”或只含有病性“

37、虚”或“实”不予收录。n n症状除主症之外必须有两个以上症状描述,采集医案样例1 1陈陈陈陈某某某某4343岁岁岁岁19197676,1212,1414月经过多来则月经过多来则月经过多来则月经过多来则如崩,已十余如崩,已十余如崩,已十余如崩,已十余年,血色鲜红,年,血色鲜红,年,血色鲜红,年,血色鲜红,夹有大血块夹有大血块夹有大血块夹有大血块无腹痛头面无腹痛头面无腹痛头面无腹痛头面洪热洪热洪热洪热, ,此次经此次经此次经此次经期将临,舌胖,期将临,舌胖,期将临,舌胖,期将临,舌胖,苔薄白,脉沉苔薄白,脉沉苔薄白,脉沉苔薄白,脉沉细细细细气血气血气血气血两亏两亏两亏两亏, ,冲任冲任冲任冲任损伤

38、损伤损伤损伤党参党参党参党参12g12g黄芪黄芪黄芪黄芪12g12g白术白术白术白术9g9g生贯生贯生贯生贯众众众众30g30g花蕊石花蕊石花蕊石花蕊石 30g30g益母草益母草益母草益母草9g9g升升升升麻麻麻麻6g6g槐花槐花槐花槐花12g12g生生生生甘草甘草甘草甘草 4.5g4.5g炙甘草炙甘草炙甘草炙甘草 4.5g4.5g侧柏叶侧柏叶侧柏叶侧柏叶30g30g山药山药山药山药 1515川断川断川断川断12g12g钩藤钩藤钩藤钩藤12g12g崩崩崩崩漏漏漏漏沈沈沈沈仲仲仲仲理理理理近现近现近现近现代二十代二十代二十代二十五位中五位中五位中五位中医名家医名家医名家医名家妇科经妇科经妇科经妇

39、科经验验验验 24242 2页页页页症状症状 证型证型 中药名称都中药名称都需要规范处理需要规范处理预处理内容预处理内容总则总则n n尽量贴近临床尽量贴近临床n n尽量忠于原意,不尽量忠于原意,不失或少失原意。失或少失原意。中药中药证型证型症状症状 数 据 预 处 理中 药 部 分 预 处 理名称预处理名称预处理冬术冬术白术白术正异名的处理中药正异名标准表正名是唯一的异名是唯一的紫背金盘草白毛夏枯草翻背白草管仲天水蚁草地膏药毛大丁草根白叶不翻鹿茸草秋牡丹根根委陵菜翻白草白牛胆野丈人胡王使者白头公中华本草中华本草中的正中的正异名循环现象异名循环现象建表方式医案中原文规范后木蔓头木馒头青篙青蒿肉从

40、蓉肉苁蓉桑葚桑椹错别字错别字省略字省略字医案原文中名称规范后名称龙牡龙骨,牡蛎赤白芍赤芍,白芍藿荷梗藿梗,荷梗苍白术苍术,白术n n净净制、切制制、切制对对于于药药物性味物性味归经归经改改变变很小,就是凡很小,就是凡见见中中药药名称中含有名称中含有“片片”、“末末”、“粉粉”、“鲜鲜”、“嫩嫩”、“净净”等等净净制、切制方制、切制方法的法的标标志用志用词词,予以去除。,予以去除。n n例如:医案例如:医案处处方中方中见见“佛手片佛手片”,直接去除直接去除“片片”字,被字,被规规范成范成“佛佛手手”。炮制预处理净制、切制净制、切制n n净净制、切制、炮炙三种炮制方法中的炮炙法,制、切制、炮炙三种

41、炮制方法中的炮炙法,对对中中药药的性味的性味归经归经等有很大影响,中等有很大影响,中药这药这部部分的炮炙方法分的炮炙方法给给予保留予保留n n在中在中药药炮制参考炮制参考书书籍中,每味籍中,每味药药的炮制内容的炮制内容中有中有这样这样一个一个栏栏目目处处方方应应付付 ,用以指,用以指导导药剂师处药剂师处理理临临床医床医师师的的处处方方3636。例如:例如:n n大黄的大黄的 处处方方应应付付 :处处方中写大黄、川方中写大黄、川军军、生、生军军均付生大黄。写酒大黄、酒均付生大黄。写酒大黄、酒军军付酒炒大黄,付酒炒大黄,写熟大黄、制大黄付熟大黄,其余各随方付写熟大黄、制大黄付熟大黄,其余各随方付给

42、给。n n参考上述的中参考上述的中药药 处处方方应应付付 ,熟大黄、制大黄,熟大黄、制大黄都合并都合并为为熟大黄。熟大黄。炮炙炮炙编号编号编号编号规范后名称规范后名称规范后名称规范后名称频频频频数数数数原始中药名称原始中药名称原始中药名称原始中药名称101400101400白茅根白茅根白茅根白茅根药典药典药典药典1515白茅根白茅根白茅根白茅根药典药典药典药典茅根茅根茅根茅根别册别册别册别册生白茅根生白茅根生白茅根生白茅根切切切切101600101600白术白术白术白术药典药典药典药典642642白术白术白术白术药典药典药典药典土白术土白术土白术土白术别册别册别册别册冬术冬术冬术冬术别册别册别

43、册别册土炒白术土炒白术土炒白术土炒白术切切切切炒白术炒白术炒白术炒白术切切切切土白术土白术土白术土白术切切切切漂白术漂白术漂白术漂白术切切切切晒白术晒白术晒白术晒白术切切切切101601101601白术白术白术白术(焦)(焦)(焦)(焦)8 8焦白术焦白术焦白术焦白术焦冬术焦冬术焦冬术焦冬术101602101602白术白术白术白术(生)(生)(生)(生)1818生白术生白术生白术生白术101603101603白术白术白术白术(炭)(炭)(炭)(炭)2 2白术炭白术炭白术炭白术炭101604101604白术白术白术白术(煨)(煨)(煨)(煨)1 1煨白术煨白术煨白术煨白术101605101605

44、白术白术白术白术(制)(制)(制)(制)1 1制白术制白术制白术制白术中 药 规 范 表 (部分)n n从结构上规范,把证型名称规范成统一结构的主谓词组,主语部分是病位,谓语部分是病性。结构主谓 血瘀证 型 部 分 预 处 理n n复合证型,涉及两个脏器的尽量拆分,例如肝肾阴虚,可以拆分成肝阴虚+肾阴虚,如果难以拆分的,如肝脾不和,则保留原状。内容内容复合证型复合证型冲任冲任n冲任失调的辨证几乎出现在所有医案冲任失调的辨证几乎出现在所有医案中,成为一个非常强的干扰项,故把中,成为一个非常强的干扰项,故把冲任失调的辨证去除冲任失调的辨证去除n n对规范后的证型的选词,一方面参考了中国中医药学主题

45、词表、中医诊断学、中华人民共和国中医药行业标准中医病证诊断疗效标准等专业书籍;另一方面把需要规范成同一证型的用词作了频数统计,选用了一个使用频次最高的词作为规范后证型。选词选词频次高频次高证 型 标注 表(部分)编号编号编号编号规范后规范后规范后规范后证型词证型词证型词证型词频次频次频次频次证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)证型词原文(后缀数字为医案中出现的频次)300905300905血瘀血瘀血瘀血瘀591591血瘀血瘀血瘀血瘀349349瘀血瘀血瘀血瘀血8585血淤血淤血淤血淤1919血滞血滞血滞血滞30

46、30血行不畅血行不畅血行不畅血行不畅1515血凝血凝血凝血凝1212气血瘀滞气血瘀滞气血瘀滞气血瘀滞1010气血运行气血运行气血运行气血运行不畅不畅不畅不畅1010血行瘀滞血行瘀滞血行瘀滞血行瘀滞6 6气血郁滞气血郁滞气血郁滞气血郁滞5 5气血阻滞气血阻滞气血阻滞气血阻滞5 5气血壅滞气血壅滞气血壅滞气血壅滞5 5血涩血涩血涩血涩4 4血结血结血结血结4 4气血涩滞气血涩滞气血涩滞气血涩滞3 3炼血成瘀炼血成瘀炼血成瘀炼血成瘀3 3气血凝滞气血凝滞气血凝滞气血凝滞3 3血阻血阻血阻血阻3 3干血干血干血干血2 2气血不畅气血不畅气血不畅气血不畅 2 2气血瘀阻气血瘀阻气血瘀阻气血瘀阻2 2血行

47、不通血行不通血行不通血行不通2 2血结成瘀血结成瘀血结成瘀血结成瘀化热化热化热化热1 1血行瘀阻血行瘀阻血行瘀阻血行瘀阻1 1血行受阻血行受阻血行受阻血行受阻1 1痰血互结痰血互结痰血互结痰血互结1 1气血奎滞气血奎滞气血奎滞气血奎滞1 1血滞不畅血滞不畅血滞不畅血滞不畅1 1血分有寒夹血分有寒夹血分有寒夹血分有寒夹瘀瘀瘀瘀1 1寒凝血泣着寒凝血泣着寒凝血泣着寒凝血泣着而成瘀而成瘀而成瘀而成瘀1 1气碍血行气碍血行气碍血行气碍血行1 1血不得行血不得行血不得行血不得行1 1血运不畅血运不畅血运不畅血运不畅1 1血有郁热血有郁热血有郁热血有郁热1 1结构结构主谓 腹痛副词副词选词选词频次高频次高

48、症 状 部 分 预 处 理稍稍略略微微结构副词选词频次高频次高略略微微症状描述详细程度不同n n同一个腹痛,有的仅写腹痛,有的写腹刺痛,有的写小腹痛,有的写小腹刺痛,用词上深浅各不相同。n n需要对症状进行特殊处理,才能粗细概念均保留。症 状 部 分 用 词 拆 分下腹微刺痛下腹微刺痛医案原文医案原文拆分拆分下腹微刺痛下腹微刺痛下腹下腹微刺痛微刺痛下下刺刺微微腹腹微刺微刺痛痛规范后规范后腹痛下腹痛腹刺痛刺痛下腹刺痛规范后规范后症 状 标 注 表(部分)编号编号编号编号规范后规范后规范后规范后症状症状症状症状频次频次频次频次医案中原文症状用词及使用频次医案中原文症状用词及使用频次医案中原文症状用

49、词及使用频次医案中原文症状用词及使用频次201105201105体瘦体瘦体瘦体瘦289289体瘦体瘦体瘦体瘦9393消瘦消瘦消瘦消瘦4242形体消形体消形体消形体消瘦瘦瘦瘦3434形瘦形瘦形瘦形瘦3333形体瘦形体瘦形体瘦形体瘦弱弱弱弱2828形体削瘦形体削瘦形体削瘦形体削瘦5 5形体较形体较形体较形体较瘦瘦瘦瘦5 5面黄肌面黄肌面黄肌面黄肌瘦瘦瘦瘦4 4体质瘦体质瘦体质瘦体质瘦弱弱弱弱3 3赢瘦赢瘦赢瘦赢瘦3 3形体瘦小形体瘦小形体瘦小形体瘦小3 3身体瘦身体瘦身体瘦身体瘦弱弱弱弱3 3瘦弱瘦弱瘦弱瘦弱3 3体质消体质消体质消体质消瘦瘦瘦瘦2 2身体嬴身体嬴身体嬴身体嬴瘦瘦瘦瘦2 2形体不丰

50、形体不丰形体不丰形体不丰2 2形体偏形体偏形体偏形体偏瘦瘦瘦瘦2 2身体较身体较身体较身体较瘦瘦瘦瘦2 2形体瘦形体瘦形体瘦形体瘦削削削削2 2嬴瘦嬴瘦嬴瘦嬴瘦2 2形嬴形嬴形嬴形嬴1 1形体枯形体枯形体枯形体枯瘦瘦瘦瘦1 1形体消形体消形体消形体消索索索索1 1形体渐形体渐形体渐形体渐瘦瘦瘦瘦1 1形体日形体日形体日形体日嬴嬴嬴嬴1 1身瘦身瘦身瘦身瘦1 1肌肉消肌肉消肌肉消肌肉消削削削削1 1591个医案涉及食欲差,但不同表达方式有84种编号症状(频次)编号症状(频次)编号症状(频次)编号症状(频次)1纳差10322纳欠343食纳减164食纳甚差12纳呆9323不欲食344饮食差165食少

51、乏味13纳少7724胃纳差345不欲饮食166食欲不旺14食欲不振5125饮食少346谷纳少馨167食欲极差15食少3026纳食不佳347眠食欠佳168食欲较差16不思饮食2127饮食不思348纳呆乏味169胃不思纳17纳减1928少食249纳谷不旺170胃不欲纳18纳谷不馨1929纳食差250纳谷不振171胃呆少纳19纳欠佳1530纳差食少251纳谷欠馨172胃纳不多110纳谷不香1031纳谷欠振252纳减不思173胃纳不香111纳呆食少932纳谷无味253纳食不振174胃纳欠馨112不思食733纳食不馨254纳食偏少175胃纳日减113纳食不香734纳食减少255纳食衰少176饮食不香11

52、4食欲减退735纳食无味256纳食亦差177饮食不欲115纳食欠佳636食纳不佳257食不知味178饮食乏味116胃纳欠佳637食纳不香258食谷不馨179饮食欠佳117饮食减少638食纳呆滞259食纳不思180饮食欠馨118食纳欠佳539食欲不佳260食纳大减181饮食无味119食欲差440胃纳不馨261食纳减退182精神食欲不振120食欲欠佳441饮食不佳262食纳较差183谷食大减纳少121胃纳不佳442食减163食纳日减184饮食素来偏少11 1陈陈陈陈某某某某4343岁岁岁岁19197676,1212,1414月经过多来则月经过多来则月经过多来则月经过多来则如崩,已十余如崩,已十余如

53、崩,已十余如崩,已十余年,血色鲜红,年,血色鲜红,年,血色鲜红,年,血色鲜红,夹有大血块夹有大血块夹有大血块夹有大血块无腹痛头面无腹痛头面无腹痛头面无腹痛头面洪热洪热洪热洪热, ,此次经此次经此次经此次经期将临,舌胖,期将临,舌胖,期将临,舌胖,期将临,舌胖,苔薄白,脉沉苔薄白,脉沉苔薄白,脉沉苔薄白,脉沉细细细细气血气血气血气血两亏两亏两亏两亏, ,冲任冲任冲任冲任损伤损伤损伤损伤党参党参党参党参12g12g黄芪黄芪黄芪黄芪12g12g白术白术白术白术9g9g生贯生贯生贯生贯众众众众30g30g花蕊石花蕊石花蕊石花蕊石 30g30g益母草益母草益母草益母草9g9g升升升升麻麻麻麻6g6g槐花

54、槐花槐花槐花12g12g生生生生甘草甘草甘草甘草 4.5g4.5g炙甘草炙甘草炙甘草炙甘草 4.5g4.5g侧柏叶侧柏叶侧柏叶侧柏叶30g30g山药山药山药山药 1515川断川断川断川断12g12g钩藤钩藤钩藤钩藤12g12g崩崩崩崩漏漏漏漏沈沈沈沈仲仲仲仲理理理理近现近现近现近现代二十代二十代二十代二十五位中五位中五位中五位中医名家医名家医名家医名家妇科经妇科经妇科经妇科经验验验验 24242 2页页页页妇 科 医 案 数 据 库预处理1 1 经血量多经血量多经血量多经血量多, ,经色鲜红经色鲜红经色鲜红经色鲜红, ,经血有块经血有块经血有块经血有块, ,头热头热头热头热, ,面热面热面热面

55、热, ,舌体胖舌体胖舌体胖舌体胖, ,舌苔薄舌苔薄舌苔薄舌苔薄, ,舌舌舌舌苔白苔白苔白苔白, ,脉沉脉沉脉沉脉沉, ,脉细脉细脉细脉细气虚气虚气虚气虚, ,血虚血虚血虚血虚 党参党参党参党参, ,黄芪黄芪黄芪黄芪, ,白术白术白术白术, ,绵马绵马绵马绵马贯众贯众贯众贯众, ,花蕊石花蕊石花蕊石花蕊石, ,益母草益母草益母草益母草, ,升麻升麻升麻升麻, ,槐花槐花槐花槐花, ,甘草甘草甘草甘草, ,甘草甘草甘草甘草(炙)(炙)(炙)(炙), ,侧柏叶侧柏叶侧柏叶侧柏叶, ,山药山药山药山药, ,续断续断续断续断, ,钩藤钩藤钩藤钩藤崩漏崩漏崩漏崩漏医医案案原原文文医医案案数数据据库库妇 科

56、 医 案 数 据 库 痛经痛经435435例例不孕不孕631631例例闭经闭经408408例例崩漏崩漏664664例例症状症状605605个个中药中药754754个个证型证型6363个个妇科医案共2138例WEKAWEKA软件软件 中国中医研究院周雪忠等人开发的中国中医研究院周雪忠等人开发的应用软件,此软件基于新西兰维克多大应用软件,此软件基于新西兰维克多大学研发的智能平台学研发的智能平台WEKAWEKA。妇 科 医 案 数 据 挖 掘 WEKA 软件主界面及运行界面方剂库方剂库方剂库方剂库1 1 白术,苍术,白术,苍术,白术,苍术,白术,苍术,大黄,白芍大黄,白芍大黄,白芍大黄,白芍2 2

57、白术,苍术,白术,苍术,白术,苍术,白术,苍术,红花红花红花红花3 3 白术,苍术,白术,苍术,白术,苍术,白术,苍术,白芍白芍白芍白芍方剂转化方剂转化方剂转化方剂转化成药对成药对成药对成药对1 1 白术苍术,白术苍术,白术苍术,白术苍术,白术大黄,白术大黄,白术大黄,白术大黄,白术白芍,白术白芍,白术白芍,白术白芍,苍术大黄,苍术大黄,苍术大黄,苍术大黄,苍术白芍,苍术白芍,苍术白芍,苍术白芍,大黄白芍大黄白芍大黄白芍大黄白芍2 2 白术苍术,白术苍术,白术苍术,白术苍术,白术红花,白术红花,白术红花,白术红花,苍术红花苍术红花苍术红花苍术红花3 3 白术苍术,白术苍术,白术苍术,白术苍术,

58、白术白芍,白术白芍,白术白芍,白术白芍,苍术白芍苍术白芍苍术白芍苍术白芍数据挖掘原理应用编编编编号号号号药对药对药对药对频频频频次次次次1 1白术苍术白术苍术白术苍术白术苍术3 32 2白术白芍白术白芍白术白芍白术白芍2 23 3白术大黄白术大黄白术大黄白术大黄1 14 4白术红花白术红花白术红花白术红花1 15 5苍术白芍苍术白芍苍术白芍苍术白芍2 26 6苍术大黄苍术大黄苍术大黄苍术大黄1 17 7苍术红花苍术红花苍术红花苍术红花1 18 8大黄白芍大黄白芍大黄白芍大黄白芍1 1编号编号编号编号药对药对药对药对频次频次频次频次支持度支持度支持度支持度置信度置信度置信度置信度1 1白术白术白

59、术白术苍术苍术苍术苍术3 3100100100100苍术苍术苍术苍术白术白术白术白术1001002 2白术白术白术白术白芍白芍白芍白芍2 266666666白芍白芍白芍白芍白术白术白术白术1001003 3白术白术白术白术大黄大黄大黄大黄1 133333333大黄大黄大黄大黄白术白术白术白术1001004 4白术白术白术白术红花红花红花红花1 133333333红花红花红花红花白术白术白术白术1001005 5苍术苍术苍术苍术白芍白芍白芍白芍2 266666666白芍白芍白芍白芍苍术苍术苍术苍术1001006 6苍术苍术苍术苍术大黄大黄大黄大黄1 133333333大黄大黄大黄大黄苍术苍术苍术

60、苍术1001007 7苍术苍术苍术苍术红花红花红花红花1 133333333红花红花红花红花苍术苍术苍术苍术1001008 8大黄大黄大黄大黄白芍白芍白芍白芍1 13333100100白芍白芍白芍白芍大黄大黄大黄大黄5050单味单味单味单味药频药频药频药频次次次次白术白术白术白术苍术苍术苍术苍术白芍白芍白芍白芍大黄大黄大黄大黄红花红花红花红花3 33 32 21 11 1方剂库方剂库方剂库方剂库1 1白术,苍术,大黄,白芍白术,苍术,大黄,白芍白术,苍术,大黄,白芍白术,苍术,大黄,白芍2 2白术,苍术,红花白术,苍术,红花白术,苍术,红花白术,苍术,红花3 3白术,苍术,白芍白术,苍术,白芍

61、白术,苍术,白芍白术,苍术,白芍 同时出现白芍、大黄的方剂数同时出现白芍、大黄的方剂数同时出现白芍、大黄的方剂数111“白芍大黄白芍大黄白芍大黄”支持度支持度支持度333333 总方剂数总方剂数总方剂数333 同时出现白芍、大黄的方剂数同时出现白芍、大黄的方剂数同时出现白芍、大黄的方剂数111“白芍白芍白芍大黄大黄大黄”置信度置信度置信度505050 凡出现白芍的方剂数凡出现白芍的方剂数凡出现白芍的方剂数222 同时出现白芍、大黄的方剂数同时出现白芍、大黄的方剂数同时出现白芍、大黄的方剂数111“大黄大黄大黄白芍白芍白芍”置信度置信度置信度100100100 凡出现大黄的方剂数凡出现大黄的方剂

62、数凡出现大黄的方剂数111编号编号编号编号药对药对药对药对频次频次频次频次支持度支持度支持度支持度置信度置信度置信度置信度8 8白芍白芍白芍白芍大黄大黄大黄大黄1 133335050大黄大黄大黄大黄白芍白芍白芍白芍100100设定设定最小支持度最小支持度50最小置信度最小置信度50药对药对药对药对频次频次频次频次支持度支持度支持度支持度置信度置信度置信度置信度白术白术白术白术苍术苍术苍术苍术3 3100100100100苍术苍术苍术苍术白术白术白术白术100100白术白术白术白术白芍白芍白芍白芍2 266666666白芍白芍白芍白芍白术白术白术白术100100白术白术白术白术大黄大黄大黄大黄1

63、 133333333大黄大黄大黄大黄白术白术白术白术100100白术白术白术白术红花红花红花红花1 133333333红花红花红花红花白术白术白术白术100100苍术苍术苍术苍术白芍白芍白芍白芍2 266666666白芍白芍白芍白芍苍术苍术苍术苍术100100苍术苍术苍术苍术大黄大黄大黄大黄1 133333333大黄大黄大黄大黄苍术苍术苍术苍术100100苍术苍术苍术苍术红花红花红花红花1 133333333红花红花红花红花苍术苍术苍术苍术100100大黄大黄大黄大黄白芍白芍白芍白芍1 13333100100白芍白芍白芍白芍大黄大黄大黄大黄5050支持度、置信度的设置对药对药对药对药支持支持支

64、持支持度度度度置信置信置信置信度度度度吴茱萸吴茱萸吴茱萸吴茱萸当当当当归归归归6%6%6060五灵脂五灵脂五灵脂五灵脂当当当当归归归归10%10%7474艾叶艾叶艾叶艾叶当归当归当归当归11%11%7373延胡索延胡索延胡索延胡索当当当当归归归归10107171红花红花红花红花当归当归当归当归9 97171肉桂肉桂肉桂肉桂当归当归当归当归6 67171香附香附香附香附当归当归当归当归12127070熟地黄熟地黄熟地黄熟地黄当当当当归归归归13136969最小支持度最小支持度最小置信度最小置信度本课题设定本课题设定最小支持度最小支持度5 5最小置信度最小置信度4040后后进行数据挖掘进行数据挖掘

65、再在一次挖掘结果再在一次挖掘结果中筛选中筛选支持度最高前支持度最高前1010名名置信度最高前置信度最高前1010名名高频组普 遍 挖 掘 模 式编号编号编号编号症状症状症状症状证型证型证型证型中药组成中药组成中药组成中药组成中医诊中医诊中医诊中医诊断断断断1 1经血量多经血量多经血量多经血量多, ,经血量少经血量少经血量少经血量少, ,经色褐经色褐经色褐经色褐, ,腹胀腹胀腹胀腹胀, ,腹痛腹痛腹痛腹痛, ,少腹胀少腹胀少腹胀少腹胀, ,少腹痛少腹痛少腹痛少腹痛, ,胀痛胀痛胀痛胀痛, ,心悸心悸心悸心悸, ,体倦体倦体倦体倦, ,面浮面浮面浮面浮, ,肢肿肢肿肢肿肢肿, ,口渴口渴口渴口渴,

66、 ,不欲饮不欲饮不欲饮不欲饮, ,便便便便秘秘秘秘, ,舌苔薄舌苔薄舌苔薄舌苔薄, ,舌苔白舌苔白舌苔白舌苔白, ,舌苔腻舌苔腻舌苔腻舌苔腻, ,脉沉脉沉脉沉脉沉, ,脉细脉细脉细脉细心虚心虚心虚心虚, ,脾脾脾脾虚虚虚虚柴胡柴胡柴胡柴胡, ,白芍白芍白芍白芍, ,牡丹皮牡丹皮牡丹皮牡丹皮, ,黄芩黄芩黄芩黄芩, ,龙骨(生)龙骨(生)龙骨(生)龙骨(生), ,牡蛎牡蛎牡蛎牡蛎, ,党参党参党参党参, ,白术白术白术白术, ,茯苓茯苓茯苓茯苓, ,薄荷薄荷薄荷薄荷, ,麦冬麦冬麦冬麦冬崩漏崩漏崩漏崩漏数数据据挖挖掘掘编号编号编号编号高频症状组高频症状组高频症状组高频症状组高频证型组高频证型组高

67、频证型组高频证型组高频药对高频药对高频药对高频药对1 1经血量多经血量多经血量多经血量多肢肿肢肿肢肿肢肿腹痛腹痛腹痛腹痛口渴口渴口渴口渴血瘀血瘀血瘀血瘀脾虚脾虚脾虚脾虚肝郁肝郁肝郁肝郁脾虚脾虚脾虚脾虚白芍白芍白芍白芍白术白术白术白术茯苓茯苓茯苓茯苓麦冬麦冬麦冬麦冬本本 课课 题题 数数 据据 挖挖 掘掘 结结 果果 编编编编号号号号症状症状症状症状证证证证型型型型中药组成中药组成中药组成中药组成中中中中医医医医诊诊诊诊断断断断1 1经血量多经血量多经血量多经血量多, ,经血量少经血量少经血量少经血量少, ,经色褐经色褐经色褐经色褐, ,腹胀腹胀腹胀腹胀, ,腹痛腹痛腹痛腹痛, ,少少少少腹胀腹

68、胀腹胀腹胀, ,少腹痛少腹痛少腹痛少腹痛, ,胀痛胀痛胀痛胀痛, ,心心心心悸悸悸悸, ,体倦体倦体倦体倦, ,面浮面浮面浮面浮, ,肢肿肢肿肢肿肢肿, ,口渴口渴口渴口渴, ,不欲饮不欲饮不欲饮不欲饮, ,便秘便秘便秘便秘, ,舌舌舌舌苔薄苔薄苔薄苔薄, ,舌苔白舌苔白舌苔白舌苔白, ,舌苔腻舌苔腻舌苔腻舌苔腻, ,脉沉脉沉脉沉脉沉, ,脉细脉细脉细脉细心心心心虚虚虚虚, ,脾脾脾脾虚虚虚虚柴胡柴胡柴胡柴胡, ,白芍白芍白芍白芍, ,牡牡牡牡丹皮丹皮丹皮丹皮, ,黄芩黄芩黄芩黄芩, ,龙龙龙龙骨(生)骨(生)骨(生)骨(生), ,牡蛎牡蛎牡蛎牡蛎, ,党参党参党参党参, ,白术白术白术白术,

69、 ,茯茯茯茯苓苓苓苓, ,薄荷薄荷薄荷薄荷, ,麦冬麦冬麦冬麦冬崩崩崩崩漏漏漏漏编编编编号号号号患者症状,证型,中药组成信息患者症状,证型,中药组成信息患者症状,证型,中药组成信息患者症状,证型,中药组成信息中中中中医医医医诊诊诊诊断断断断1 1经血量多经血量多经血量多经血量多, ,经血量少经血量少经血量少经血量少, ,经色褐经色褐经色褐经色褐, ,腹胀腹胀腹胀腹胀, ,腹痛腹痛腹痛腹痛, ,少腹胀少腹胀少腹胀少腹胀, ,少腹痛少腹痛少腹痛少腹痛, ,胀痛胀痛胀痛胀痛, ,心悸心悸心悸心悸, ,体倦体倦体倦体倦, ,面浮面浮面浮面浮, ,肢肿肢肿肢肿肢肿, ,口渴口渴口渴口渴, ,不欲饮不欲饮

70、不欲饮不欲饮, ,便秘便秘便秘便秘, ,舌苔薄舌苔薄舌苔薄舌苔薄, ,舌苔白舌苔白舌苔白舌苔白, ,舌苔腻舌苔腻舌苔腻舌苔腻, ,脉沉脉沉脉沉脉沉, ,脉细,心虚脉细,心虚脉细,心虚脉细,心虚, ,脾虚,柴胡脾虚,柴胡脾虚,柴胡脾虚,柴胡, ,白芍白芍白芍白芍, ,牡丹皮牡丹皮牡丹皮牡丹皮, ,黄芩黄芩黄芩黄芩, ,龙骨(生)龙骨(生)龙骨(生)龙骨(生), ,牡牡牡牡蛎蛎蛎蛎, ,党参党参党参党参, ,白术白术白术白术, ,茯苓茯苓茯苓茯苓, ,薄荷薄荷薄荷薄荷, ,麦冬麦冬麦冬麦冬崩崩崩崩漏漏漏漏高频药对高频药对高频药对高频药对白芍白芍白芍白芍白术。白术。白术。白术。数数据据挖挖掘掘高频组

71、高频组高频组高频组备注备注备注备注经血量多经血量多经血量多经血量多肢肿肢肿肢肿肢肿症状症状症状症状+症状症状症状症状血瘀血瘀血瘀血瘀脾虚脾虚脾虚脾虚证型证型证型证型+证型证型证型证型白芍白芍白芍白芍白术白术白术白术中药中药中药中药+中药中药中药中药脾虚脾虚脾虚脾虚口渴口渴口渴口渴证型证型证型证型+症状症状症状症状麦冬麦冬麦冬麦冬脾虚脾虚脾虚脾虚中药中药中药中药+证型证型证型证型白芍白芍白芍白芍口渴口渴口渴口渴中药中药中药中药+症状症状症状症状合并合并分类分类高频中药高频中药高频中药高频中药+症状组症状组症状组症状组白芍白芍白芍白芍口渴。口渴。口渴。口渴。高频中药高频中药高频中药高频中药+证型组

72、证型组证型组证型组麦冬麦冬麦冬麦冬脾虚。脾虚。脾虚。脾虚。本 课 题 挖 掘 模 式崩漏高频药对表崩漏高频药对表崩漏高频药对表崩漏高频药对表闭经高频药对表闭经高频药对表闭经高频药对表闭经高频药对表不孕高频药对表不孕高频药对表不孕高频药对表不孕高频药对表痛经高频药对表痛经高频药对表痛经高频药对表痛经高频药对表四个疾病高频药对四个疾病高频药对四个疾病高频药对四个疾病高频药对表表表表崩漏高频崩漏高频崩漏高频崩漏高频“ “中药中药中药中药症状症状症状症状” ”组表组表组表组表闭经高频闭经高频闭经高频闭经高频“ “中药中药中药中药症状症状症状症状” ”组表组表组表组表不孕高频不孕高频不孕高频不孕高频“

73、“中药中药中药中药症状症状症状症状” ”组表组表组表组表痛经高频痛经高频痛经高频痛经高频“ “中药中药中药中药症状症状症状症状” ”组表组表组表组表四个疾病高频四个疾病高频四个疾病高频四个疾病高频“ “中中中中药症状药症状药症状药症状” ”组表组表组表组表崩漏高频崩漏高频崩漏高频崩漏高频“ “中药中药中药中药证型证型证型证型” ”组表组表组表组表闭经高频闭经高频闭经高频闭经高频“ “中药中药中药中药证型证型证型证型” ”组表组表组表组表不孕高频不孕高频不孕高频不孕高频“ “中药中药中药中药证型证型证型证型” ”组表组表组表组表痛经高频痛经高频痛经高频痛经高频“ “中药中药中药中药证型证型证型证

74、型” ”组表组表组表组表四个疾病高频四个疾病高频四个疾病高频四个疾病高频“ “中中中中药证型药证型药证型药证型” ”组表组表组表组表药对药对中药症状中药症状中药证型中药证型数 据 挖 掘 结 果n n数据挖掘结果数据挖掘结果总表.doc数 据 挖 掘 结 果 再 分 析与传统理论比对 编编编编号号号号闭经高频闭经高频闭经高频闭经高频药对药对药对药对支支支支持持持持度度度度置信置信置信置信度度度度与已有药物配伍与已有药物配伍与已有药物配伍与已有药物配伍理论匹配理论匹配理论匹配理论匹配1 1仙茅仙茅仙茅仙茅淫淫淫淫羊藿羊藿羊藿羊藿8%8%97%97%仙茅、淫羊藿均善壮肾阳、仙茅、淫羊藿均善壮肾阳、

75、强筋骨、祛风湿、平肝阳。强筋骨、祛风湿、平肝阳。仙茅偏于温脾;淫羊藿偏于仙茅偏于温脾;淫羊藿偏于补肾壮阳。二药配伍,相须补肾壮阳。二药配伍,相须为用,补肾壮阳、强筋健骨、为用,补肾壮阳、强筋健骨、祛风除湿功力增强。祛风除湿功力增强。2 2巴戟天巴戟天巴戟天巴戟天当归当归当归当归7%7%84%84%未查到相关未查到相关未查到相关未查到相关理论理论3 3白术白术白术白术当当当当归归归归20%20%67%67%未查到相关理论未查到相关理论其中其中“白术当归白术当归”对药经对药经常被一起使用,白术补气健常被一起使用,白术补气健脾,当归补血活血,在临床脾,当归补血活血,在临床上常被用于气血两虚的闭经上常

76、被用于气血两虚的闭经病的治疗。病的治疗。新鲜知识分析 药对结果分析(举例)闭经病高频闭经病高频闭经病高频闭经病高频药对药对药对药对支持支持支持支持度度度度置信度置信度置信度置信度药对分析药对分析药对分析药对分析注释注释注释注释川芎当归川芎当归川芎当归川芎当归36%36%74%74%川芎其性善散,又走肝经,气中之血川芎其性善散,又走肝经,气中之血川芎其性善散,又走肝经,气中之血川芎其性善散,又走肝经,气中之血药也。当归其味甘而重,故专能补血,药也。当归其味甘而重,故专能补血,药也。当归其味甘而重,故专能补血,药也。当归其味甘而重,故专能补血,其气轻而辛,故又能行血,补中有动,其气轻而辛,故又能行

77、血,补中有动,其气轻而辛,故又能行血,补中有动,其气轻而辛,故又能行血,补中有动,行中有补,诚血中之气药,亦血中之行中有补,诚血中之气药,亦血中之行中有补,诚血中之气药,亦血中之行中有补,诚血中之气药,亦血中之圣药。二药配伍,互补为用,活血。圣药。二药配伍,互补为用,活血。圣药。二药配伍,互补为用,活血。圣药。二药配伍,互补为用,活血。养血、行气三者并举,且润燥相济,养血、行气三者并举,且润燥相济,养血、行气三者并举,且润燥相济,养血、行气三者并举,且润燥相济,当归之润可制川芎之燥;川芎之燥又当归之润可制川芎之燥;川芎之燥又当归之润可制川芎之燥;川芎之燥又当归之润可制川芎之燥;川芎之燥又可制当

78、归之腻,使祛瘀而不伤气血,可制当归之腻,使祛瘀而不伤气血,可制当归之腻,使祛瘀而不伤气血,可制当归之腻,使祛瘀而不伤气血,补血而不致气滞血瘀。从而起到活血补血而不致气滞血瘀。从而起到活血补血而不致气滞血瘀。从而起到活血补血而不致气滞血瘀。从而起到活血祛瘀、养血和血功效。祛瘀、养血和血功效。祛瘀、养血和血功效。祛瘀、养血和血功效。中国中药药中国中药药中国中药药中国中药药对数据库对数据库对数据库对数据库36%36%5353白术白术白术白术当归当归当归当归20%20%67%67%其中其中其中其中“ “白术当归白术当归白术当归白术当归” ”对药经常被一起对药经常被一起对药经常被一起对药经常被一起使用,

79、白术补气健脾,当归补血活血,使用,白术补气健脾,当归补血活血,使用,白术补气健脾,当归补血活血,使用,白术补气健脾,当归补血活血,在临床上常被用于气血两虚的闭经病在临床上常被用于气血两虚的闭经病在临床上常被用于气血两虚的闭经病在临床上常被用于气血两虚的闭经病的治疗。的治疗。的治疗。的治疗。传统理论中传统理论中传统理论中传统理论中未查到未查到未查到未查到临床分析临床分析临床分析临床分析中药症状结果分析(举例)闭经病高频闭经病高频闭经病高频闭经病高频中药症状中药症状中药症状中药症状组组组组支持度支持度支持度支持度置信度置信度置信度置信度分析分析分析分析注释注释注释注释腹痛腹痛腹痛腹痛当归当归当归当

80、归23%23%59%59%当归广泛用于多种原因所致当归广泛用于多种原因所致当归广泛用于多种原因所致当归广泛用于多种原因所致腹痛证的治疗,不论是血虚腹痛证的治疗,不论是血虚腹痛证的治疗,不论是血虚腹痛证的治疗,不论是血虚血瘀久寒所致腹痛,还是痢血瘀久寒所致腹痛,还是痢血瘀久寒所致腹痛,还是痢血瘀久寒所致腹痛,还是痢疾腹痛,产后腹痛,小儿脏疾腹痛,产后腹痛,小儿脏疾腹痛,产后腹痛,小儿脏疾腹痛,产后腹痛,小儿脏寒腹痛均可通过配伍使用寒腹痛均可通过配伍使用寒腹痛均可通过配伍使用寒腹痛均可通过配伍使用参考参考参考参考中华临中华临中华临中华临床中药学床中药学床中药学床中药学 苍术苍术苍术苍术体胖体胖体胖

81、体胖6%6%71%71%在这些新鲜知识中,在这些新鲜知识中,在这些新鲜知识中,在这些新鲜知识中,“ “苍术苍术苍术苍术体胖体胖体胖体胖” ” 苍术功效是燥湿健苍术功效是燥湿健苍术功效是燥湿健苍术功效是燥湿健脾,祛风除湿体胖:主证是脾,祛风除湿体胖:主证是脾,祛风除湿体胖:主证是脾,祛风除湿体胖:主证是阳气不足,多痰多湿,临床阳气不足,多痰多湿,临床阳气不足,多痰多湿,临床阳气不足,多痰多湿,临床上常配合使用,苍术经常用上常配合使用,苍术经常用上常配合使用,苍术经常用上常配合使用,苍术经常用于妇女减肥。于妇女减肥。于妇女减肥。于妇女减肥。 传统理论中未传统理论中未传统理论中未传统理论中未查到查到

82、查到查到临床分析临床分析临床分析临床分析中药证型结果分析(举例)痛经病高频中痛经病高频中痛经病高频中痛经病高频中药证型组药证型组药证型组药证型组支持度支持度支持度支持度置信度置信度置信度置信度分析分析分析分析注释注释注释注释莪术莪术莪术莪术瘀瘀瘀瘀 10%10%88%88%莪术辛苦温,破血行气,莪术辛苦温,破血行气,莪术辛苦温,破血行气,莪术辛苦温,破血行气,消积止痛。消积止痛。消积止痛。消积止痛。参考参考参考参考中药学中药学中药学中药学小茴香小茴香小茴香小茴香寒寒寒寒13%13%77%77%小茴香性辛温,散寒止小茴香性辛温,散寒止小茴香性辛温,散寒止小茴香性辛温,散寒止痛,理气和中。痛,理气

83、和中。痛,理气和中。痛,理气和中。传 统 知 识 比 对高频药对参考药对书籍和中药配伍书籍高频“中药症状”组高频“中药证型”组参考中药功效书籍新 鲜 知 识 分 析高频药对高频药对高频药对高频药对高频中药症状组高频中药症状组高频中药症状组高频中药症状组崩漏崩漏崩漏崩漏50.0050.0036.36%36.36%闭经闭经闭经闭经20.0020.0013.33%13.33%不孕不孕不孕不孕57.10%57.10%11.11%11.11%痛经痛经痛经痛经33.33%33.33%20.00%20.00%传统知识未查到的挖掘结果的再利用率药对挖掘结果与中药频次统计结果比较表之一支持度最高前支持度最高前支

84、持度最高前支持度最高前1010名名名名置信度最高前置信度最高前置信度最高前置信度最高前1010名名名名涉及的涉及的涉及的涉及的中药数中药数中药数中药数所涉及中药在所涉及中药在所涉及中药在所涉及中药在单味药用药频单味药用药频单味药用药频单味药用药频次前次前次前次前1010名中出名中出名中出名中出现味数现味数现味数现味数涉及的涉及的涉及的涉及的中药数中药数中药数中药数所涉及中药在所涉及中药在所涉及中药在所涉及中药在单味药用药频单味药用药频单味药用药频单味药用药频次前次前次前次前1010名中出名中出名中出名中出现味数现味数现味数现味数崩漏崩漏崩漏崩漏8 87 716163 3闭经闭经7 77 713

85、133 3不孕不孕不孕不孕8 88 812122 2痛痛痛痛经经7 76 611113 3药对挖掘结果与中药统计结果比较有效有效有效有效结结果果果果验证传统验证传统知知识识:中:中药药高高频组频组的符合率是的符合率是70%70%,中,中药药+ +症状高症状高频组频组的符合率是的符合率是39%39%,中,中药药+ +证证型型高高频组频组的符合率是的符合率是100%100%产产生新知生新知生新知生新知挖掘出一些挖掘出一些传统传统理理论论并未并未论论述的知述的知识识。一些用一些用药规药规律在医律在医师师的就的就诊诊期期间经间经常被使用常被使用. .药药物之物之间间关系被量化表达例如仙茅关系被量化表达

86、例如仙茅+ +淫淫羊藿是羊藿是结结合最合最紧紧密地一密地一对药对对药对,几乎不,几乎不单单独出独出现现,而且而且这这种种紧紧密密结结合的关系又有置信度合的关系又有置信度95%95%这样这样的的数数值值支持,支持,传统传统理理论论和方法都无法如此定量的表和方法都无法如此定量的表达达这这种关系。就种关系。就结论和意义数据挖掘体会o1,尽管似乎完成了整个数据挖掘过程,但每一个环节都其实都很值得深入,都还有很多值得探讨的o2,数据采集:信息真实性,可靠性,代表性都存疑o3,数据预处理:规范整齐的数据是最大的问题,目前中医药标准化程度低。o4,数据挖掘:算法,借用的算法,不一定适合中医。o5,结果分析:应用2024/8/25125无忧无忧无忧无忧PPTPPTPPTPPT整理发布整理发布整理发布整理发布谢谢大家!2010-7-2127

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号