主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用

上传人:油条 文档编号:1239850 上传时间:2017-06-04 格式:DOC 页数:10 大小:33KB
返回 下载 相关 举报
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第1页
第1页 / 共10页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第2页
第2页 / 共10页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第3页
第3页 / 共10页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第4页
第4页 / 共10页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用》由会员分享,可在线阅读,更多相关《主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用(10页珍藏版)》请在金锄头文库上搜索。

1、1主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用作者:李建婷,邓兆智, 郭新峰,余煜棉 【摘要 】 【目的】应用主成分分析法(PCA)结合马氏距离判别法对类风湿性关节炎(RA)患者的症状、体征进行分析,最终建立辨证分型“量化指标”的计算机软件,使中医证候具体化、数据化。【方法】从对 RA 的中医诊断证候的分类中选取广州地区常见的中医证候类型,对入选病例的症状、舌象、脉象及局部关节体征的出现频数、持续时间、性质、程度等项目进行积分法的量化记录。用计算机模式识别法中主成分分析法结合马氏距离判别法处理上述各种临床数据,对其证候进行分类判别。 【结果】训练样本 200 例,判别准确

2、率 96.53;预报样本 42 例,判别准确率 92.50,总242 例,判别准确率 95.87。 【结论】主成分分析法结合马氏距离判别法对 RA 证候的判别分类所得出的结果和临床医生判断的结果基本一致。说明本法能使中医的辨证分型诊断在保持中医特色的前提下实现标准化和规范化。 【关键词】关节炎,类风湿性/诊断;证候;主成分分析法;马氏距离判别法 计算机模式识别法是基于多元统计分析基础上的一种方法,2它是将难以判别的高维空间的几何特征从空间区域划分和从其属性出发,降维到人们可以识别的一、二维平面上进行识别比较的一种处理多元数据的非函数的图像识别方法13 。其中主成分分析法(PCA)与马氏距离判别

3、法是模式识别技术中分类判别方法中的两种。PCA 研究如何将多个彼此相关、信息重叠的指标变量通过适当的线形组合成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合成分,用以描述观察单位的特征。马氏距离判别法可通过对已知分类样本数据的识别学习,建立相应的判别规则,进而对未知样本进行分类判别。在中医证候研究中,可通过运用 PCA法将各种相关但又有可能重叠的症状、体征等变量提取出来并组成综合成分,再结合马氏距离判别法对其进行判别;应用计算机的统计、分析功能及计算机人工智能的理论和技术,结合中医学的理论和中医专家的知识、经验以达到应用计算机来实现辨证论治的目的。中医的“证”是疾病发展过程中某一阶

4、段的本质属性的高度概括,它是独特症状的集合群。用模糊数学语言来讲, “证”可看作是一种由相应的“症”所构成的模糊集合,症的不同的模糊集合,构成了不同的证,通过对“症” 、 “证”等模拟量化的方法,可建立起符合中医诊疗思维规律的相应疾病的数学模型,从而进行辨证施治3 。本研究通过对类风湿性关节炎(RA)患者的临床症状、体征进行定性定量,由医生诊断其证候类型后,将原始数据输入计算机,3利用 PCA 法结合马氏距离判别法对 RA 患者及其最常见的寒热错杂证、湿热阻络证、寒湿阻络证、气阴两虚证、痰瘀阻络证进行判别,对 RA 的症状指标由计算机进行筛选,从中选出多个因素作为特征参量,进行分类判别,以期建

5、立 RA 辨证分型“量化指标”的计算机软件,使中医证候具体化、数据化。 1 研究对象与方法 1.1 诊断标准西医诊断标准按 1987 年美国风湿病学会制定的RA 诊断标准。RA 中医证候分类是在 中药新药临床研究指导原则 、 实用中医风湿病学 4 、 中医证候诊断治疗学 5 的基础上,结合广东地区患者的常见症状,以关节局部疼痛、肿胀、畸形、挛缩、僵硬及关节被动运动等体征为主证,按症状和体征出现的频数、持续时间、性质程度、与外界刺激的关系等归纳为 54 个指标,即关节红、肿、触热、酸痛、刺痛、冷痛、活动后痛、麻胀、拘急、晨僵、强直变形、结节红斑、重着、怕冷、喜暖、自觉发热、屈伸不利、局部紫黯、功

6、能、X 线片、发热、恶风寒、口渴、烦热、遇天冷湿发作、面色(白光)白、面色晦暗、眼睑浮肿、五心烦热、咽干、失眠多梦、眩晕、盗汗、午后潮热、倦怠、气短乏力、易汗、眼干、口干不欲饮、手足不温、胸脘满闷、纳差、遗精、月经量少、肌肤无泽、形体消瘦、腰膝酸软、耳鸣、尿黄、尿频、夜尿、大便烂、大便溏、大便干。按症状、体征的有无与轻重程度,分别计为02 分、24 分、46 分、68 分。根据计分的多少,将 RA 患者分为寒热错杂组、湿热阻络组、痰瘀阻络组、气阴两虚组、寒湿阻4络组。 1.2 研究对象选择 19972000 年广州中医药大学第二附属医院风湿病专科连续收治的 300 例 RA 患者。 1.3 调

7、查方法采取住院医师、主治医师、主任医师三级调查负责制,由住院医师先进行望、闻、问、切四诊,根据诊断标准判别证型,再由主治医师、主任医师分别进行,最后统一意见。 1.4 统计学处理首先根据指标的权重值大小并结合 t 检验从中选取最有效的特征参量,然后用 BASIC 语言编制 PCA 及马氏距离判别法,对证候进行分类判别并与临床判断比较。运用 PCA 可对原始变量进行线性组合,建立 m 个新的变量,即主成分。这批新变量都是旧变量的线性组合,各新变量间是相互独立的,与线性无关。同时在新变量中,方差最大的为第 1 主成分,方差次大的为第 2 主成分方差最小的为第 m 个主成分,方差最小的贡献最小;原始

8、变量作线性变换、组合之后,构成新的主成分。将有用的信息尽可能集中到前面的若干主成分,再用信息较集中的若干主成分建立数学模型或者作图形输出。马氏距离判别法设有 3 个母体 G1、G2 和G3,均有 m 个特征值,分别有 n1、n2 、n3 个样本,对这些已知分类样本数据进行识别学习,通过计算找出各类样本在高维空间的重心,建立判别函数(或规则) ,然后计算待判未知类别的样本点到各类“重心”的马氏距离,将待判样本判为距离短的那一类;或者将各已知分类的样本点从高维空间降维到二维平面上形成各类样本的二维区域,待判样本为所落在区域的那一点。 52 结果 对 300 例 RA 样本根据正态分布及症状典型情况

9、进行筛选,以 200 例作为训练样本,42 例作为预报样本,采用马氏距离判别法,对样本进行分类。结果如下:寒热错杂证候训练样本 45 例,预报样本 12 例;寒湿阻络证候训练样本 41 例,预报样本 13 例;气阴两虚证候训练样本 39 例,预报样本 8 例;湿热阻络证候训练样本 39 例,预报样本 5 例;痰瘀阻络证候训练样本 36 例,预报样本 4 例。 2.1RA 的分类特征参量 PCA 法结果见表 13 及图 1。 根据 RA 的 54 个变量的权重值大小以及 t 检验结果,对变量进行筛选,经过反复试验,结果表明以下 17 个变量判别准确率最高,达 96.5%,将其筛选出作为 RA 的

10、分类特征参量。这 17 个变量为关节肿(X1) 、触热( X2) 、晨僵(X3) 、强直变形(X4) 、结节红斑(X5) 、怕冷( X6) 、喜暖(X7) 、自觉发热(X8) 、屈伸不利(X9 ) 、局部紫黯(X10) 、功能(X11) 、X 线片(X12 ) 、口渴(X13) 、遇天冷湿发作(X14) 、倦怠(X15) 、眼干(X16 ) 、便溏(X17) 。 由表 1 结果可以看出关节肿(X1) 、晨僵( X3) 、屈伸不利(X9) 、功能( X11) 、X 线片(X12)等几项分值较高,说明在 RA6患者中这几个变量起着重要作用。这与临床以及 RA 西医诊断标准都是一致的。 17 个因素

11、之间的相互关系:若两因素之间的相关系数 r 为正数时为正相关,r 为负数时为负相关,但只有 r 的绝对值大于r0.050.138 时才具有统计学意义,可信度为 95。 表 2 表明:(1)显著相关的变量为:肿与触热、晨僵、强直变形、自觉热、屈伸不利、功能、X 线片、口渴;强直变形与肿、晨僵;结节红斑与晨僵;喜暖与怕冷;自觉热与肿、触热;屈伸不利与肿、触热、晨僵、强直变形;功能与肿、触热、晨僵、强直变形、自觉热、屈伸不利;X 线片与肿;触热、晨僵、强直变形、自觉热、屈伸不利、功能;口渴与肿;遇天冷湿发作与怕冷;倦怠与触热、晨僵、怕冷、功能;眼干与晨僵、结节红斑、倦怠;便溏与眼干。 (2)负相关的

12、变量为:眼干与强直变形、怕冷;便溏与触热、遇天冷湿发作;自觉热与怕冷;遇天冷湿发作与触热、结节红斑、自觉热。 表 3 为各主成分对应的信息量占总信息量的百分数。各个主成分并不代表某一证候(变量) ,在表 3 中主成分 1、2 所占信息量为 26.7和 18.7,其他各主成分均占百分之几的信息,反映了在类风湿的证候分型中,原来的 17 个变量,没有哪一个变量特别敏7感,所以只能用多个变量提供的信息总和进行证候判别。由图 1 可见,5 类样本点大体上都聚集在各自不同的区域,其图界基本上是清楚的,说明分类成功。如果增加或减少变量都可发现判别准确率降低,图界不清晰;如果变量增减变动过大,则可使数据点集

13、混合交错,分类不清。 图中横坐标为 PCA1(主成分 1) ,纵坐标为 PCA2(主成分2) ;1.寒热错杂证;2.湿热阻络证;3.气阴两虚证;4.寒湿阻络证;5.痰瘀阻络证 图 1200 个样本 17 个变量的 PCA 法输出图(略) 2.2 马氏距离判别法结果 从表 4 可知,寒热错杂证判别准确率为 96.49,湿热阻络证为 96.30,气阴两虚证为 89.36,寒湿阻络证为 97.73,痰瘀阻络证为 100。总训练样本 200 例,判别准确率 96.53;预报样本 42 例,判别准确率 92.5,总判别准确率 95.87。本研究证明,主成分分析法结合马氏距离判别法对 RA 证候的判别分类

14、所得出的结果和临床医生判断的结果基本一致。从而证实了中医证候理论的客观性和科学性,说明本法能使中医的辨证分型诊断在保持中医特色的前提下得以标准化和规范化,并在某种程度上减少了临床医生的主观性,有利于中医辨证分型诊断的标准化、规范化。 表 1 总样本 17 个变量的平均值和标准差(略) 表 2 各因素的相关系数(17 个变量) (略) 8表 3 主成分 117 提取的特征根及所占信息比例(略) 表 417 个变量的马氏距离判别法结果(准确率) (略) 3 讨论 计算机模式识别技术是国内外广泛应用的建立在计算机技术和多元统计分析基础上的一种非函数的方法。这种技术避免建立因素(变量)间的严格的数学关

15、系,采用一定的数学统计手段去研究由数据组成的高维空间,寻找规律,进行聚类、判别、预报等研究。人类自身只能识别三维以下空间的样本点的聚集状态,对于三维以上空间的识别要借助一定的统计手段多元统计分析技术。计算机模式识别技术就是其中一种十分有效的研究高维空间的手段,它借助于计算机技术将高维空间的样本点分布,利用一定的数学模型降维到人类能判别的一、二、三维空间上,让人们对样本点进行比较、判别及预报等研究,进而探讨变量间的关系。 本研究主要采用马氏距离判别法和主成分分析法两种方法进行判别分析。其优点在于因判别函数和判别规则并不牵涉到分布的类型,可以不要求母体为正态分布,具有广泛的实际意义。本文主要利用

16、PCA 技术输出降维图形。为获得更多信息量,我们一般选用主成分 1、2 进行图形输出。因为主成分提供的信息量最多,最能反映原始数据在高维空间的聚集态,能较有效地表现原始数据在空间上的分布情况。从主成分分析法中的相关系数矩阵可看出大部分9结果与临床相符,如遇天冷湿发作与怕冷,怕冷与喜暖显著相关,遇天冷湿发作增加,怕冷亦会增加;怕冷增加,喜暖亦会增加,这与临床上是一致的。自觉热与喜暖、怕冷呈负相关,自觉热增加,则喜暖、怕冷减少。证明计算机模式识别法的结果与临床常规诊断的一致性。 计算机的判断与临床判断也有不尽一致的地方,从图 1 可看出不同类的样本虽然基本上聚集在不同区域,但仍有一些样本并非落在本区域内而是混杂在其他区域中,这一方面是由于我们只用了主成分 1 和 2 两个主成分作图,仅仅占全部的百分之四十多,即我们从 17 维空间中降维到二维平面上来判别,这二维只能反映信息量的 45左右,所以分类不可能 100清楚。另一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 大学论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号