SAS软件应用之典型相关分析

资源描述

《SAS软件应用之典型相关分析》由会员分享，可在线阅读，更多相关《SAS软件应用之典型相关分析（55页珍藏版）》请在金锄头文库上搜索。

1、第20章典型相关分析,学习目标,了解典型相关分析的数学表达方式，假定条件；熟悉典型相关系数的数学含义；掌握典型变量系数的数学含义；掌握简单相关，复相关和典型相关的意义；掌握典型相关分析的SAS过程步：CANCORR过程步。,概述,对于两个变量，是用它们的相关系数来衡量它们之间的线性相关关系的。当考虑一个变量与一组变量的线性相关关系时，是用它们的多重相关系数来衡量。但是，许多医学实际问题中，常常会碰到两组变量之间的线性相关性研究问题。例如，教育研究者想了解3个学术能力指标与5个在校成绩表现之间的相关性；对于这类问题的研究引进了典型相关系数的概念，从而找到了揭示两组变量之间线性相关关系的一种统计

2、分析方法典型相关分析。,典型相关,典型关系分析是分析两组变量之间相关性的一种统计分析方法，它包含了简单的Pearson相关分析（两个组均含一个变量）和复相关分析（一个组含有一个变量，而另一组含有多个变量）这两种特殊情况。典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。,典型相关,典型相关分析方法的基本原理是：所有研究的两组变量为x组和y组，x 组有p个变量， y 组有q个变量，则分别对这两组变量各做线性

3、组合后，再计算此两加权和的简单相关系数，然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。即,典型相关,对于任意一组系数和都可以通过上式求出一对典型变量，典型相关分析中称之为典型变量。进而可以求出典型变量的简单相关系数，称之为典型相关系数。x 组的p个变量组合成一个，y组的q个变量也组合成一个，然后计算简单相关来衡量两组之间的相关性。问题是如何组合？,典型相关,设两组变量分别为x组有p个变量，而y组有q个变量，我们先分别把x组和y组的变量组合起来（当然是用线性组合），也就是其中这些系数都是一些常数，就是组合的比例，由于是线性组合，所以且。,典型相关,有两个问题需要解决：给定

4、不同组合比例以及，都可以算出不一样的简单相关系数，这使得这个方法非常的不科学，每个人都可以依照自己的喜好来决定组合比例，并且在衡量两组变量之间相关性的问题上，也没有一个统一的标准。各组内变量之间的尺度不太相同，例如身高的尺度跟脚掌长度的尺度就不相同，显然前者的变异数会大于后者，这种情况是不合理的。,典型相关,针对第一个问题，“在所有的组合中，寻找一个组合使得简单相关系数为最大”，可能是个好想法；另外，寻找一个组合使得简单相关系数为最小，此简单相关系数就是典型相关系数，而典型相关系数的平方称为典型根。,典型相关,对于第二个问题，解决的方法就是对资料进行标准化。典型相关分析的第一步是估计组合系

5、数，使得对应的典型变量和的相关系数达到最大。这个最大的相关系数是第一典型相关系数，且称具有最大相关系数的这对典型变量为第一典型变量。,典型相关,典型相关分析的第二步是再次估计组合系数，使得对应的典型变量相关系数达到第二大，且第二对典型变量中的第一次变量与第一对典型变量中的每一个变量不相关。这个最二大的相关系数是第二典型相关系数，且称具有最二大相关系数的这对典型变量和为第二典型变量。如果两个组中变量的个数为p，q，pq，那么寻求典型变量的过程可以一直连续进行下去，直到得到p对典型变量为止。,典型相关,从上述分析的过程可以看出，第一对典型变量的第一典型相关系数描述了两个组中变量之间的相关程度，且它

6、提取的有关这两组变量相关性的信息量最多。第二对典型变量的第二典型相关系数也描述了两个组中变量之间的相关程度，但它提取的有关这两组变量相关性的信息量次多。以此类推，,典型相关,可以得知，由上述方法得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息，特别是如果一对典型变量就能够反映出原数据的主要信息，那么，对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。,典型相关分析的理论架构,设两组变量分别为x组有p个变量，而y组有q个变量，典型相关分析是找x

7、组的线性组合与y组的线性组合，使得简单相关系数为最大，其中,典型相关分析的理论架构,设x组的共变异数矩阵为， y组的共变异数矩阵为，x与y的共变异数矩阵为，则的变异数为的变异数为共变异数为,典型相关分析的理论架构,典型变量的系数称为典型权重，权重愈大表示此变量对此典型变量的贡献愈大。在以上的计算中，此权重为标准化后的资料所得的，故k个资料的第i 典型变量得点为,冗余分析,冗余分析是通过原始变量与典型变量间的相关性，分析引起原始变量变异的原因。以原始变量为因变量，以典型变量为自变量，建立线性回归模型，则相应的确定系数等于因变量与典型变量间的相关系数的平方，它描述了由于因变量与典型变

8、量的线性关系引起的因变量变异在因变量的总变异中的比例。典型负荷为变量与典型变量的相关系数，可由相关系数的平方了解此典型变量解释了此变量多少比例的变异数。,CANCORR过程,SAS系统中利用CANCORR过程步进行典型相关分析。CANCORR过程的语法格式如下： PROC CANCORR DATA= OUTSTAT= OUT= ALL ; VAR 一组变量; WITH 另一组变量; PARTIAL 变量; RUN;,CANCORR过程,DATA语句指定要分析的数据集名及一些选项，它可以是原SAS数据集，也可以是corr、cov、ucorr、ucov等矩阵。ALL选择项指令输出所有结果。CORR

9、选择项指令输出原始变量间的相关系数矩阵。VP选择项用来为VAR语句中变量的典型变量命名前缀，名字不超过40个字符串长。,CANCORR过程,WP选择项用来为WITH语句中变量的典型变量命名前缀，名字不超过40个字符串长。EDF选择项用来指定该回归分析的残差自由度。VAR语句列出两组变量中的第一组变量。若缺省，则所有不出现在其它语句中的数值变量均将列在第一组内。WITH语句列出两组变量中的第二组变量。该语句不能省略。PARTIAL语句用来指定协变量。系统以此协变量来计算偏相关系数矩阵，然后进行典型相关分析。另外，freq语句、weight语句、by语句等也实用。,本章小节,典型相关分析的基本思想

10、和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。典型相关分析方法的基本原理是：所有研究的两组变量为x组和y组，x 组有p个变量， y 组有q个变量，则分别对这两组变量各做线性组合后，再计算此两加权和的简单相关系数，然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。,本章小节,有典型相关分析得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信

11、息，特别是如果一对典型变量就能够反映出原数据的主要信息，那么，对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。,本章小节,冗余分析是通过原始变量与典型变量间的相关性，分析引起原始变量变异的原因。以原始变量为因变量，以典型变量为自变量，建立线性回归模型，则相应的确定系数等于因变量与典型变量间的相关系数的平方，它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中的比例。通过实例详细介绍了CANCORR过程步的语法及基本格式，并阐述了如何利用此SAS过程步进行典型相关分析以及进行结果解释。,第21章诊断试验的R

12、OC分析,学习目标,熟悉诊断试验的常用评价指标；熟悉ROC曲线的含义以及构建；通过SAS实例掌握进行ROC分析的SAS程序；,概述,诊断性试验是对疾病进行诊断的试验方法，它不仅包括实验室检查，还包括各种影像诊断，如X-诊断、CT、核磁共振(MRI) 、超声波诊断以及同位素检查、纤维内诊镜、电镜等诊断方法。诊断性试验(diagnostic test) 的质量通常用敏感度和特异度来衡量。在同一试验中，如果取不同的临界值，则可得到不同的敏感度和特异度，将这些点在以敏感度为Y轴，以(1-特异度) 为X轴的坐标上标出并连成线，就可得到一条ROC曲线。,概述,曲线上最接近左上角的一点的坐标就表示这一试验的

13、敏感度和特异度。对同一检测指标的多个不同试验进行Meta 分析，可根据它们的比值比的权重，用一条ROC曲线表示出来，这条曲线称为SROC 曲线，从这条SROC 曲线得到该组研究的敏感度和特异度，这样的方法称SROC法或集成ROC法。自从八十年代起该方法广泛用于医学诊断性能的评价，如用于诊断放射学实验室医学癌症的筛选和精神病的诊断尤其是医学影像诊断准确性的评价。,诊断试验,对于诊断试验的评价，首先应知道受试者（人、动物或影像等）的真实类别，即哪些属于对照组(或无病组，正常组，噪声组等)，哪些属于病例组(或有病组，异常组，信号组等)。划分病例与对照这两个组的标准就是金标准。医学研究中常见的金标准有

14、：活组织检查、尸体解剖、手术探查和跟踪随访结果等。尽管金标准不需要十全十美，但是它们应比评价的诊断试验更加可靠，且与评价的诊断试验无关。,诊断试验,对于按金标准确定的二项分类总体，如病例与对照(分别记为D+与D-)，采用诊断试验检测的结果可分别写成阳性与阴性（记为T+与T-），资料可列成表21-1的四格表形式。表中有四个可能结果，其中两个是正确的，即病例被诊断为阳性（真阳性，TP）和对照被诊断为阴性（真阴性，TN）；两个是错误的，即病例被诊断为阴性（假阴性，FN）和对照被诊断为阳性（假阳性，FP）。,诊断试验,诊断试验评价指标,评价诊断试验的常用指标有一致百分率、灵敏度、特异度、Youden指

15、数、阳性似然比、阴性似然比、阳性预报值和阴性预报值。,一致百分率,一致百分率是病例正确诊断为阳性与对照正确诊断为阴性的例数之和占总例数的百分率。计算公式为：其标准误为,一致百分率,一致百分率很大程度上依赖于患病率，如某病的患病率为5%，即使不采用诊断试验，且将所有研究个体划归为阴性，也可得到一致百分率为95%；其次，它没有利用假阴性和假阳性的信息，相同的一致百分率可能有十分不同的假阴性和假阳性；第三，它还受诊断界点的限制。因此，诊断试验评价只用该指标粗略地表达诊断试验的一致性，更常用的诊断试验评价指标是灵敏度、特异度等。,灵敏度,实际患病且被诊断为阳性的概率就是灵敏度，也称为真阳性率，即：其标准误为：该指标只与病例组有关，反映了诊断试验检出病例的能力。,特异度,实际未患病且被诊断为阴性的概率就是特异度，即：其标准误为：该指标只与对照组有关，反映了诊断试验排除非病例的能力。,

展开阅读全文